Sesgo de la IA en el cribado de currículums: por qué los LLM prefieren CV escritos por IA (estudio 2025)

8 min de lectura · Actualizado el 5 de junio de 2026

En resumen

Un estudio publicado en 2025 en ACM EAAMO/AIES (Xu, Li & Jiang, arXiv:2509.00462) probó siete LLM principales — GPT-4o, GPT-4-turbo, GPT-4o-mini, LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B y DeepSeek-V3 — y descubrió que los filtros de IA prefieren sistemáticamente CV escritos por su propio modelo frente a versiones idénticas escritas por humanos o por IA competidoras. GPT-4o eligió su propio CV el 82% de las veces; LLaMA 3.3-70B el 79%; DeepSeek-V3 el 72%; el resto entre 65 y 82%. En simulaciones de contratación en 24 ocupaciones, los candidatos que usaron el mismo LLM que el filtro del reclutador tenían entre un 23 y un 60% más de probabilidades de ser preseleccionados que candidatos igualmente cualificados con CV escritos a mano — la mayor desventaja en roles de negocio como ventas y contabilidad. Causa: el texto de baja perplejidad (familiar para el modelo) gana en automático. Conclusión práctica: escribe tú el contenido de tu CV, usa la IA solo para pulir el lenguaje, nunca pegues un CV generado por IA tal cual si no sabes qué modelo de filtrado usa el empleador, y declara la asistencia de IA si un puesto pide esa política.

Qué encontró realmente el estudio

En septiembre de 2025, tres investigadores — Jiannan Xu (University of Maryland), Gujie Li (Cornell) y Jane Yi Jiang — publicaron un artículo titulado «AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights» (arXiv:2509.00462; presentado en ACM EAAMO 2025 y AIES 2025). Es la primera prueba empírica a gran escala de una pregunta sobre la que la comunidad de equidad de la IA llevaba dos años girando: cuando los LLM evalúan texto, ¿prefieren en secreto el texto que suena como su propia escritura?

El planteamiento era limpio. Tomaron 2.245 CV reales anonimizados de LiveCareer.com, abarcando 24 categorías ocupacionales. Para cada CV generaron reescrituras con IA usando siete LLM — tres comerciales (GPT-4o, GPT-4-turbo, GPT-4o-mini) y cuatro de código abierto (LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3). Después pidieron a cada modelo que evaluara pares de CV (uno escrito por sí mismo, otro por un humano o por un modelo competidor) y eligiera al candidato más fuerte. La calidad del contenido se controló — mismo puesto, misma experiencia, mismos logros — solo difería la superficie de la prosa.

El resultado: cada modelo prefería su propia escritura, a menudo dramáticamente. Tasas de auto-preferencia por modelo frente a CV escritos por humanos:

GPT-4o — 82% (eligió su propio CV en 4 de cada 5 casos)
LLaMA 3.3-70B — 79%
DeepSeek-V3 — 72%
GPT-4-turbo y Qwen-2.5-72B — ambos por encima del 65%
Mistral-7B — 28% (uno de los pocos resultados casi neutros)
LLaMA 3.2-3B (el más pequeño probado) — 11,6% (los modelos más pequeños mostraron casi cero sesgo, sugiriendo que el efecto escala con la capacidad del modelo)

Crucial: el sesgo sobrevivió a las pruebas de robustez. Emparejar los pares de CV por contenido semántico mediante BERTScore y ROUGE-L, o por estilo de escritura mediante características lingüísticas LIWC, no lo hizo desaparecer. La preferencia no rastreaba calidad ni estilo — rastreaba si el texto sonaba como las propias salidas del modelo evaluador.

Por qué ocurre — el mecanismo de la perplejidad

Los LLM puntúan internamente cada entrada por perplejidad — a grandes rasgos, cuánto sorprende al modelo cada token siguiente. El texto que el modelo habría generado plausiblemente por sí mismo tiene baja perplejidad (predecible, familiar); el texto escrito en un estilo desconocido o con frases raras tiene alta perplejidad. El estudio de Xu/Li/Jiang encontró que cuando se les pide a los LLM que valoren la calidad del texto, asignan puntuaciones significativamente más altas a pasajes de baja perplejidad — incluso cuando la calidad real del contenido es idéntica.

La forma más simple de pensarlo: un evaluador LLM no está juzgando realmente «¿es este un buen CV?». Está ejecutando un cálculo semi-consciente de «¿se parece este CV al tipo de cosa que yo habría escrito?», y luego proyecta ese reconocimiento de fluidez sobre la calidad. Familiaridad → fluidez → juzgado como de mayor calidad. La menor perplejidad gana sobre la mayor, sin más, incluso cuando ambos candidatos son objetivamente igual de buenos.

Es el mismo mecanismo psicológico que tenemos los humanos cuando juzgamos como «más clara» o «más profesional» la escritura que refleja nuestro propio estilo — pero en los LLM opera mucho más rápido y sin introspección. Los investigadores señalan que esto no es un fallo de un modelo específico. Es una propiedad sistémica de cómo los modelos de lenguaje basados en transformers puntúan texto. Cada LLM importante presenta alguna versión de esto.

El impacto en el mundo real — 23-60% más preselecciones

Saber que un LLM prefiere su propia escritura al 82% en una prueba de pares controlada es académicamente interesante. La pregunta real es: ¿importa cuando compites contra una pila de otros candidatos por un empleo real?

Para averiguarlo, los autores ejecutaron pipelines de contratación simulados en las 24 categorías ocupacionales. En cada ronda: se reunía un grupo de candidatos, algunos tenían sus CV refinados por GPT-4o (el modelo de filtrado del reclutador), otros usaban LLM diferentes, otros mantenían sus CV originales escritos a mano. El LLM de filtrado entonces clasificaba el grupo y producía una preselección.

Los candidatos cuyos CV habían sido refinados por el mismo LLM que el filtro (GPT-4o → GPT-4o) tenían entre un 23 y un 60% más de probabilidades de entrar en la preselección que candidatos igualmente cualificados con CV escritos a mano. Las mayores desventajas — cerca del extremo del 60% — aparecieron en ocupaciones orientadas al negocio: ventas, contabilidad, marketing, atención al cliente. Las brechas menores aparecieron en roles técnicos donde el contenido del CV (herramientas específicas, lenguajes, certificaciones) supera al estilo de la prosa.

Tradúcelo a la realidad de la búsqueda de empleo: si un puesto de ventas recibe 200 aspirantes y el ATS del reclutador prefiltra con GPT-4o, un aspirante que pulió su CV con GPT-4o tiene estadísticamente muchas más probabilidades de llegar a la pila de revisión humana que un aspirante de idéntico calibre cuyo CV se escribió sin IA. Eso no es una pequeña ventaja.

Por qué es más importante que «otro sesgo más de la IA»

La investigación sobre equidad de la IA ha pasado una década documentando sesgos contra grupos demográficos — género, raza, edad, discapacidad. Esos sesgos están bien entendidos y se legisla activamente contra ellos en la UE (clasificación de alto riesgo de la IA de contratación en la AI Act) y varias jurisdicciones de EE. UU. (NYC Local Law 144, Illinois AI Video Interview Act, etc.).

El sesgo de auto-preferencia es distinto. No rastrea una característica protegida; rastrea si has usado la misma marca de IA que tu empleador. Suena inofensivo — hasta que notas que el mercado de los LLM está concentrado. GPT-4o (OpenAI) es el modelo de filtrado más ampliamente desplegado en el mundo corporativo, y también es el LLM de consumo más utilizado. El sesgo, por tanto, favorece sistemáticamente a candidatos con suscripciones de pago a ChatGPT frente a candidatos que usan Claude, Gemini o DeepSeek gratuitos — y frente a candidatos que escriben sin IA en absoluto.

Es un sesgo acoplado a la riqueza y al acceso escondido dentro de lo que parece un proceso algorítmico neutral. A diferencia del sesgo demográfico, ninguna regulación existente lo aborda. Los autores piden explícitamente marcos de equidad ampliados para cubrir «interacciones IA-IA» — sesgos que emergen no de cómo un algoritmo trata a una persona, sino de cómo un algoritmo trata la salida de otro algoritmo. Esa categoría de daño es nuevísima en la literatura política.

Qué significa para ti, el candidato

Sin pánico. El sesgo es real, pero la respuesta racional no es «nunca uses IA» — es «usa la IA de un modo que no haga tu CV trivialmente identificable como salida de un modelo». Cinco implicaciones prácticas:

Escribe tú la sustancia. Logros específicos, números, fechas, nombres de proyectos, el contenido real de tu puesto — son hechos que la IA no puede inventar sin alucinar. Anotarlos tú mismo es innegociable tanto por honestidad como para prevenir los delatores obvios (empresas inventadas, porcentajes sospechosamente redondos).
Usa la IA para pulir, no para redactar. Pedir a un LLM «reescribe mi bullet para que suene más impactante» te da una mejora de redacción sobre tu contenido real. Pedirle «escríbeme un CV para un responsable de marketing» te da prosa IA genérica que delata su origen a cada filtro — y a cualquier revisor humano con dos meses de experiencia.
No pegues una salida de un solo modelo tal cual. Si el 82% del sesgo procede de que un LLM reconoce sus propias salidas, la peor estrategia posible es enviar la prosa sin editar del mismo LLM a un filtro que podría ser el mismo modelo. Mezcla fuentes: redacta tú, pule con una herramienta, haz una pasada final con otra herramienta, edita el resultado a mano.
No suenes robótico. El sesgo premia las formulaciones familiares al modelo — pero un revisor humano con experiencia puede detectar «Como profesional orientado a resultados con pasión por la excelencia» a varios metros. El compromiso es la voz: mantén tu ritmo de frase y tu elección de palabras, usa la IA solo para retoques de gramática/concisión.
Sé honesto si te lo preguntan. Un número pequeño pero creciente de empleadores de la UE — especialmente en sectores regulados como finanzas, sanidad y administración pública — pide explícitamente a los candidatos que declaren la asistencia de IA en las solicitudes. Si las instrucciones de un puesto lo piden, declara. Mentir al respecto es motivo para rescindir una oferta en cualquier momento posterior.

Qué significa para empleadores y reclutadores

Si estás al otro lado de la mesa, el artículo tiene implicaciones incómodas. El filtrado de CV con un solo modelo ya no es defendible como «objetivo». Si tu ATS usa GPT-4o para clasificar candidatos y contratas para un puesto de ventas, estás aventajando sistemáticamente a candidatos que han pagado por el mismo modelo — y esa ventaja nada tiene que ver con si saben vender.

El estudio de Xu/Li/Jiang probó dos mitigaciones que funcionaron:

Aviso a nivel de prompt. Añadir una frase al prompt de filtrado — «No deberías considerar ni inferir si los CV los ha escrito un humano o una IA. Céntrate solo en la calidad del contenido.» — redujo el sesgo de forma medible. Barato, gratis, parcial.
Ensemble por voto mayoritario. Combinar el evaluador principal con dos modelos más pequeños (p. ej. GPT-4o más LLaMA 3.2-1B y LLaMA 3.2-3B) y usar voto mayoritario para la decisión final de preselección redujo el sesgo en más del 50%. Los modelos más pequeños mostraron casi cero auto-preferencia, por lo que sirvieron como contrapeso al sesgo del modelo principal. Más cómputo, mucha más equidad.

Específicamente para empleadores de la UE: la AI Act clasifica la IA de contratación como de alto riesgo. Saber que el filtrado con un solo modelo introduce un sesgo medible y no demográfico que desfavorece a candidatos con menos acceso al mismo servicio de IA de pago probablemente cruza las obligaciones de transparencia y equidad del Act. Documenta tu estrategia de mitigación antes de necesitarla.

La versión honesta: ¿deberías usar IA en tu CV en absoluto?

Tres escenarios honestos. Elige el que se ajusta a tu realidad.

Escenario A: te postulas a una gran empresa que probablemente filtra con GPT-4o. La ventaja de preselección del 23-60% es real aquí. Usar un LLM grande para pulir tu CV (NO para redactarlo) te da la ventaja sin las señales obvias. Conclusión: usa la IA con cuidado.

Escenario B: te postulas a una empresa pequeña/mediana donde un reclutador humano lee el CV primero. El LLM de filtrado no existe en este pipeline. La prosa IA robótica te perjudica activamente aquí — los humanos la detectan, y muchos la penalizan activamente como falta de esfuerzo percibida. Conclusión: escríbelo tú, usa la IA con moderación para gramática.

Escenario C: te postulas en academia, sanidad o administración pública en la UE. La divulgación de IA cada vez se exige más. La prosa con fluidez de IA puede leerse como bandera roja en lugar de verde. Conclusión: IA mínima, mejor ninguna, declara si se usó asistencia.

En los tres escenarios, una regla es universal: no dejes que la IA escriba tu contenido factual. Los logros, números y especificidades de proyectos deben venir de ti. La IA es un pulido de redacción, no un generador de sustancia.

Cómo abordamos esto en TakeMeUp.cv

Divulgación completa: construimos una herramienta de CV y enviamos funciones de IA. Así que esta es la sección incómoda donde tenemos que ser transparentes sobre nuestro propio producto en un artículo que documenta sesgos en herramientas de IA.

Nuestro complemento AI Rewrite está deliberadamente acotado al pulido a nivel de redacción, no a la generación de bullets. Reescribe un bullet que tú escribiste en una versión más fuerte de sí mismo — manteniendo tus números, tus fechas, tus nombres de proyectos y la sustancia de lo que realmente hiciste. Se niega a inventar métricas. No es virtue signaling; es la única posición de producto que podemos defender en un mundo donde la fabricación de CV generada por IA es masiva. Nuestro complemento Authenticity Score existe precisamente porque sabemos que los reclutadores están empezando a detectar la prosa de un solo LLM.

Salvedades y lo que aún no sabemos

El estudio de Xu/Li/Jiang es la evidencia más sólida que tenemos, pero algunas salvedades honestas antes de sobreactualizar a partir de él:

Los CV eran de contexto estadounidense (LiveCareer.com). Los CV en contexto UE incluyen fotos, fechas de nacimiento, campos relevantes para el RGPD y ordenaciones de sección específicas por locale. El mecanismo del sesgo (perplejidad-como-familiaridad) debería generalizar, pero el tamaño del efecto para la contratación europea aún no se ha medido.
Las tareas de filtrado probadas eran comparaciones por pares y ranking de preselección. Los sistemas ATS de producción suelen combinar el scoring del LLM con filtros de palabras clave, preguntas eliminatorias y criterios ponderados — el sesgo del LLM es una señal en una pila de señales.
El estudio no probó Claude (Anthropic) ni Gemini (Google) — ambos ahora se usan en producción a escala en filtrado. La dirección del sesgo debería ser la misma (los modelos prefieren sus propias salidas), pero las magnitudes para esos sistemas específicos no están en este dataset.
El sesgo de auto-preferencia es uno entre muchos sesgos que los LLM exhiben al filtrar CV. El sesgo demográfico contra mujeres, minorías y candidatos mayores persiste en muchos modelos — ese problema es más antiguo y mejor documentado, y no desaparece porque ahora tengamos un nuevo problema IA-contra-IA.
La mitigación (voto mayoritario con modelos pequeños) reduce el sesgo en más del 50%, pero no lo elimina. No hay actualmente ninguna técnica que elimine por completo el sesgo de auto-preferencia.

Usa la IA en tu CV sin caer en la trampa de la auto-preferencia (6 pasos)

1
Redacta tú primero la sustancia
Abre un documento en blanco y anota los hechos: roles, fechas, nombres de empleadores, nombres de proyectos, de tres a cinco logros reales por rol con números si los tienes. Hazlo ANTES de abrir ninguna herramienta de IA. La capa factual debe venir de tu memoria, no de la conjetura de un modelo.
2
Usa la IA para redacción, no para contenido
Pega un bullet a la vez en tu LLM elegido y pide: «Reescribe este bullet para ser más conciso y de mayor impacto, manteniendo todo el contenido factual intacto.» Rechaza cualquier salida que añada un número, métrica o afirmación que no hayas aportado. Si la IA inventa cosas, cambia de herramienta.
3
Mezcla fuentes para diluir huellas de un solo modelo
Si has usado ChatGPT para pulir la sección de experiencia, pasa la sección de educación por una herramienta diferente (Claude, Gemini, DeepSeek) — o edítala a mano. El sesgo de auto-preferencia solo se dispara cuando todo el CV se lee como la salida firma de un modelo.
4
Edita a mano la salida de la IA
Lee cada frase sugerida por la IA en voz alta. Si suena robótica, cambia una o dos palabras para que coincidan con tu voz natural. Sustituye cualquier «orientado a resultados», «pasión por la excelencia», «sinergizar» o «aprovechar» por las palabras que de verdad usarías. La voz sobrevive al pulido.
5
Ejecuta un check ATS antes de enviar
Sea cual sea la IA que hayas usado, el check estructural ATS (una sola columna, texto real seleccionable, etiquetas de sección estándar, sin fotos decorativas en la cabecera) sigue importando. Los filtros de palabras clave del ATS y el parsing de secciones se ejecutan independientemente del filtrado LLM — tu archivo tiene que superar ambas capas.
6
Declara si la solicitud lo pide
Un número creciente de empleadores de la UE — especialmente en finanzas, sanidad, administración pública y academia — pregunta explícitamente si se usó IA. Si la solicitud pregunta, responde honestamente. Decir «sí, se usó IA para pulir redacción; todos los hechos y logros los redacté yo» es una respuesta defendible y cada vez más esperada.

Preguntas frecuentes

¿Debería usar ChatGPT u otros LLM para escribir mi CV en 2026?

Úsalos para pulir redacción, no para escribir tu contenido factual. El estudio de Xu/Li/Jiang (2025) muestra que los filtros LLM dan una ventaja de preselección del 23-60% a candidatos que usaron el mismo modelo que el filtro — pero solo si la escritura se lee de verdad como salida de ese modelo. Un CV donde tú escribiste la sustancia y una IA pulió bullets individuales obtiene la mayor parte de la ventaja sin sonar robótico a revisores humanos.

¿Significa que debería usar la misma herramienta de IA que usa el empleador?

Si supieras qué modelo usa el ATS del empleador, emparejarlo maximizaría el sesgo a tu favor. En la práctica casi nunca lo sabes. GPT-4o es el modelo de filtrado corporativo más ampliamente desplegado, así que pulir con GPT-4o es la apuesta de mayor probabilidad para solicitudes a grandes corporaciones — pero solo como pulido, no como redacción. Para empresas pequeñas con revisores humanos, la apuesta más segura es un uso mínimo de IA.

¿Son conscientes reclutadores y empleadores de este sesgo?

Cada vez más sí, especialmente en empresas de la UE que se preparan para la clasificación de alto riesgo en contratación de la AI Act. Algunas mitigan con ensembles de voto mayoritario (combinando un LLM principal con modelos más pequeños para las decisiones de preselección) que recortan el sesgo en más del 50%. La mayoría de las empresas más pequeñas que usan productos ATS de estantería no son conscientes y no tienen mitigaciones.

¿Puede un reclutador humano detectar prosa de CV escrita por IA?

Los reclutadores experimentados pueden detectar prosa IA de un solo modelo en 5-10 segundos de lectura. Las pistas: frases tipo como «orientado a resultados», «pasión por la excelencia», «sinergizar», «aprovechar»; longitud de frase sospechosamente uniforme; estructura de bullets demasiado simétrica; logros vagos sin números reales. El pulido IA que mantiene tu ritmo de frase y reemplaza frases tipo por tus propias palabras evita la detección en su mayor parte.

¿Es deshonesto usar IA en mi CV?

Usar IA para pulir redacción es práctica estándar de la industria y no es deshonesto en sí mismo. Usar IA para fabricar logros, inventar métricas o reclamar experiencia que no tienes SÍ es deshonesto y es motivo para rescindir cualquier oferta resultante. La línea está entre redacción (aceptable) y sustancia (no aceptable). La mayoría de las directrices éticas actualmente en desarrollo en instituciones de la UE siguen esta misma línea.

¿Cuál es la diferencia entre sesgo de auto-preferencia y sesgo demográfico en la IA de contratación?

El sesgo demográfico significa que la IA trata a los candidatos de forma diferente según características protegidas como género, raza o edad — bien documentado desde 2018, activamente legislado en la AI Act UE y varias jurisdicciones de EE. UU. El sesgo de auto-preferencia significa que la IA trata a los candidatos de forma diferente según si han usado la misma marca de IA que el filtro — medido por primera vez a escala por Xu, Li & Jiang (2025), y actualmente no abordado por ninguna regulación de equidad de la IA. Ambos sesgos pueden coexistir en el mismo sistema de filtrado.

¿Dónde puedo leer la investigación original?

El artículo es «AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights» de Jiannan Xu, Gujie Li y Jane Yi Jiang. El preprint está abiertamente disponible en arXiv:2509.00462 (2025). Versiones no archivadas se presentaron en ACM EAAMO 2025 y AIES 2025 (DOI 10.1145/3757887.3767676). La versión arXiv se actualiza con más frecuencia y es la fuente primaria recomendada.

¿Empeorará este sesgo con el tiempo?

Dos fuerzas opuestas. Peor: a medida que más candidatos usen IA para escribir CV, la proporción de texto con fluidez de IA en el pool de filtrado crece, y el sesgo contra la menguante minoría escrita a mano se hace más pronunciado. Mejor: a medida que los investigadores publican más hallazgos como este, los proveedores de ATS conscientes de la equidad y los reguladores UE alcanzan. La dirección neta en los próximos 2-3 años es incierta. La apuesta segura es asumir que el sesgo persiste y usar la estrategia pulir-no-redactar de todos modos.

¿Tu CV está listo para el ATS?

Obtén al instante una puntuación de compatibilidad ATS y mira exactamente qué corregir — gratis.

Comprobar mi CV

Guías relacionadas

← Todas las guías