AI-bias bij cv-screening: waarom LLM's door AI geschreven cv's prefereren (studie 2025)

8 min leestijd · Bijgewerkt op 5 juni 2026

Door Bogdan

Kort gezegd

Een in 2025 op ACM EAAMO/AIES gepubliceerde studie (Xu, Li & Jiang, arXiv:2509.00462) testte zeven grote LLM's — GPT-4o, GPT-4-turbo, GPT-4o-mini, LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B en DeepSeek-V3 — en vond dat AI-screeners systematisch cv's verkiezen die door hun eigen model zijn geschreven boven identieke door mensen of door concurrerende AI geschreven versies. GPT-4o koos zijn eigen cv 82% van de tijd; LLaMA 3.3-70B 79%; DeepSeek-V3 72%; de rest tussen 65 en 82%. In gesimuleerde wervingsrondes over 24 beroepen hadden kandidaten die hetzelfde LLM gebruikten als de screener van de recruiter 23–60% meer kans om op de shortlist te komen dan even gekwalificeerde kandidaten met handgeschreven cv's — het grootste nadeel in zakelijke functies als verkoop en boekhouding. Oorzaak: tekst met lage perplexiteit (vertrouwd voor het model) wint automatisch. Praktische conclusie: schrijf de inhoud van je cv zelf, gebruik AI alleen om de bewoording te polijsten, plak nooit een door AI gegenereerd cv letterlijk als je niet weet welk screeningmodel de werkgever gebruikt, en meld AI-assistentie als een functie dat beleid vereist.

Wat de studie werkelijk vond

In september 2025 publiceerden drie onderzoekers — Jiannan Xu (University of Maryland), Gujie Li (Cornell) en Jane Yi Jiang — een paper getiteld „AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights" (arXiv:2509.00462; gepresenteerd op ACM EAAMO 2025 en AIES 2025). Het is de eerste grootschalige empirische test van een vraag waar de AI-fairness-gemeenschap al twee jaar omheen draaide: prefereren LLM's bij het beoordelen van tekst stiekem tekst die klinkt als hun eigen schrijfwerk?

De opzet was schoon. Ze namen 2.245 geanonimiseerde echte cv's van LiveCareer.com, verspreid over 24 beroepscategorieën. Voor elk cv genereerden ze AI-herschrijvingen met zeven LLM's — drie commerciële (GPT-4o, GPT-4-turbo, GPT-4o-mini) en vier open-source (LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3). Vervolgens vroegen ze elk model paren cv's te beoordelen (één door zichzelf geschreven, één door een mens of concurrerend model) en de sterkste kandidaat te kiezen. De inhoudskwaliteit werd gecontroleerd — dezelfde rol, dezelfde ervaring, dezelfde prestaties — alleen het oppervlak van het proza verschilde.

Het resultaat: elk model verkoos zijn eigen schrijfwerk, vaak dramatisch. Zelfvoorkeurspercentages per model tegen door mensen geschreven cv's:

  • GPT-4o — 82% (koos zijn eigen cv in 4 van de 5 gevallen)
  • LLaMA 3.3-70B — 79%
  • DeepSeek-V3 — 72%
  • GPT-4-turbo en Qwen-2.5-72B — beide boven 65%
  • Mistral-7B — 28% (een van de weinige bijna-neutrale resultaten)
  • LLaMA 3.2-3B (de kleinste geteste) — 11,6% (de kleinste modellen vertoonden bijna geen bias, wat suggereert dat het effect schaalt met modelvermogen)

Cruciaal: de bias overleefde robuustheidschecks. Het matchen van de cv-paren op semantische inhoud via BERTScore en ROUGE-L, of op schrijfstijl via LIWC linguïstische features, deed hem niet verdwijnen. De voorkeur volgde geen kwaliteit of stijl — hij volgde of de tekst klonk als de eigen output van het beoordelende model.

Waarom dit gebeurt — het perplexiteitsmechanisme

LLM's scoren elke input intern op perplexiteit — grofweg, hoe verrast het model is door elke volgende token. Tekst die het model zelf plausibel zou hebben gegenereerd, heeft lage perplexiteit (voorspelbaar, vertrouwd); tekst geschreven in een onbekende stijl of met zeldzame formuleringen heeft hoge perplexiteit. De studie van Xu/Li/Jiang vond dat wanneer LLM's wordt gevraagd tekstkwaliteit te beoordelen, ze significant hogere scores toekennen aan passages met lage perplexiteit — zelfs als de werkelijke inhoudskwaliteit identiek is.

De eenvoudigste manier om hierover na te denken: een LLM-beoordelaar oordeelt niet echt „is dit een goed cv?". Hij voert een half-bewuste berekening uit van „lijkt dit cv op het soort ding dat ik zou hebben geschreven?", en projecteert die fluency-herkenning vervolgens op kwaliteit. Vertrouwdheid → vloeiendheid → beoordeeld als hogere kwaliteit. Lagere perplexiteit verslaat hogere, punt uit, zelfs wanneer beide kandidaten objectief even goed zijn.

Het is hetzelfde psychologische mechanisme dat mensen hebben wanneer we schrijfwerk dat onze eigen stijl spiegelt beoordelen als „helderder" of „professioneler" — maar in LLM's werkt het veel sneller en zonder introspectie. De onderzoekers merken op dat dit geen bug is in een specifiek model. Het is een systemische eigenschap van hoe op transformers gebaseerde taalmodellen tekst scoren. Elke grote LLM vertoont een versie ervan.

De impact in de echte wereld — 23-60% meer shortlists

Weten dat een LLM zijn eigen schrijfwerk voor 82% prefereert in een gecontroleerde paarsgewijze test is academisch interessant. De echte vraag is: maakt het uit wanneer je concurreert met een stapel andere kandidaten voor een echte baan?

Om dat uit te zoeken voerden de auteurs gesimuleerde wervingspipelines uit over alle 24 beroepscategorieën. In elke ronde: er werd een pool van kandidaten samengesteld, sommigen hadden hun cv's verfijnd door GPT-4o (het screeningmodel van de recruiter), anderen gebruikten verschillende LLM's, anderen behielden hun originele handgeschreven cv's. De screening-LLM rangschikte dan de pool en produceerde een shortlist.

Kandidaten wier cv's waren verfijnd door dezelfde LLM als de screener (GPT-4o → GPT-4o) hadden 23-60% meer kans om de shortlist te halen dan even gekwalificeerde kandidaten met handgeschreven cv's. De grootste nadelen — dichter bij de 60%-kant — verschenen in zakelijk georiënteerde beroepen: verkoop, boekhouding, marketing, klantenservice. De kleinste gaten verschenen in technische rollen waar cv-inhoud (specifieke tools, talen, certificeringen) prozastijl overtreft.

Vertaal dat naar sollicitatierealiteit: als een verkoopfunctie 200 sollicitanten krijgt en het ATS van de recruiter pre-filtert met GPT-4o, is een sollicitant die zijn cv met GPT-4o heeft gepolijst statistisch veel waarschijnlijker om de menselijke beoordelingsstapel te bereiken dan een sollicitant van identiek kaliber wiens cv zonder AI is geschreven. Dat is geen klein voordeel.

Waarom dit groter is dan „weer een AI-bias"

AI-fairness-onderzoek heeft een decennium besteed aan het documenteren van bias tegen demografische groepen — geslacht, ras, leeftijd, handicap. Die biases zijn goed begrepen en actief tegen gewetgevd in de EU (hoogrisicoclassificatie van wervings-AI in de AI Act) en verschillende Amerikaanse jurisdicties (NYC Local Law 144, Illinois AI Video Interview Act, enz.).

Zelfvoorkeursbias is anders. Hij volgt geen beschermd kenmerk; hij volgt of je dezelfde AI-merknaam hebt gebruikt als je werkgever. Dat klinkt onschuldig — totdat je opmerkt dat de LLM-markt geconcentreerd is. GPT-4o (OpenAI) is het breedst ingezette screeningmodel in de bedrijfswereld, en het is ook de breedst gebruikte consument-LLM. De bias bevoordeelt daarom systematisch kandidaten met betaalde ChatGPT-abonnementen boven kandidaten die gratis Claude, Gemini of DeepSeek gebruiken — en boven kandidaten die zonder AI schrijven.

Dat is een aan rijkdom en toegang gekoppelde bias die zich verbergt binnen wat lijkt op een neutraal algoritmisch proces. Anders dan demografische bias wordt deze door geen bestaande regelgeving geadresseerd. De auteurs roepen expliciet op tot uitgebreide fairnesskaders om „AI-AI-interacties" te dekken — biases die niet ontstaan uit hoe een algoritme een persoon behandelt, maar uit hoe een algoritme de output van een ander algoritme behandelt. Die schadecategorie is splinternieuw in de beleidsliteratuur.

Wat dit voor jou, de sollicitant, betekent

Geen paniek. De bias is reëel maar de rationele reactie is niet „nooit AI gebruiken" — het is „AI gebruiken op een manier die je cv niet triviaal identificeerbaar maakt als output van één model". Vijf praktische implicaties:

  • Schrijf de substantie zelf. Specifieke prestaties, cijfers, data, projectnamen, de werkelijke inhoud van je rol — dat zijn feiten die de AI niet kan verzinnen zonder te hallucineren. Ze zelf opschrijven is niet onderhandelbaar, zowel voor eerlijkheid als om de voor de hand liggende verklikkers (verzonnen bedrijven, verdacht ronde percentages) te voorkomen.
  • Gebruik AI om te polijsten, niet om op te stellen. Een LLM vragen om „mijn bullet te herschrijven zodat hij krachtiger klinkt" geeft je een bewoordingsverbetering op je echte inhoud. Hem vragen om „schrijf me een cv voor een marketingmanager" geeft je generieke AI-proza dat zijn herkomst toeschreeuwt naar elke screener — en naar elke menselijke beoordelaar met twee maanden ervaring.
  • Plak geen output van één model letterlijk. Als 82% van de bias komt doordat één LLM zijn eigen output herkent, is de slechtst mogelijke strategie het ongeredigeerde proza van diezelfde LLM naar een screener sturen die misschien hetzelfde model is. Meng bronnen: stel zelf op, polijst met één tool, doe een laatste ronde met een ander tool, bewerk het resultaat met de hand.
  • Klink niet robotachtig. De bias beloont voor het model vertrouwde formuleringen — maar een ervaren menselijke beoordelaar kan „Als resultaatgedreven professional met een passie voor excellentie" op tien meter herkennen. Het compromis is stem: behoud je eigen zinsritme en woordkeuze, gebruik AI alleen voor grammatica-/beknoptheidstweaks.
  • Wees eerlijk als je het wordt gevraagd. Een klein maar groeiend aantal EU-werkgevers — vooral in gereguleerde sectoren als financiën, gezondheidszorg en openbaar bestuur — vraagt kandidaten expliciet om AI-assistentie tijdens sollicitaties te melden. Als de instructies van een functie dit vragen, meld het. Erover liegen is grond om een aanbod op elk moment daarna in te trekken.

Wat dit voor werkgevers en recruiters betekent

Als je aan de andere kant van de tafel zit, heeft het paper ongemakkelijke implicaties. Cv-screening met één model is niet langer verdedigbaar als „objectief". Als je ATS GPT-4o gebruikt om sollicitanten te rangschikken en je werft voor een verkoopfunctie, bevoordeel je systematisch kandidaten die voor hetzelfde model hebben betaald — en dat voordeel heeft niets te maken met of ze kunnen verkopen.

De studie van Xu/Li/Jiang testte twee mitigaties die werkten:

  1. Disclosure op promptniveau. Een zin toevoegen aan het screeningprompt — „Je moet niet overwegen of afleiden of cv's door een mens of door een AI zijn geschreven. Concentreer je alleen op inhoudskwaliteit." — verminderde de bias meetbaar. Goedkoop, gratis, gedeeltelijk.
  2. Meerderheidsstemensemble. Het combineren van de primaire beoordelaar met twee kleinere modellen (bv. GPT-4o plus LLaMA 3.2-1B en LLaMA 3.2-3B) en meerderheidsstemming gebruiken voor de uiteindelijke shortlistbeslissing verminderde de bias met meer dan 50%. Kleinere modellen vertoonden bijna nul zelfvoorkeur, dus dienden ze als tegenwicht voor de bias van het primaire model. Meer rekenkracht, veel meer fairness.

Specifiek voor EU-werkgevers: de AI Act classificeert wervings-AI als hoog risico. Weten dat screening met één model een meetbare, niet-demografische bias introduceert die kandidaten met minder toegang tot dezelfde betaalde AI-dienst benadeelt, snijdt waarschijnlijk in de transparantie- en fairnessverplichtingen van de Act. Documenteer je mitigatiestrategie voordat je hem nodig hebt.

De eerlijke versie: moet je überhaupt AI op je cv gebruiken?

Drie eerlijke scenario's. Kies degene die bij jouw realiteit past.

Scenario A: je solliciteert bij een groot bedrijf dat waarschijnlijk ATS-screent met GPT-4o. Het shortlistvoordeel van 23-60% is hier reëel. Een grote LLM gebruiken om je cv te polijsten (NIET om op te stellen) geeft je het voordeel zonder de voor de hand liggende verklikkers. Conclusie: gebruik AI met zorg.

Scenario B: je solliciteert bij een klein/middelgroot bedrijf waar een menselijke recruiter het cv eerst leest. De screening-LLM bestaat in deze pipeline niet. Robotachtig AI-proza schaadt je hier actief — mensen herkennen het, en velen straffen het actief af als waargenomen gebrek aan inspanning. Conclusie: schrijf het zelf, gebruik AI spaarzaam voor grammatica.

Scenario C: je solliciteert in academie, gezondheidszorg of openbaar bestuur in de EU. AI-disclosure wordt steeds meer vereist. AI-vloeiend proza kan als rode in plaats van groene vlag worden gelezen. Conclusie: minimale AI, het liefst geen, meld het als assistentie werd gebruikt.

In alle drie de scenario's is één regel universeel: laat AI je feitelijke inhoud niet schrijven. De prestaties, cijfers en projectspecifieke details moeten van jou komen. AI is een bewoordingspolijst, geen substantiegenerator.

Hoe wij dit benaderen bij TakeMeUp.cv

Volledige openbaarmaking: we bouwen een cv-tool en leveren AI-functies. Dus dit is de ongemakkelijke sectie waar we transparant moeten zijn over ons eigen product in een artikel dat bias in AI-tools documenteert.

Onze AI Rewrite-add-on is bewust beperkt tot polijsting op bewoordingsniveau, niet bulletgeneratie. Hij herschrijft een door jou geschreven bullet in een sterkere versie ervan — met behoud van je cijfers, je data, je projectnamen en de substantie van wat je daadwerkelijk hebt gedaan. Hij weigert metrieken te verzinnen. Dat is geen virtue signaling; het is de enige productpositie die we kunnen verdedigen in een wereld waarin door AI gegenereerde cv-fabricage wijdverbreid is. Onze Authenticity Score-add-on bestaat juist omdat we weten dat recruiters proza van één LLM beginnen te herkennen.

Voorbehouden en wat we nog niet weten

De studie van Xu/Li/Jiang is het sterkste bewijs dat we hebben, maar enkele eerlijke voorbehouden voordat je er te veel op vertrouwt:

  • De cv's waren in Amerikaanse context (LiveCareer.com). Cv's in EU-context bevatten foto's, geboortedata, AVG-relevante velden en locale-specifieke sectievolgordes. Het biasmechanisme (perplexiteit-als-vertrouwdheid) zou moeten generaliseren, maar de grootte van het effect voor Europese werving is nog niet gemeten.
  • De geteste screeningtaken waren paarsgewijze vergelijkingen en shortlistranking. Productie-ATS-systemen combineren LLM-scoring vaak met trefwoordfilters, knock-outvragen en gewogen criteria — de LLM-bias is één signaal in een stapel signalen.
  • De studie testte noch Claude (Anthropic) noch Gemini (Google) — beide worden nu op schaal in productie gebruikt voor screening. De richting van de bias zou hetzelfde moeten zijn (modellen prefereren hun eigen output), maar de magnitudes voor die specifieke systemen zitten niet in deze dataset.
  • Zelfvoorkeursbias is één bias onder vele die LLM's vertonen bij het screenen van cv's. Demografische bias tegen vrouwen, minderheden en oudere kandidaten blijft in veel modellen bestaan — dat probleem is ouder en beter gedocumenteerd, en het verdwijnt niet omdat we nu een nieuw AI-tegen-AI-probleem hebben.
  • De mitigatie (meerderheidsstemming met kleine modellen) vermindert de bias met >50% maar elimineert hem niet. Er is momenteel geen techniek die zelfvoorkeursbias volledig verwijdert.

Gebruik AI op je cv zonder in de zelfvoorkeursval te trappen (6 stappen)

  1. 1

    Stel eerst je eigen substantie op

    Open een leeg document en noteer de feiten: rollen, data, werkgeversnamen, projectnamen, drie tot vijf echte prestaties per rol met cijfers als je ze hebt. Doe dit VOORDAT je een AI-tool opent. De feitelijke laag moet uit je geheugen komen, niet uit de gok van een model.

  2. 2

    Gebruik AI voor bewoording, niet voor inhoud

    Plak één bullet tegelijk in je gekozen LLM en vraag: „Herschrijf deze bullet om beknopter en krachtiger te zijn, met behoud van alle feitelijke inhoud intact." Wijs elke output af die een cijfer, metriek of bewering toevoegt die je niet hebt verstrekt. Als de AI dingen verzint, wissel van tool.

  3. 3

    Meng bronnen om eenmodelvingerafdrukken te verdunnen

    Als je ChatGPT hebt gebruikt om de ervaringssectie te polijsten, laat de opleidingssectie door een ander tool gaan (Claude, Gemini, DeepSeek) — of bewerk met de hand. Zelfvoorkeursbias wordt alleen geactiveerd wanneer het hele cv leest als de handtekeningoutput van één model.

  4. 4

    Bewerk de AI-output met de hand

    Lees elke door AI voorgestelde zin hardop. Als hij robotachtig klinkt, vervang één of twee woorden om bij je natuurlijke stem te passen. Vervang elke „resultaatgedreven", „passie voor excellentie", „synergiseren" of „benutten" door de woorden die je echt zou gebruiken. De stem overleeft de polijsting.

  5. 5

    Voer een ATS-check uit voor verzenden

    Welke AI je ook hebt gebruikt, de structurele ATS-check (één kolom, echte selecteerbare tekst, standaard sectielabels, geen decoratieve foto's in de header) blijft belangrijk. ATS-trefwoordfilters en sectieparsing draaien onafhankelijk van LLM-screening — je bestand moet beide lagen passeren.

  6. 6

    Meld het als de sollicitatie erom vraagt

    Een groeiend aantal EU-werkgevers — vooral in financiën, gezondheidszorg, openbaar bestuur en academie — vraagt expliciet of AI is gebruikt. Als de sollicitatie het vraagt, antwoord eerlijk. Zeggen „ja, AI werd gebruikt om bewoording te polijsten, alle feiten en prestaties zijn door mij geschreven" is een verdedigbaar en steeds meer verwacht antwoord.

Veelgestelde vragen

Moet ik in 2026 ChatGPT of andere LLM's gebruiken om mijn cv te schrijven?

Gebruik ze om bewoording te polijsten, niet om je feitelijke inhoud te schrijven. De studie van Xu/Li/Jiang (2025) toont dat LLM-screeners een shortlistvoordeel van 23-60% geven aan kandidaten die hetzelfde model gebruikten als de screener — maar alleen als het schrijfwerk daadwerkelijk leest als output van dat model. Een cv waar jij de substantie schreef en een AI individuele bullets polijste, krijgt het grootste deel van het voordeel zonder robotachtig te klinken voor menselijke beoordelaars.

Betekent dit dat ik hetzelfde AI-tool moet gebruiken als de werkgever gebruikt?

Als je wist welk model het ATS van de werkgever gebruikt, zou het matchen de bias in jouw voordeel maximaliseren. In de praktijk weet je dat bijna nooit. GPT-4o is het breedst ingezette zakelijke screeningmodel, dus polijsten met GPT-4o is de gok met de hoogste waarschijnlijkheid voor grote bedrijfsapplicaties — maar alleen als polijsting, niet als opstelling. Voor kleine bedrijven met menselijke beoordelaars is de veiligere gok minimaal AI-gebruik.

Zijn recruiters en werkgevers zich bewust van deze bias?

Steeds vaker ja, vooral in EU-bedrijven die zich voorbereiden op de hoogrisicoclassificatie voor werving van de AI Act. Sommigen mitigeren met meerderheidsstemensembles (een primaire LLM combineren met kleinere modellen voor shortlistbeslissingen) die de bias met meer dan 50% verlagen. De meeste kleinere bedrijven die kant-en-klare ATS-producten gebruiken zijn zich niet bewust en hebben geen mitigaties.

Kan een menselijke recruiter door AI geschreven cv-proza herkennen?

Ervaren recruiters kunnen AI-proza van één model binnen 5-10 seconden lezen herkennen. De verklikkers: standaardzinnen als „resultaatgedreven", „passie voor excellentie", „synergiseren", „benutten"; verdacht uniforme zinslengte; te symmetrische bulletstructuur; vage prestaties zonder echte cijfers. AI-polijsting die je zinsritme behoudt en standaardzinnen vervangt door je eigen woorden vermijdt detectie grotendeels.

Is het oneerlijk om AI op mijn cv te gebruiken?

AI gebruiken om bewoording te polijsten is industriestandaard en op zich niet oneerlijk. AI gebruiken om prestaties te verzinnen, metrieken te bedenken of ervaring te claimen die je niet hebt IS oneerlijk en is grond om elk daaruit voortvloeiend aanbod in te trekken. De grens loopt tussen bewoording (acceptabel) en substantie (niet acceptabel). De meeste momenteel in ontwikkeling zijnde ethische richtlijnen bij EU-instellingen volgen dezelfde lijn.

Wat is het verschil tussen zelfvoorkeursbias en demografische bias in wervings-AI?

Demografische bias betekent dat de AI kandidaten anders behandelt op basis van beschermde kenmerken als geslacht, ras of leeftijd — goed gedocumenteerd sinds 2018, actief tegen gewetgevd in de EU AI Act en verschillende Amerikaanse jurisdicties. Zelfvoorkeursbias betekent dat de AI kandidaten anders behandelt op basis van of ze dezelfde AI-merknaam gebruikten als de screener — voor het eerst op schaal gemeten door Xu, Li & Jiang (2025), en momenteel niet geadresseerd door enige AI-fairnessregelgeving. Beide biases kunnen naast elkaar bestaan in hetzelfde screeningsysteem.

Waar kan ik het originele onderzoek lezen?

Het paper is „AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights" door Jiannan Xu, Gujie Li en Jane Yi Jiang. De preprint is openlijk beschikbaar op arXiv:2509.00462 (2025). Niet-gearchiveerde versies werden gepresenteerd op ACM EAAMO 2025 en AIES 2025 (DOI 10.1145/3757887.3767676). De arXiv-versie wordt vaker bijgewerkt en is de aanbevolen primaire bron.

Wordt deze bias erger met de tijd?

Twee tegengestelde krachten. Erger: naarmate meer kandidaten AI gebruiken om cv's te schrijven, groeit de proportie AI-vloeiende tekst in de screeningpool, en de bias tegen de krimpende handgeschreven minderheid wordt uitgesprokener. Beter: naarmate onderzoekers meer bevindingen als deze publiceren, halen fairnessbewuste ATS-leveranciers en EU-regelgevers in. De netto richting in de komende 2-3 jaar is onzeker. De veilige gok is aannemen dat de bias blijft en hoe dan ook de polijst-niet-opstellen-strategie te gebruiken.

Is je cv ATS-klaar?

Krijg direct een ATS-compatibiliteitsscore en zie precies wat je moet aanpassen — gratis.

Controleer mijn cv

Gerelateerde gidsen