AI-bias vid CV-screening: varför LLM:er föredrar CV skrivna av AI (studie 2025)

8 min läsning · Uppdaterad 5 juni 2026

Kort sagt

En studie publicerad 2025 på ACM EAAMO/AIES (Xu, Li & Jiang, arXiv:2509.00462) testade sju stora LLM:er — GPT-4o, GPT-4-turbo, GPT-4o-mini, LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B och DeepSeek-V3 — och fann att AI-screenare systematiskt föredrar CV skrivna av sin egen modell framför identiska versioner skrivna av människor eller konkurrerande AI. GPT-4o valde sitt eget CV 82 % av tiden; LLaMA 3.3-70B 79 %; DeepSeek-V3 72 %; resten mellan 65 och 82 %. I simulerade rekryteringar över 24 yrken hade kandidater som använde samma LLM som rekryterarens screener 23–60 % större sannolikhet att hamna på kortlistan än lika kvalificerade kandidater med handskrivna CV — den största nackdelen i affärsroller som försäljning och bokföring. Orsak: text med låg perplexitet (bekant för modellen) vinner automatiskt. Praktisk slutsats: skriv innehållet i ditt CV själv, använd AI endast för att polera formuleringen, klistra aldrig in ett AI-genererat CV ordagrant om du inte vet vilken screeningmodell arbetsgivaren använder, och uppge AI-assistans om en roll kräver den policyn.

Vad studien faktiskt fann

I september 2025 släppte tre forskare — Jiannan Xu (University of Maryland), Gujie Li (Cornell) och Jane Yi Jiang — en artikel med titeln „AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights" (arXiv:2509.00462; presenterad vid ACM EAAMO 2025 och AIES 2025). Det är det första storskaliga empiriska testet av en fråga som AI-rättvisegemenskapen kretsat kring i två år: när LLM:er utvärderar text, föredrar de i hemlighet text som låter som deras egen skrivning?

Upplägget var rent. De tog 2 245 anonymiserade riktiga CV från LiveCareer.com, omfattande 24 yrkeskategorier. För varje CV genererade de AI-omskrivningar med sju LLM:er — tre kommersiella (GPT-4o, GPT-4-turbo, GPT-4o-mini) och fyra öppen källkod (LLaMA 3.3-70B, Mistral-7B, Qwen-2.5-72B, DeepSeek-V3). Sedan bad de varje modell utvärdera par av CV (ett skrivet av sig själv, ett av en människa eller konkurrerande modell) och välja den starkare kandidaten. Innehållskvaliteten kontrollerades — samma roll, samma erfarenhet, samma prestationer — bara prosaytan skilde sig.

Resultatet: varje modell föredrog sin egen skrivning, ofta dramatiskt. Självpreferensgrader per modell mot mänskligt skrivna CV:

GPT-4o — 82 % (valde sitt eget CV i 4 av 5 fall)
LLaMA 3.3-70B — 79 %
DeepSeek-V3 — 72 %
GPT-4-turbo och Qwen-2.5-72B — båda över 65 %
Mistral-7B — 28 % (ett av få nästan neutrala resultat)
LLaMA 3.2-3B (den minsta testade) — 11,6 % (de minsta modellerna visade nästan noll bias, vilket tyder på att effekten skalas med modellkapaciteten)

Avgörande: biaset överlevde robusthetstester. Att matcha CV-paren efter semantiskt innehåll via BERTScore och ROUGE-L, eller efter skrivstil via LIWC lingvistiska egenskaper, fick det inte att försvinna. Preferensen följde inte kvalitet eller stil — den följde om texten lät som den utvärderande modellens egna utdata.

Varför detta händer — perplexitetsmekanismen

LLM:er poängsätter internt varje indata efter perplexitet — grovt sett, hur överraskad modellen är av varje nästa token. Text som modellen själv troligen skulle ha genererat har låg perplexitet (förutsägbar, bekant); text skriven i en obekant stil eller med sällsynta formuleringar har hög perplexitet. Studien av Xu/Li/Jiang fann att när LLM:er ombeds att betygsätta textkvalitet, tilldelar de signifikant högre poäng till passager med låg perplexitet — även när den faktiska innehållskvaliteten är identisk.

Enklaste sättet att tänka på det: en LLM-utvärderare bedömer egentligen inte „är det här ett bra CV?". Den kör en halvmedveten beräkning av „ser detta CV ut som den sorts sak jag skulle ha skrivit?", och projicerar sedan den flytighetsigenkänningen på kvalitet. Bekantskap → flyt → bedömd som högre kvalitet. Lägre perplexitet slår högre, punkt slut, även när båda kandidaterna är objektivt lika bra.

Det är samma psykologiska mekanism vi människor har när vi bedömer skrivning som speglar vår egen stil som „tydligare" eller „mer professionell" — men i LLM:er fungerar den mycket snabbare och utan introspektion. Forskarna noterar att detta inte är en bugg i någon specifik modell. Det är en systemisk egenskap hos hur transformerbaserade språkmodeller poängsätter text. Varje större LLM uppvisar någon version av det.

Den verkliga effekten — 23–60 % fler kortlistningar

Att veta att en LLM föredrar sin egen skrivning med 82 % i ett kontrollerat parvist test är akademiskt intressant. Den verkliga frågan är: spelar det roll när du tävlar mot en hög med andra kandidater om ett verkligt jobb?

För att ta reda på det körde författarna simulerade rekryteringspipelines över alla 24 yrkeskategorier. I varje runda: en pool av kandidater sammanställdes, vissa hade sina CV förfinade av GPT-4o (rekryterarens screeningmodell), andra använde olika LLM:er, andra behöll sina ursprungliga handskrivna CV. Screening-LLM:en rangordnade sedan poolen och producerade en kortlista.

Kandidater vars CV hade förfinats av samma LLM som screenaren (GPT-4o → GPT-4o) hade 23–60 % större sannolikhet att hamna på kortlistan än lika kvalificerade kandidater med handskrivna CV. De största nackdelarna — närmare 60 %-änden — uppträdde i affärsorienterade yrken: försäljning, bokföring, marknadsföring, kundservice. De minsta klyftorna uppträdde i tekniska roller där CV-innehållet (specifika verktyg, språk, certifieringar) väger tyngre än prosastilen.

Översätt det till verklig jobbsökarsituation: om en försäljningsroll får 200 sökande och rekryterarens ATS förfilterar med GPT-4o, är en sökande som polerat sitt CV med GPT-4o statistiskt mycket mer sannolikt att nå den mänskliga granskningshögen än en sökande av identisk kaliber vars CV skrevs utan AI. Det är ingen liten fördel.

Varför detta är en större grej än „ännu en AI-bias"

AI-rättviseforskning har tillbringat ett decennium med att dokumentera bias mot demografiska grupper — kön, ras, ålder, funktionsnedsättning. Dessa bias är väl förstådda och aktivt lagstiftade mot i EU (rekryteringsAI:s högriskklassificering i AI Act) och flera amerikanska jurisdiktioner (NYC Local Law 144, Illinois AI Video Interview Act, etc.).

Självpreferensbias är annorlunda. Det spårar inte en skyddad egenskap; det spårar om du använde samma AI-varumärke som din arbetsgivare. Det låter ofarligt — tills du märker att LLM-marknaden är koncentrerad. GPT-4o (OpenAI) är den mest utbredda screeningmodellen i företagsvärlden, och det är också den mest utbredda konsument-LLM:en. Biaset gynnar därför systematiskt kandidater med betalda ChatGPT-prenumerationer framför kandidater som använder gratis Claude, Gemini eller DeepSeek — och framför kandidater som skriver utan AI alls.

Det är en förmögenhets- och tillgångskopplad bias som gömmer sig inuti vad som ser ut som en neutral algoritmisk process. Till skillnad från demografisk bias adresseras den inte av någon befintlig reglering. Författarna efterlyser uttryckligen utökade rättviseramar för att täcka „AI-AI-interaktioner" — bias som uppstår inte från hur en algoritm behandlar en person, utan från hur en algoritm behandlar en annan algoritms utdata. Den skadekategorin är helt ny i policylitteraturen.

Vad detta betyder för dig, jobbsökaren

Ingen panik. Biaset är verkligt men det rationella svaret är inte „aldrig använd AI" — det är „använd AI på ett sätt som inte gör ditt CV trivialt identifierbart som en modells utdata". Fem praktiska implikationer:

Skriv substansen själv. Specifika prestationer, siffror, datum, projektnamn, det faktiska innehållet i din roll — det är fakta som AI inte kan hitta på utan att hallucinera. Att skriva ner dem själv är icke förhandlingsbart både för ärlighet och för att förhindra de uppenbara avslöjandena (påhittade företag, misstänkt runda procent).
Använd AI för att polera, inte att skriva. Att be en LLM „skriv om min punktlista så den låter mer effektfull" ger dig en formuleringsförbättring på ditt verkliga innehåll. Att be den „skriv mig ett CV för en marknadschef" ger dig generisk AI-prosa som skriker sitt ursprung till varje screenare — och till varje mänsklig granskare med två månaders erfarenhet.
Klistra inte in en enskild modells utdata ordagrant. Om 82 % av biaset kommer från en LLM som känner igen sina egna utdata, är den värsta möjliga strategin att skicka samma LLM:s oredigerade prosa till en screenare som kan vara samma modell. Blanda källor: skriv själv, polera med ett verktyg, gör en slutgiltig genomgång med ett annat verktyg, redigera resultatet för hand.
Låt inte robotiskt. Biaset belönar modell-bekanta formuleringar — men en erfaren mänsklig granskare kan upptäcka „Som resultatdriven professionell med passion för excellens" från andra änden av rummet. Kompromissen är röst: behåll din egen meningsrytm och ordval, använd AI endast för grammatik-/koncishetjusteringar.
Var ärlig om du tillfrågas. Ett litet men växande antal EU-arbetsgivare — särskilt i reglerade sektorer som finans, hälsovård och offentlig förvaltning — ber kandidater uttryckligen att redovisa AI-assistans i ansökningar. Om en rolls instruktioner frågar, redovisa. Att ljuga om det är skäl att återkalla ett erbjudande när som helst senare.

Vad detta betyder för arbetsgivare och rekryterare

Om du är på andra sidan bordet har artikeln obekväma implikationer. CV-screening med en enda modell är inte längre försvarbar som „objektiv". Om din ATS använder GPT-4o för att rangordna sökande och du rekryterar för en försäljningsroll, gynnar du systematiskt kandidater som betalat för samma modell — och den fördelen har inget att göra med om de kan sälja.

Studien av Xu/Li/Jiang testade två motåtgärder som fungerade:

Promptnivåförklaring. Att lägga till en mening till screeningprompten — „Du ska inte överväga eller härleda om CV har skrivits av en människa eller av en AI. Fokusera endast på innehållskvalitet." — minskade biaset mätbart. Billigt, gratis, partiellt.
Majoritetsröstningsensemble. Att kombinera den primära utvärderaren med två mindre modeller (t.ex. GPT-4o plus LLaMA 3.2-1B och LLaMA 3.2-3B) och använda majoritetsröstning för det slutliga kortlistningsbeslutet minskade biaset med över 50 %. Mindre modeller visade nästan noll självpreferens, så de fungerade som motvikt till den primära modellens bias. Mer beräkning, mycket mer rättvisa.

Specifikt för EU-arbetsgivare: AI Act klassificerar rekryteringsAI som högrisk. Att veta att screening med en enda modell introducerar en mätbar, icke-demografisk bias som missgynnar kandidater med mindre tillgång till samma betalda AI-tjänst skär troligen in i Actens transparens- och rättviseförpliktelser. Dokumentera din motåtgärdsstrategi innan du behöver den.

Den ärliga versionen: ska du använda AI på ditt CV överhuvudtaget?

Tre ärliga scenarier. Välj det som matchar din verklighet.

Scenario A: du söker till ett stort företag som troligen ATS-screenar med GPT-4o. Kortlistsfördelen på 23–60 % är verklig här. Att använda en stor LLM för att polera ditt CV (INTE för att skriva) ger dig fördelen utan de uppenbara tecknen. Slutsats: använd AI försiktigt.

Scenario B: du söker till ett litet/medelstort företag där en mänsklig rekryterare läser CV:t först. Screening-LLM:en finns inte i denna pipeline. Robotisk AI-prosa skadar dig aktivt här — människor upptäcker den, och många straffar den aktivt som upplevd brist på ansträngning. Slutsats: skriv det själv, använd AI sparsamt för grammatik.

Scenario C: du söker inom akademi, hälsovård eller offentlig förvaltning i EU. AI-redovisning krävs alltmer. AI-flyttig prosa kan läsas som röd flagga snarare än grön. Slutsats: minimal AI, helst ingen, redovisa om assistans användes.

I alla tre scenarierna är en regel universell: låt inte AI skriva ditt faktainnehåll. Prestationerna, siffrorna och projektspecifika detaljer måste komma från dig. AI är en formuleringspolering, inte en substansgenerator.

Hur vi närmar oss detta på TakeMeUp.cv

Fullständig redovisning: vi bygger ett CV-verktyg och vi levererar AI-funktioner. Så detta är den obekväma sektionen där vi måste vara transparenta om vår egen produkt i en artikel som dokumenterar bias i AI-verktyg.

Vår AI Rewrite-tillägg är medvetet begränsad till polering på formuleringsnivå, inte punktlistgenerering. Den skriver om en punkt du skrev till en starkare version av sig själv — behåller dina siffror, dina datum, dina projektnamn och substansen av vad du faktiskt gjorde. Den vägrar uppfinna mätvärden. Det är inte dygdsignalering; det är den enda produktposition vi kan försvara i en värld där AI-genererad CV-fabricering är endemisk. Vår Authenticity Score-tillägg existerar just för att vi vet att rekryterare börjar upptäcka prosa från en enda LLM.

Reservationer och vad vi inte vet än

Studien av Xu/Li/Jiang är den starkaste bevisningen vi har, men några ärliga reservationer innan du överlitar på den:

CV:na var i amerikansk kontext (LiveCareer.com). CV i EU-kontext inkluderar foton, födelsedatum, GDPR-relevanta fält och språkspecifika sektionsordningar. Biasmekanismen (perplexitet-som-bekantskap) bör generalisera, men effektens storlek för europeisk rekrytering är ännu inte uppmätt.
De testade screeninguppgifterna var parvisa jämförelser och kortlistsrangordning. Produktions-ATS-system kombinerar ofta LLM-poängsättning med nyckelordsfilter, knockoutfrågor och viktade kriterier — LLM-biaset är en signal i en stapel av signaler.
Studien testade varken Claude (Anthropic) eller Gemini (Google) — båda används nu i produktion i stor skala för screening. Biasens riktning bör vara densamma (modeller föredrar sina egna utdata), men magnituderna för dessa specifika system finns inte i denna dataset.
Självpreferensbias är en bias bland många som LLM:er uppvisar vid CV-screening. Demografisk bias mot kvinnor, minoriteter och äldre kandidater kvarstår i många modeller — det problemet är äldre och bättre dokumenterat, och det försvinner inte för att vi nu har ett nytt AI-mot-AI-problem.
Motåtgärden (majoritetsröstning med små modeller) minskar biaset med >50 % men eliminerar det inte. Det finns för närvarande ingen teknik som fullständigt tar bort självpreferensbiaset.

Använd AI på ditt CV utan att falla i självpreferensfällan (6 steg)

1
Skriv din egen substans först
Öppna ett tomt dokument och skriv ner fakta: roller, datum, arbetsgivarnamn, projektnamn, tre till fem verkliga prestationer per roll med siffror om du har dem. Gör detta INNAN du öppnar något AI-verktyg. Det faktiska lagret måste komma från ditt minne, inte från en modells gissning.
2
Använd AI för formulering, inte innehåll
Klistra in en punkt åt gången i din valda LLM och be: „Skriv om denna punkt för att vara mer koncis och effektfull, behåll allt faktiskt innehåll intakt." Avvisa varje utdata som lägger till en siffra, ett mätvärde eller ett påstående du inte tillhandahållit. Om AI:n hittar på saker, byt verktyg.
3
Blanda källor för att späda ut fingeravtryck från en enda modell
Om du använde ChatGPT för att polera erfarenhetssektionen, kör utbildningssektionen genom ett annat verktyg (Claude, Gemini, DeepSeek) — eller redigera för hand. Självpreferensbiaset utlöses bara när hela CV:t läses som en modells signaturutdata.
4
Redigera AI-utdata för hand
Läs varje AI-föreslagen mening högt. Om den låter robotisk, byt ut ett eller två ord för att matcha din naturliga röst. Ersätt varje „resultatdriven", „passion för excellens", „synergisera" eller „utnyttja" med orden du faktiskt skulle använda. Rösten överlever poleringen.
5
Kör en ATS-kontroll innan du skickar
Vilken AI du än använt, den strukturella ATS-kontrollen (enkolumn, riktig markerbar text, standardsektionsetiketter, inga dekorativa foton i sidhuvudet) är fortfarande viktig. ATS-nyckelordsfilter och sektionsparsning körs oberoende av LLM-screening — din fil måste klara båda lagren.
6
Redovisa om ansökan frågar
Ett växande antal EU-arbetsgivare — särskilt inom finans, hälsovård, offentlig förvaltning och akademi — frågar uttryckligen om AI användes. Om ansökan frågar, svara ärligt. Att säga „ja, AI användes för att polera formulering, alla fakta och prestationer skrev jag" är ett försvarbart och alltmer förväntat svar.

Vanliga frågor

Ska jag använda ChatGPT eller andra LLM:er för att skriva mitt CV 2026?

Använd dem för att polera formulering, inte för att skriva ditt faktiska innehåll. Studien av Xu/Li/Jiang (2025) visar att LLM-screenare ger en kortlistfördel på 23–60 % till kandidater som använde samma modell som screenaren — men bara om skrivningen faktiskt läses som den modellens utdata. Ett CV där du skrev substansen och en AI polerade enskilda punkter får största delen av fördelen utan att låta robotiskt för mänskliga granskare.

Betyder det att jag ska använda samma AI-verktyg som arbetsgivaren?

Om du visste vilken modell arbetsgivarens ATS använder skulle matchning maximera biaset till din fördel. I praktiken vet du det nästan aldrig. GPT-4o är den mest utbredda företagsscreeningmodellen, så att polera med GPT-4o är vadet med högst sannolikhet för stora företagsansökningar — men endast som polering, inte som skrivande. För små företag med mänskliga granskare är det säkrare vadet minimal AI-användning.

Är rekryterare och arbetsgivare medvetna om denna bias?

Allt mer ja, särskilt i EU-företag som förbereder sig för AI Act:s högriskklassificering av rekrytering. Vissa motverkar med majoritetsröstningsensembler (kombinerar en primär LLM med mindre modeller för kortlistsbeslut) som skär biaset med över 50 %. De flesta mindre företag som använder ATS-produkter direkt från hyllan är inte medvetna och har inga motåtgärder på plats.

Kan en mänsklig rekryterare upptäcka AI-skriven CV-prosa?

Erfarna rekryterare kan upptäcka enmodells AI-prosa inom 5–10 sekunders läsning. Tecknen: standardfraser som „resultatdriven", „passion för excellens", „synergisera", „utnyttja"; misstänkt enhetlig meningslängd; alltför symmetrisk punktstruktur; vaga prestationer utan riktiga siffror. AI-polering som behåller din meningsrytm och ersätter standardfraser med dina egna ord undviker oftast upptäckt.

Är det oärligt att använda AI på mitt CV?

Att använda AI för att polera formulering är branschstandardpraxis och inte i sig oärligt. Att använda AI för att fabricera prestationer, hitta på mätvärden eller hävda erfarenhet du inte har ÄR oärligt och är skäl att återkalla varje resulterande erbjudande. Linjen går mellan formulering (acceptabelt) och substans (inte acceptabelt). De flesta etiska riktlinjer som nu utvecklas inom EU-institutioner följer samma linje.

Vad är skillnaden mellan självpreferensbias och demografisk bias i rekryteringsAI?

Demografisk bias betyder att AI:n behandlar kandidater olika baserat på skyddade egenskaper som kön, ras eller ålder — väl dokumenterat sedan 2018, aktivt lagstiftat mot i EU AI Act och flera amerikanska jurisdiktioner. Självpreferensbias betyder att AI:n behandlar kandidater olika baserat på om de använde samma AI-varumärke som screenaren — först uppmätt i stor skala av Xu, Li & Jiang (2025), och adresseras för närvarande inte av någon AI-rättvisereglering. Båda bias kan samexistera i samma screeningsystem.

Var kan jag läsa den ursprungliga forskningen?

Artikeln är „AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights" av Jiannan Xu, Gujie Li och Jane Yi Jiang. Förtrycket är öppet tillgängligt på arXiv:2509.00462 (2025). Icke-arkiverade versioner presenterades vid ACM EAAMO 2025 och AIES 2025 (DOI 10.1145/3757887.3767676). arXiv-versionen uppdateras oftare och är den rekommenderade primära källan.

Kommer denna bias att bli värre med tiden?

Två motsatta krafter. Värre: när fler kandidater använder AI för att skriva CV växer andelen AI-flyttig text i screeningpoolen, och biaset mot den krympande handskrivna minoriteten blir mer uttalat. Bättre: när forskare publicerar fler fynd som detta, kommer rättvisemedvetna ATS-leverantörer och EU-regulatorer ifatt. Nettoriktningen under de kommande 2–3 åren är osäker. Det säkra vadet är att anta att biaset kvarstår och använda polera-inte-skriva-strategin oavsett.

Är ditt cv ATS-klart?

Få direkt en ATS-kompatibilitetspoäng och se exakt vad du ska åtgärda — gratis.

Kontrollera mitt cv

Relaterade guider

← Alla guider