AI-Generated Data Can Poison Future AI Models

letraset · 1 year ago

AI-Generated Data Can Poison Future AI Models

letraset · 1 year ago

Takket være AI, er der en risiko for, at internettet bliver en “poison well” for fremtidige modeller. Vil det måske sige, at de bedste generiske LLM modeller, er dem vi har i dag, fordi de er trænet på hestenettet, reddit, fora, og andre kilder af brugerskabt indhold?

Hvis fremtidige modeller ukritisk anvender indhold fra internettet i bred forstand, så er der i hvert fald rig mulighed for, at generiske modeller fremover kommer til, at være mere Garbage In/Garbage Out.

Det lyder ikke så godt synes jeg.

farsinuce · edit-2 1 year ago

Ja, det kommer også an på hvilken data de individuelle LLMs bliver trænet på. Jeg mindes, at Claude.ai for eksempel er trænet mere på data fra artikler fremfor data fra online fora.

Så spredehaglssprogmodeller bliver muligvis dem, der kommer til at lide mest.

letraset · 1 year ago

Det er i hvert fald ret vigtigt, at materialet der bruges til at træne de her LLMs ikke består af LLM genereret indhold, og det er vist stadig ret svært at afgøre hvad der er, og ikke er, genereret af LLMs. Det kommer, forhåbentlig hen ad vejen.