• @letrasetOP
    link
    dansk
    54 months ago

    Takket være AI, er der en risiko for, at internettet bliver en “poison well” for fremtidige modeller. Vil det måske sige, at de bedste generiske LLM modeller, er dem vi har i dag, fordi de er trænet på hestenettet, reddit, fora, og andre kilder af brugerskabt indhold?

    Hvis fremtidige modeller ukritisk anvender indhold fra internettet i bred forstand, så er der i hvert fald rig mulighed for, at generiske modeller fremover kommer til, at være mere Garbage In/Garbage Out.

    Det lyder ikke så godt synes jeg.

    • @farsinuce
      link
      3
      edit-2
      4 months ago

      Ja, det kommer også an på hvilken data de individuelle LLMs bliver trænet på. Jeg mindes, at Claude.ai for eksempel er trænet mere på data fra artikler fremfor data fra online fora.

      Så spredehaglssprogmodeller bliver muligvis dem, der kommer til at lide mest.

      • @letrasetOP
        link
        23 months ago

        Det er i hvert fald ret vigtigt, at materialet der bruges til at træne de her LLMs ikke består af LLM genereret indhold, og det er vist stadig ret svært at afgøre hvad der er, og ikke er, genereret af LLMs. Det kommer, forhåbentlig hen ad vejen.

  • @letrasetOP
    link
    dansk
    24 months ago

    Sammenfatning af ChatGPT:

    • Takket være den stigende popularitet af generativ kunstig intelligens er programmer, der kan producere tekst, computerkode, billeder og musik, nu almindeligt tilgængelige. Men som AI-udviklere udnytter internettet til at træne nye modeller, risikerer de at indføre fejl, der kan akkumulere over tid og forringe modellernes ydeevne. Dette fænomen, kaldet “modelkollaps,” er blevet observeret i flere AI-modeller og kan true mangfoldigheden og pålideligheden af ​​deres output. For at modvirke dette presserende problem kræver det måske en omhyggelig kuratering af træningsdata og en indsats for at beskytte modellernes eksisterende bias.
    • @farsinuce
      link
      34 months ago

      En løsning kan være at fabrikere syntetisk data, har jeg læst. Men ved ikke, hvor realistisk det er for LLMs.

      • @letrasetOP
        link
        23 months ago

        Fabrikere syntetisk data? Det er vel også LLM fabrikeret, eller hvordan? Er ikke helt sikker på at jeg forstår (: