Apple er den siste i rekken av generative KI-utviklere som har blitt tatt i å skrape opphavsrettsbeskyttet innhold fra sosiale medier for å trene sine kunstige intelligenssystemer. Ifølge en ny rapport fra Proof News, har Apple brukt et datasett som inneholder undertekstene til 173 536 YouTube-videoer for å trene sin KI. Nå skal det sies at Apple ikke har brukt data uten samtykke til sin Apple Intelligence, men like fullt har de innhentet data uten samtykke til å trene opp andre KI-modeller. Sammen med Apple har også andre teknologigiganter, som Anthropic, Nvidia og Salesforce, blitt tatt med «buksene nede».
Datasettet, kjent som YouTube Subtitles, inneholder transkripsjoner fra mer enn 48.000 YouTube-kanaler, inkludert MIT, Harvard, The Wall Street Journal, MrBeast og Marques Brownlee. Datasettet, som ble samlet av startupen EleutherAI, inneholder ikke videofiler, men en rekke oversettelser til andre språk, inkludert japansk, tysk og arabisk. EleutherAI fikk angivelig dataene fra et større datasett, kalt Pile, som i seg selv ble skapt av en ideell organisasjon som hentet dataene sine fra ikke bare YouTube, men også Europaparlamentets arkiver og Wikipedia.
Rent teknisk har dette vært en reell utfordring siden OpenAI lanserte ChatGPT. I dag står en rekke selskaper, inkludert MidJourney og Udio, overfor søksmål fra innholdsskapere over påstander om at de har brukt opphavsrettsbeskyttede verk uten tillatelse. Google selv, som eier YouTube, ble rammet av et tilsvarende massesøksmål i juli i fjor, i det selskapet hevder ikke bare er en utfordring for Google sine KI-tjenester, men for selve ideen om generativ KI. Felles for de fleste av disse teknologigigantene er at de sliter med å dokumentere hvor de henter treningsdataene sine fra. I et intervju i mars 2024 med The Wall Street Journals Joanna Stern, hadde OpenAI sin Chief Technical Officer, Mira Murati, store utfordringer med å forklare om de brukte videoer fra YouTube, Facebook og andre sosiale medieplattformer for å trene modellene sine. Året før, i 2023, argumenterte Microsoft sin KI-sjef, Mustafa Suleyman, for at en «sosial kontrakt» betyr at alt som finnes på nettet er fritt vilt.
- Jeg mener at med hensyn til innhold som allerede er på det åpne nettet, har den sosiale kontrakten for det innholdet siden 90-tallet vært at det er snakk om 'fair use'. Alle kan kopiere det, gjenskape med det, reprodusere med det. Vår forståelse er at dette alltid har vært 'freeware'.
Den eneste, tilsynelatende, aktøren som har informert sine brukere om at de vil bruke innholdet som du og jeg har publisert offentlig på deres plattform, er Meta. Det ble møtt med massiv kritikk og anbefalinger om å slette konti. Vår egen digitaliseringsminister kalte sågar Meta «inn på teppet» og KI-forsker og -ekspert, Inga Strümke, forlot Facebook i protest (men er fortsatt på Instagram, fordi hun synes det er så gøy å være der). Det er lett å forstå hvorfor Meta blir møtt med kritikk, gitt alle skandaler som har avdekket deres tilsynelatende hensynsløse håndtering av vårt personvern. Men hvorfor rettes ikke den samme skepsisen mot andre teknologigiganter som Apple, Nvidia og Salesforce?
Jeg tror ingen, inkludert KI-forsker Inga Strümke eller digitaliseringsminister Karianne Tung, vil slutte å bruke iPhone og kalle Apple inn på teppet. Ei heller å slutte å bruke KI-tjenester som i stor grad blir kjørt på hardware fra Nvidia; som i praksis betyr nesten alle generative KI-tjenester, inkludert ChatGPT og Microsoft CoPilot. Det synes jeg, mildt sagt, vitner om en kraftig dobbeltmoral og at Meta alltid er lett å ta.
Når vi som samfunn unnlater å holde alle aktører til samme standard, undergraver vi tilliten til hele systemet. Hvis vi virkelig ønsker å beskytte våre data og personvern, må vi være konsekvente i vår kritikk og krav til ansvarlighet. Det er ikke nok å peke fingeren bare mot én aktør — vi må være like årvåkne overfor alle som opererer i denne sfæren. Og det er i praksis alle
Kommentér