Den Nederlandske opphavsrettighetsorganisasjon BREIN har fjernet et stort språkdatasett som ble brukt til å trene AI-modeller. Datasettet inneholdt informasjon samlet inn uten tillatelse fra titusenvis av bøker, nyhetssider og nederlandske undertekster fra filmer og TV-serier.

Det skriver Reuters.

BREINs direktør Bastiaan van Ramshorst sier det er uklart om datasettet allerede har blitt brukt av AI-selskaper.

- Det er veldig vanskelig å vite, men vi prøver å være i tide for å unngå fremtidige søksmål, sier han til Reuters.

EUs KI-lov, som trådde i kraft 1. august i år, krever at selskaper som trener kunstig intelligens avslører hvilke datasett de har brukt. I USA har Microsoft-eide, OpenAI, blitt saksøkt for å bruke opphavsrettsbeskyttet materiale uten tillatelse, blant annet av New York Times. I Danmark tvang en opphavsrettighetsgruppe nedtakelsen av et datasett kjent som «Books3» i fjor.

Personen som tilbød det nederlandske datasettet, fjernet det etter en stans-og-avstå-ordre fra BREIN, skriver Reuters.