Lanserer norsk språkmodell med data fra NRK og Schibsted: - Dette er en milepæl

Den norske språkmodellen blir tilgjengelig for alle selskaper med hovedkontor i Norden.

Publisert / Oppdater

Dag Robert Jerijervi
Dag Robert Jerijervi Journalist

Onsdag lanserer NorwAI de første norske, generative språkmodellene, omtalt som NorLLM. Det er tre ulike språkmodeller som lanseres i dag: Llama2-7B, Mistral-7B og NorwAI-Mixtral-8x7B.

- Dere er egentlig vitne til en milepæl i arbeidet med norske språkmodeller, sier  Sven Størmer Thaulow til de fremmøtte i Schibsteds lokaler i Akersgata.

Han er til daglig leder for data og teknologi i Schibsted-konsernet og er nå leder for prosjektet som tidligere har gått under navnet NorGPT. Prosjektet, som er finansiert av Forskningsrådet, har hatt til hensikt å bygge opp en språkmodell basert norske data og på norsk språk. 

- Dette er et nytt steg i forskningen hvor vi er nødt til å se hvordan disse modellene virker når de er satt i produksjon i ulike deler av samfunnet, sier Thaulow.

De norske språkmodellene vil være tilgjengelig for alle selskaper som har sitt hovedkontor i de nordiske landene.

Schibsted var sammen med DNB noen av de første store norske selskapene som inngikk et samarbeid med NTNUs forskningssenter, men senere har flere store aktører som Telenor og Statnett kommet til.

Thaulow forteller at det er snakk om «et ordentlig dugnadsarbeid».

Les mer: Kunstig intelligens-satsing splitter norske mediehus: - Ikke vært rett frem

- NRK har en stor utfordring

NorwAI har inngått opphavsrettslige avtaler med Schibsted og NRK. Avtalen med NRK ble signert i dag og sikrer utlevering av nyhetsartikler og debattstoff fra rikskringkasteren til språkmodellene.

- NRK har en stor utfordring som kan løses med språkmodellene, sier teknologidirektør Pål Nedregotten i NRK.

NRK har nemlig et digitalt TV- og radioarkiv på 40 kvadrillioner bytes, eller 40 terabytes. Nedregotten håper de norske språkmodellene kan hjelpe NRK med å skape struktur i arkivet.

- Vi vet lite om hva som finnes inne i disse 40 terabytesene. Et prosjekt som har stor prioritet hos oss handler om å få transkribert dette.

NRK og Schibsted har levert innhold helt frem til 2024. Disse artiklene skal være skrubbet for sensitiv informasjon og personopplysninger.

Schibsted-toppen er opptatt av redelighet.

- De som har produsert innholdet skal respekteres. Er det én ting som har vært en milepæl i dette arbeidet, så er det at vi har fått på plass avtaler for å gjøre dette på en skikkelig måte i tett dialog med fagforeninger, klubber og redaktører, sier Thaulow.

Det er flere grunner til at vi trenger norske språkmodeller ifølge Thaulow. Bedre norsk språk og kulturell kontekst er to av dem.

- Innenfor en del områder, for eksempel utdanning, er det helt essensielt for en nasjon at den kulturelle konteksten reflekteres ut i språkmodellen, sier han.

- Ingen konkurrent til ChatGPT

Professor Jon Atle Gulla i NorwAI understreker at språkmodellene som lanseres i dag har noen begrensinger. De for eksempel basert på syv milliarder parametere. Den nye modellen til OpenAI, Chat GPT-4o er til sammenligning basert på en trillion parametere.

- Dette er ingen konkurrent til ChatGPT. Vi har laget en grunnmodell basert på stort, norsk datasett med gode norske kilder, sier Gulla.

- ChatGPT og de store internasjonale modellene har gjort en god del mer og det skal vi jobbe med fremover.

Næringsminister Cecilie Myrseth fikk æren av å åpne lanseringen. Overfor Kampanje forteller hun at hun har store forventninger til de norske språkmodellene.

- Det er viktig å vite hvordan vi skal bruke kunstig intelligens fremover og hvordan vi skal sikre sikkerheten rundt det og at det blir bra språk. Disse språkmodellene viser vei for hvordan det norske næringslivet og det offentlige kan bruke verktøyene fremover, sier hun. 

Lanserer norsk språkmodell med data fra NRK og Schibsted: - Dette er en milepæl