Lager en egen norsk språkmodell
Sven Størmer Thaulow er konserndirektør for data og teknologi i Schibsted, samt styreleder i forskningsprogrammet NorwAI (se tekstboks).
NorwAI jobber sammen med blant andre Schibsted med å lage en norsk språkmodell ved bruk av samme type teknologi som ligger bak ChatGPT. Tilsvarende modeller er fra før tatt i bruk i Schibsted-systemet og har allerede spart inn tusenvis av arbeidstimer.
NorwAI − Norwegian Research Center for AI Innovation
Norsk forskningssenter for AI-innovasjon (NorwAI) har som mål å være et internasjonalt ledende senter for forskningsbasert innovasjon på datadrevet kunstig intelligens.
Senterets oppgave er å utvikle teorier, metoder og teknologier for vellykket og ansvarlig utnyttelse av datadrevet kunstig intelligens, med industrielle innovasjoner som mål. Senteret inkluderer Norges sterkeste forskningsmiljøer på kunstig intelligens og data science, samt flere av Norges mest ambisiøse industrielle lokomotiver.
Institutt for Datateknikk (IDI) ved NTNU er vert for senteret,
og i tillegg til NTNU består senterkonsortiet av Universitetet i Oslo, Universitetet i Stavanger, forskningsinstituttene Norsk Regnesentral og SINTEF, i tillegg til 11 ledende norske selskaper.
NorwAI har et tett samarbeid med Norwegian Open AI Lab ved NTNU, og samarbeider med noen av de sterkeste AI-forskningsgruppene blant universiteter i Europa, Canada, USA og Kina.
Selv om NorwAI fortsatt er i startfasen, har senteret allerede hatt betydelig framgang innenfor senterets sentrale forskningsområder.
-
Pågående prosjekter og forskningsoppgaver inkluderer:
-
Studie av AI i samfunnet, med utgangspunkt i empiriske brukstilfeller
-
Utvikling av rammeverk for vurdering av pålitelige AI-systemer
-
NorwAI er i samarbeid med Schibsted og NRK i ferd med å lage den største norske språkmodellen så langt, noe som muliggjør nye forretningsmuligheter på områder som chatbots og automatisk generering av tekstsammendrag
-
Avviksdeteksjon og predikering for datastrømmer av lav kvalitet, relevant for f.eks. sensor- og mobilitetsdata
-
Forskning på hybrid AI, med brukstilfeller som inkluderer virtuell strømningsmåling for oljeindustrien og prediktivt vedlikehold for vindturbiner
NorwAI-prosjektet er tildelt 96 millioner kroner av staten gjennom Forskningsrådet.
Norske data
− En språkmodell som primært er basert på norske data, tror vi vil generere bedre innhold, sier Thaulow til Dagens Perspektiv.
Dataene i modellen er blant annet samlet inn fra norske mediehus og fra Nasjonalbiblioteket.
− Vi er straks ferdig med en modell på rundt 23 milliarder parametere, basert på et tekst-datasett på 18 milliarder ordforekomster, forteller Thaulow.
Og til høsten håper NorwAI å kunne lansere en enda større versjon av språkmodellen – da med mellom 40 og 50 milliarder parametere.
Utviklingen av modellen er en norsk forskingsdugnad, ifølge Schibsted-direktøren. Her spiller både akademia, Schibsted, DnB, NRK og andre mediehus på lag.
Til sammenligning har ChatGPT 175 milliarder parametere, mens det spekuleres i at den neste versjonen, ChatGTP-4, vil ha så mye som 1 trillion − altså 1000 milliarder – parametere.
− Er det noen vits i å ta opp kampen mot ChatGPT, Google og de andre gigantene?
− Jeg tror ikke nødvendigvis dette trenger å framstå som en konkurrent til ChatGPT. Det er nok heller et supplement. Hvis den blir bra, er potensialet for vår modell rettet mot det norske markedet, påpeker Thaulow.
En norsk språkmodell er viktig av tre årsaker, ifølge Thaulow:
− For det første tror vi en slik modell tror vil være mye bedre på norsk fordi vi bruker store mengder norsk tekst til å trene den med. Til sammenligning: I ChatGPT regner vi med at under 1% av tekstene er på norsk. For det andre ønsker vi å ha kontroll på vår egen infrastruktur. Kunstig intelligens er allerede i ferd med å bli et globalt industripolitisk race, med store innsatsfaktorer og skalafordeler. Det er ikke gitt at teknologien vil bli demokratisert. Den kan også bli direkte misbrukt i onde hensikter.
− For det tredje ønsker vi modeller som samsvarer med norsk og ikke amerikansk kultur og verdensbilde. La meg gi et eksempel: Hvem er det som bruker disse språkmodellene mest i dag? Det er våre barn, som for eksempel bruker ChatGPT i skolearbeid. Fra deres perspektiv er det nærmest en personalisert lærebok. Vårt samfunn har alltid hatt kontroll på lærebøkene våre barn bruker i skolen. Men nå er det minst like viktig å ha kontroll på hva språkmodellene spytter ut, og sikre at det reflekterer verdiene samfunnet vårt er bygget på.
Thaulow & co tror for eksempel norske offentlige etater vil kunne ha stor nytte av «den norske modellen». Tenk deg for eksempel at NAV skal ha en digital samtale med en bruker. Det er ikke sikkert en KI-modell fra Microsoft eller Google vil klare det særlig bra − ei heller at NAV vil ønske å fin-innstille en språkmodell fra de store amerikanske gigantene med sine data. Med en norsk modell har man større mulighet for å treffe riktig, mener de norske utviklerne.
Ved å bruke de ulike KI-løsningene har vi spart 7000 arbeidstimer bare i VG hittil i år
Sparer tusenvis av arbeidstimer
Den norske språkmodellen er fortsatt på forskningsstadiet. Men Schibsted har KI-løsninger på en del tjenester allerede i dag. Oppsummeringer av artikler du leser på VGNett er for eksempel laget av KI, men sjekket av et menneske. I Schibsteds redaksjonelle systemer kan journalisten legge inn sin artikkel og trykke på en knapp for å få et sammendrag av teksten eller et forslag til tekst for posting på sosiale medier. Og hvis du bruker lydopptak i et intervju, er det en KI-løsning som transkriberer lydopptaket til skrift.
Et annet eksempel er Honk, et bilabonnement på Finn.no. Her er beskrivelsene av de ulike bilene skrevet «av KI».
− Ved å bruke de ulike KI-løsningene har vi spart 7000 arbeidstimer bare i VG hittil i år. I hele Schibsted har vi vel spart rundt 12.000 arbeidstimer. Det tilsvarer mellom 7 og 8 millioner sparte kroner som kan brukes på mer verdiskapende journalistikk, framhever Sven Thaulow.
− Hvor mye penger bruker dere på KI i Schibsted-systemet?
− Svært grovt estimert bruker vi cirka 10 millioner kroner i året på å jobbe med generativ KI i Schibsted. KI generelt bruker vi vesentlig mer på. I NorwAI, som finansieres primært av Forskningsrådet, opereres det med mye høyere summer.
− Hvor vil dette ende? Hva vil KI bety for mediebransjen framover tror du?
− Mange mener at 80 prosent av innholdet på internett vil bli generert av KI om noen ganske få år. Da blir tillit særdeles viktig. Det å kunne identifisere kilder og vite med sikkerhet hvem som står bak innholdet vil være et konkurransefortrinn.
DP-TEMA: Kunstig intelligens
I en artikkelserie over de neste dagene ser vi i Dagens Perspektiv nærmere på fenomenet kunstig intelligens (KI). Denne teknologien har lenge vært heftig omtalt, men det er først i år KI at virkelig har tatt av – og blir brukt av mange.
Her finner du alle de publiserte sakene i vår
artikkelserie om kunstig intelligens:
Les i morgen:
-
Abelia: – Regulering av KI må bli til mens vi går
Hele artikkelserien om kunstig intelligens er hovedtema i juniutgaven av månedsmagasinet Dagens Perspektiv.
Sjekk alle KI-sakene – og mye mer i Dagens Perspektivs månedsmagasin – her.