Kan en kunstig intelligens overvåke et betent kommentarfelt? Kan den automatisk spore endringer i holdninger og oppfatninger overfor politisk partier, bedrifter og personer? For å få til det, er det helt nødvendig at algoritmene forstår norsk.
– Fra å være et litt sært forskningsfelt, har det vært en rivende utvikling innenfor språkteknologien de siste årene, sier professor Lilja Øvrelid ved Institutt for informatikk.
Nå ser hun frem til at teknologien skal komme seg ut og bli tatt i bruk i norske bedrifter.
– Det er stor interesse og behov hos mange næringslivsaktører, kanskje spesielt blant mediebedrifter, sier førsteamanuensis Erik Velldal.
Det har nå resultert i to nye forskningssentre, NorwAI og Media Futures, der forskere og Medie-Norge knytter sterkere og mer formelle bånd.
Øvrelid, Velldal og kollegaene deres har lagt grunnlaget for det som kan bli nye teknologiske verktøy for det norske språket. Algoritmene må nemlig skjønne norsk før språkteknologien kan gjøre særlig nytte for seg her til lands.
Ekstremværet: Flom- og jordskredfare nedjusteres til oransje og gult farenivå
Lille Norge
Hvis det bare hadde vært å oversette teknologien som allerede er utviklet for engelsk, ville de sikkert vært i gang for lenge siden. Men så enkelt er det ikke.
– Språk er såpass komplekst at man ikke bare kan kjøre alt gjennom Google Translate og bruke engelske metoder. Man er rett og slett nødt til å gjøre en ganske stor jobb, sier Øvrelid til Titan.uio.no.
– Man kommer ingen vei uten å ha tilrettelagte data for det enkelte språket, sier Velldal.
Derfor har forskere og studenter jobbet tålmodig og målrettet med norske tekster. De har blant annet fått tilgang til titusenvis av avisanmeldelser med terningkast, skryt og slakt. I deler av dette materialet har de markert ord som kan tolkes som positive eller negative, slik at algoritmene de lager får noe å trene seg på.
– Nå vil jeg si at vi har fått på plass såpass mye at det er realistisk å faktisk begynne å bruke det til noe der ute, sier Øvrelid.
En algoritme som avdekker følelser
Dette kan de bruke til å få et inntrykk av om en tekst er positiv eller negativ, og hva den eventuelt er positiv eller negativ til – bare ved å kjøre den gjennom et dataprogram. Dette kalles sentimentanalyse, fra det engelske ordet sentiment, som betyr følelse.
Hensikten med sentimentanalyse er å finne positive og negative holdninger, følelser og meninger i en tekst uten at et menneske trenger å lese alt sammen.
– Sentimentanalyse ble brukt mye i presidentvalgkampen i USA både i 2016 og i 2020. Man kan bruke det for å prøve å måle oppslutningen om ulike kandidater helt automatisk, sier Velldal.
– Man kan gjøre sentimentanalyse av alle nyhetstekster og av sosiale medier og slik spore meninger over tid. Gjennom en valgkamp kan man for eksempel se på strømninger i opinionen, sier Øvrelid.
En enkel analyse vil kanskje kunne si om du er positivt eller negativt innstilt til politikken til ett bestemt parti. En mer avansert analyse, finkornet som forskerne kaller det, kan si noe om hvilke deler du er positiv til og hvilke deler av politikken du ikke er like begeistret for.
Melkøya-kraftledningen er godkjent – kan starte bygging
Vil måle om budskapet når frem
Sentimentanalyse er også noe IT- og teknologidirektør i Retriever, Claes Lyth Walsø, tror han kan få nytte av som partner i NorwAI. Som navnet antyder, skal senteret drive med kunstig intelligens (AI).
– Vi vil være med på denne reisen. Vi ønsker å utnytte kunstig intelligens til å oppnå nye ting som vi ikke gjør i dag, og vi ønsker å gjøre det vi allerede gjør i dag enda bedre, sier Walsø.
Retriever er størst i Norden på det som kalles medieovervåkning. På vegne av kundene sine følger de med på hvor ofte og på hvilken måte de omtales og oppfattes.
– Vi får til mye og jobber daglig med dette, men det er noen utfordringer, særlig innenfor nordiske språk, sier Walsø til Titan.uio.no.
– Jo mer maskinell hjelp vi kan utnytte for å forstå språk og tekst automatisk, jo mer effektivt kan vi gjøre jobben vår. Og vi vil forhåpentligvis oppnå innsikt for både oss selv og for kunden som vi ikke klarer å finne i dag, sier han.
Kundene hans er gjerne folk som jobber med PR og kommunikasjon i store og små bedrifter. De vil gjerne vite hvordan de får fram budskapet sitt og hva folk tenker om dem.
– De blir målt på hvordan de klarer å fremme virksomheten i mediebildet. Da er det interessant å få analyser på sentiment – om omtalen er positiv, negativ eller nøytral, sier Walsø.
Ikke så lett som det høres ut
For at dette skal kunne skje automatisk, må dataprogrammene trene seg opp ved hjelp av tekster som er behandlet av mennesker. Først etter en slik treningsperiode slipper de løs på tekster ingen har analysert for dem. Og det er mange vanskelige avgjørelser, både for mennesker og maskiner.
– Ta for eksempel ordet «langvarig». Hvis det er en beskrivelse av levetiden til et batteri, så er det positivt. Er det en beskrivelse av en sykdom eller et sykdomsforløp, så er det veldig negativt, sier Øvrelid.
Selv et ord som «bra» kan skape problemer. Det tilsynelatende positive ordet er helt avhengig av hvilke ord som står i nærheten.
– Hvis man sier at noe «på ingen måte er bra», så er det opplagt at det ikke er noe positivt man uttrykker. «På ingen måte» er en negasjon som bidrar til å snu betydningen i det som uttrykkes, sier Velldal.
Derfor lager de egne modeller som kan håndtere slike negasjoner og sørge for det som kommer ut av analysen er meningen til hele bolker av tekst, ikke bare til enkeltord.
– Meningen i språket er veldig avhengig av konteksten. Ordene henter betydning fra sammenhengen de står i. Det er derfor vi trenger avanserte maskinlæringsmodeller som analyserer hele konteksten, for å finne ut om det er noe positivt eller noe negativt som uttrykkes, sier Velldal.
– Det er konteksten som er nøkkelen. Det er det som gjør det vanskelig – og morsomt, sier han.
Batteriekspert tror på kinesisk oppkjøpsraid
Kan hjelpe journalister med research
De to forskerne er verken ute etter å lage journalistroboter eller ta over Medie-Norge. Men de ser mange muligheter for mer bruk av språkteknologi i norske medier.
– Mediepartnerne er interessert i å få teknologien og selvfølgelig de datasettene der ordene er «merket». Mange av dem har store utviklingsteam som jobber med å designe sine egne systemer, sier Øvrelid.
– Sentimentanalyse kan for eksempel brukes i research-delen av journalistikken, sier Velldal.
Da ser han for seg at en slik analyse kjapt kan fortelle journalisten hvor en hendelse er omtalt tidligere, men også hvilke ulike perspektiver den er omtalt i og hvem det er som omtaler den positivt og negativt.
– En sentimentanalyse kan si: Dette er hendelsen, dette er aktørene som er med, og dette er måten de blir omtalt på, sier Øvrelid.
Kanskje kunne en avis også bruke den internt for å se om den har en slagside i en eller annen retning, som et korrekturprogram for skjulte holdninger og oppfatninger. Hvis de kjører alle artikler om for eksempel Jonas Gahr Støre gjennom en sentimentanalyse, kan de finne ut om de ubevisst setter ham i et dårligere eller bedre lys enn det de kanskje trodde.
Men da støter språkteknologien på et annet problem. For hvordan vet algoritmen at det er snakk om akkurat ham?
– Det vil kanskje stå «Jonas Gahr Støre» ett sted i artikkelen. Andre steder står det bare «Støre» eller «Ap-lederen» eller bare «han». Det er noe som må på plass og som vi kommer til å jobbe videre med, sier Velldal.
Overvåke kommentarfelt
Mediekonsernet Amedia, som hovedsakelig driver med lokale nyheter, er en av samarbeidspartnerne til Øvrelid og Velldal i det nye senteret Media Futures.
– Vi ønsker å få mer kontakt med og hjelp fra andre forskere. Selv om vi er et stort firma, er vi ikke store nok til å lage store språkteknologiske systemer alene, sier Emiliano Guevara, som jobber med språktekonologi i Amedia.
Amedia eier over 85 lokalaviser i Norge.
– I hele konsernet publiserer vi rundt 2000 artikler hver dag. Det er store mengder med tekst, og vi bruker systemer basert på språkteknologi for å kunne håndtere all denne informasjonen, sier Guevara.
Dette er ikke nødvendigvis noe leserne ser så mye til, men det handler blant annet om kategorisering av artikler og å forutse hvor mange som kommer til å klikke seg inn på en artikkel. Men de har også lyst til å utvikle nye teknologier, for eksempel for å kunne få tilbake kommentarfeltene som var en så sentral del av nettavisenes barndom.
– Veldig få Amedia-aviser har kommentarfelt fordi det er veldig dyrt å vedlikeholde og organisere, sier Guevara.
Han kunne ønske seg et dataprogram som følger med og som automatisk modererer og håndhever avisenes kommentarfelt-regler.
– Mange prøver å selge systemer til oss, men de er ikke laget for norsk språk. De er basert på oversettelse fra engelsk. Høykvalitets systemer basert på norsk språk må man lage sammen med andre, sier Guevara.
Han ser frem til å jobbe tettere på forskere, universiteter og andre forskningsinstitusjoner. I et lite land som Norge er man avhengig av at folk jobber sammen.
– Dette er en fortsettelse av en tradisjon i norsk språkteknologi der man deler data, kompetanse og ressurser slik at vi i fellesskap kan få til noe mye større enn det vi kan hver for oss, sier Guevara til Titan.uio.no.
Han forteller at Amedia over tid har bygd opp et stort datasett for å trene språkmodeller og blant annet brukt teknologi som Øvrelid og Velldal har vært med på å utvikle.
– Men de nyeste modellene og den nyeste teknologien krever enda større datasett og dermed behov for enda mer samarbeid, sier Guevara.
Trenger fortsatt menneskelig ekspertise
I tidligere forskningsprosjekter har de samarbeidet med Schibsted, Aller og NRK. Nå kommer også Amedia, Retriever, TV 2 og flere mediebedrifter med. I tillegg til forskere fra blant annet Sintef, NTNU og Universitetet i Bergen.
– Mye av arbeidet vi har gjort i tidligere prosjekter, er ting vi kommer til å ta med inn i de to nye sentrene, sier Velldal.
– Nå er det mulig å rulle denne teknologien ut i produksjon og ta den i bruk i bedrifter, sier Øvrelid.
Selv om de nå deler med seg og lar alle få tilgang til datasettene de så møysommelig har bygget opp, kommer de ikke til å bli arbeidsledige med det første.
– Det krever fortsatt mye manuell innsats og menneskelig ekspertise for å tilrettelegge dataene som maskinlæringsmodellene må trenes på. Det er en ting som ofte glemmes når man leser om maskinlæring og kunstig intelligens, sier Velldal.
Artikkelen var først publisert på titan.uio.no.
Deler ut nær 800 millioner til hydrogenprosjekter