Siden datamaskinenes barndom, har det vært et mål å få dem til å forstå mennesker på samme måte som vi omgås hverandre.
I starten trodde man det var lett. Språk var jo bare lydbølger som varierte i frekvens og amplitude, så man bare kunne plukke ut ordene fra slike mønstre. Det kunne vel ikke by på problemer? Men det kunne det.
Desto mer man analyserte talesignalene, jo mer innsikt fikk man i hvor ulikt folk uttalte ord og setninger. Ulike språk – og et enormt antall dialekter – gjorde ikke saken bedre.
Les også: Språkteknologi kan spare to milliarder trygdekroner
Å snakke og å forstå
Vi mennesker skiller ikke mellom det å snakke og det å forstå. Det flyter sammen. Men slik er det ikke for en datamaskin: Den kan godt snakke i vei uten å forstå noe som helst, og den kan forstå uten å kunne snakke.
Det er to helt ulike programmer som ligger bak slike anvendelser, derfor skiller vi mellom talesyntese og talegjenkjenning.
Det enkleste er å få en datamaskin til å snakke. Det har vi gjort i mange tiår. Et typisk eksempel er stemmen til Steven Hawking. I dag kunne han fått en stemme som var nesten perfekt, men han har valgt å beholde den snart 30 år gamle syntetiske stemmen fordi alle forbinder den med ham.
Dagens syntetiske tale er typisk basert på en stemmedonor som har lest inn et stort antall setninger. Ut fra disse plukker man ut stavelser, signalrepresentasjoner, og det er disse som settes sammen til ord.
Etter hvert som lagringskapasiteten til datamaskiner har økt, har man ikke det samme behovet for å spare plass. Derfor lagrer man nå opptak av vanlige ordsammenstillinger for å unngå skjøteproblemet som kan få den syntetiske talen til å lyde litt stakkato.
I talesyntese må alle ordene i ordboken først gjøres om til lydskrift. Eksempler på lydskrift finner vi i en norsk-engelsk ordbok. Den forteller hvordan ordet uttales på engelsk.
På norsk er bokmålsordboken på rundt 60 000 ord, mens nynorskvarianten har rundt 90 000 ord. I tillegg kommer bøyninger.
Les også: Denne 3D-printeren kan du ha hjemme
Stemmeprøver
Utfordringen vokser når man dikterer til en datamaskin. Ikke bare må programmet forstå ordene som uttales, det må også forstå dialekter, gebrokken uttale og litt talefeil.
For å trene opp en talegjenkjenner brukes et stort antall stemmeprøver. Ofte leser tusen ulike mennesker inn ord og setninger for å få et stort nok statistisk grunnlag til å håndtere alle variasjonene i språket.
Det er to forskjellige anvendelser av talegjenkjenning. Den ene er beregnet på diktering av tekst rett inn på en skjerm. Den andre er taleforståelse.
Diktering
Når man skal diktere til en datamaskin, må den oppfatte alt som sies slik at den kan gjengi hvert ord.
Jo mer oppgaven kan avgrenses, jo enklere blir det å lage et program som kan tolke talesignalene og gjøre det om til tekst.
Det gjør også at slike anvendelser har sett dagens lys først. Når en radiolog dikterer inn sin tolkning av et røntgen- eller MR-bilde, kan det aller meste av språket kuttes ut, og det hele innsnevres til et lite område.
Det som kan høres ut som kaudervelsk norsk/latinsk, er i virkeligheten lett å tolke for en datamaskin sammenliknet med dagligtale.
Systemet trenger ikke å vite noe om verken lakselus, ballettrinn eller Petter Northug. Bare om anatomi og de ordene som trengs for å skape mening i det. Talegjenkjenning er mye brukt i forskjellige medisinske fagområder for å diktere inn epikriser.
Les også: Nå kan du glemme PIN-koden
Taleforståelse
Det beste eksemplet på taleforståelse er Siri på Iphone og Googles stemmesøk på Android.
Her må datasystemet forstå spørsmålet for å kunne finne riktig svar. Derfor er kravet til at systemet oppfatter alle ordene helt korrekt ikke så stort som ved diktering, men systemet må forstå hva du spør om. Slike spørresystemer har et tale-til-tekst-system i front som gir grunnlag for spørringen inn i flere ulike kunnskapsdatabaser.
Typisk spør Apples Siri videre til Google, Yelp, Wolfram Alpha, Yahoo og Wikipedia og så sammenstilles svaret til det som gir høyest statistisk relevans i forhold til hvordan spørsmålet tolkes.
Googles system fungerer ganske godt på norsk, og det betyr at de har bygget en norsk modul for talegjenkjenning. I motsetning til Apple vises oppslag på Google, mens Apples Siri kan svare, om ikke på norsk. Begge finner adresser i kart.
Men selv de beste datasystemer, kan ikke forstå alt. Det gjør jo ikke mennesker heller. Hvis du sier: Kan du lukke døra? og datamaskinen ikke er sikker, må den spørre: Mener du at jeg skal lukke den døra der? Er det korrekt, svarer du ja, akkurat som til et menneske.
Det mest avanserte spørresystemet som eksisterer er IBMs Watson-system, selv om det ikke baseres på tale ennå, men på skriftlige spørsmål. Fremtidige versjoner vil kunne ha en talemodul i front.
Les også: Apple kan få fart på norsk sensorteknologi
Enorm nytteverdi
Talegjenkjenning har potensielt enorm nytteverdi. Folk som har vanskeligheter med å bruke tastatur peker seg ut som de som får mest glede av teknologien, men i svært mange situasjoner har vi alle glede av å snakke uten å taste.
Samsung har allerede bygget en meget enkel talegjenkjenning inn i sine nye tv-er, men her er det mye å gå på. Biler er et annet eksempel der flere varianter av teknologien kan utnyttes. Du kan få lest opp e-post og meldinger og diktere nye tilbake. Eller spørre etter adresser og telefonnumre.
Og mobiltelefoner er det for de fleste enklere å snakke til enn å taste på.
Hovedkilde: Dr. ing. i Telenor Research and Future Studies, Knut Kvale.
Les også:
Opera kommer med ny nettleser til mobilen