Løsningen Microsoft Research nå jobber med, er en avansert multiterminal med fem kameraer og mikrofoner.
Ved videokonferanser har det tradisjonelt vært ett kamera i hvert rom som sender bilder til det andre.
Selv om det har eksistert funksjonalitet for å zoome og rette inn kameraene, er det ikke alltid lett å styre slike funksjoner under et møte. I et TV-studio er det en producer som styrer mange kameraer og velger det optimale utsnittet av den som snakker.
Med multiterminalen blir videomøtene mer lik virkelige møter.
Terminalen har 360 graders oversikt over møterommet og kan gi et optimalt kamerautsnitt overalt.
Programvaren leter etter lyd i form av stemmen til den som snakker og analyserer bildet for å finne ansikt og bevegelsesretning.
Ut fra denne informasjonen kan terminalen finne det optimale bildeutsnittet som sendes over til det andre møterommet. Programvaren virker omtrent som et TV-studio hvor en person kontrollerer alle kameraene som opereres av en person for kontinuerlig å gi det beste utsnittet av møtedeltakerne.
Øyekontakt
Hvis du noen gang har hatt et videomøte med en annen person, enten det dreier seg om et kostbart videokonferansesystem, en videotelefon eller via en PC med et webkamera, har du merket mangelen på øyekontakt.
Det virker som om du snakker med en ufattelig sjenert person, men årsaken er teknisk. Ansiktet du ser blir produsert av et kamera som sitter på toppen eller på siden av skjermen. Den ideelle løsningen ville være å ha et kamera midt i skjermen, som helst kunne flytte seg dit øynene var, men det sier seg selv at det ville være vanskelig.
Microsoft Research jobber nå med en løsning som benytter to billige webkameraer på hver side av skjermen. I stedet for to bilder der personen ser henholdsvis til høyre og til venstre, lager den nye programvaren ett bilde fra de to kameraene som ser rett frem.
Akkurat som vår hjerne skaper ett tredimensjonalt bilde fra to øyne, skaper de to kameraene ett todimensjonalt bilde med korrekt kameravinkel. Resultatet er et bilde av motparten som ser deg rett inn i øynene.
Avansert matematikk
Selvfølgelig er ikke dette så enkelt som å interpolere sammen to bilder. Det må gjøres med avansert matematikk. Akkurat som øynene våre ser to ulike bilder, gjør kameraene det også.
Dette må korrigeres, og det gjøres ved å finne likheter i bildene og produsere sammenfallende bilder fra slik informasjon. Det er en svært krevende prosess, men avansert matematikk har gjort det mulig å redusere jobben slik at en vanlig PC kan bygge opp videostrømmen i sanntid.
Det mest problematiske er det som bare observeres av det ene kameraet, slik som sidene av ansiktet. Dette kan gi litt forstyrrelser i bildet, men matematikken som ligger til grunn for programvaren gjør det enklere å korrigere slike problemer i dette systemet enn i andre.
Microsoft Research er ikke de første som har gitt seg i kast med dette problemet, men i motsetning til andre løsninger er det mindre kraftkrevende og det virker på alt, ikke bare på ansikter.