Internettbaserte strømmingstjenester baserer seg på komprimerte lyd- og bildeformater. Det vil si datafiler som blir avkodet og konvertert til lyd eller bilde på direkten hos deg som mottaker.
Kvaliteten på det du mottar, påvirkes av faktorer som metoden for strømming, programvare, protokoller, originaloppløsning, prosessorkraft og båndbredde.
Noe kvalitetstap kan vi tolerere, men på ett eller annet punkt begynner vi å legge merke til det, og opplevelsen kan bli forstyrret. Det ønsker både sender og mottaker å unngå, så kunnskap om hvor grensene går er verdifullt.
Ragnhild Eg er postdoktor ved Simula med bakgrunn i psykologi, og har deltatt i forskningsprosjektet Perceval. Her har forskerne blant annet utviklet nye teknikker for å evaluere oppfattet kvalitet på audiovisuelle systemer.
Utakt mellom lyd og bilde
– Jeg har sett spesielt på dette med asynkronisitet, det vil si hvor mye lyd og bilde kan skilles i tid før vi legger merke til det. Dette er ofte et stort problem for tjenester som Netflix, forteller Eg.
Hun forklarer at sansene våre er konstruert for å kompensere for en viss utakt mellom det vi ser og det vi hører. Forklaringen er at lyd- og lysbølger beveger seg med ulik hastighet. Når hjernen bearbeider signaler i form av lyd og lys, er de altså ikke samkjørte.
– Vi kompenserer for dette ved å synkronisere signalene i etterkant, forklarer Eg.
Siden sansene våre er tilpasset universets fysikk, hvor lyd beveger seg mye saktere enn lys, merker vi det veldig raskt dersom lyden kommer før bildet.
– Derfor er det bedre å tvinge lyden til å komme litt seinere, enn å risikere at den kommer før bildet. Vi er ganske tolerante når lyden kommer etter bildet, sier hun.
Les også: Norsk programvare lar deg slå sammen bredbåndet og mobilnettet
100 ms
Henger lyden etter med mer enn 200 millisekunder (ms), er det imidlertid sannsynlig at vi legger merke til det. Ett millisekund er det samme som ett tusendels sekund.
– Med mindre forsinkelse enn 100 ms, er det veldig få som legger merke til det, sier Eg.
Dagens anbefalinger på mellom 40-60ms, er derfor veldig konservative, og kanskje mer egnet for telekonferanseløsninger og andre systemer som krever mer presisjon i lyd og bilde.
– Her er det riktignok store individuelle variasjoner. Noen er ekstremt sensitive, sier Eg.
Sensitiviteten ser ut til å ha mest med erfaring å gjøre, og derfor ønsker postdoktoren å jobbe videre med dette ved å se på musikere som har lang erfaring med å holde tempo.
Hun har selv blitt veldig sensitiv etter å ha jobbet med temaet i mange år.
Tolerante når kvaliteten er jevn
Videokomprimeringen skal fungere slik at den prioriterer vekk informasjon som sansene våre ikke er så gode til å oppfatte, men den kan også føre til at informasjon som sansene er avhengige av forsvinner. Jo mindre fila er, jo mindre informasjon er det i den.
Dette kan påvirke antall piksler eller bilderammer per sekund (fps), i tillegg til farger og lysstyrke.
I tillegg kan videokvaliteten bli dårligere med forstyrrelser og forvrengninger som hakking, kornete bilde eller blokker («blockiness»).
For å undersøke hvordan slikt oppfattes, satte andre forskere i prosjektet opp et slags smakspanel for video – i samarbeid med Nofima.
– Folk legger merke til ting som dukker opp og skiller seg ut i synsfeltet. Jevnt over dårlig kvalitet legger de mindre merke til enn for eksempel blokker i bildet. Alt er snakk om grader, men om kvaliteten er grei nok, er folk mer utholdende enn om det skjer mye uventet, forteller Eg.
Les også: 3D-teknologi skal bidra til operasjoner som belaster kroppen mindre
Nye metoder
På feltet multimediakvalitet har man typisk bedt folk om å rangere kvaliteten på en skala fra én til fem. Testpersonene har dessuten blitt vist veldig korte snutter – typisk på rundt 10 sekunder.
Forskerne i Perceval ønsket å finne noen andre måter å gjøre slike evalueringer på, med mer fokus på hvordan mennesker mottar signaler fra omverdenen, og organiserer og tolker dem.
– Det handler om hvordan sansene tar inn informasjon, sier Eg.
De har blant annet tatt i bruk sporing av øyebevegelser og utvikler en ny metode for å tolke slike data med tanke på oppfattet videokvalitet.
Forskere ved NTNU har dessuten utarbeidet en metode for langtidsevaluering, som innebærer at folk ser på en video hvor kvaliteten går gradvis nedover.
Med en knapp kan forsøkspersonene justere videokvaliteten selv, og forskerne registrerer punktet hvor de legger merke til kvalitetstapet og justerer opp.
De registrerer også hvor mye forsøkspersonene skrur opp kvaliteten. Slik blir de i stand til å si noe om akseptable kvalitetsnivåer.
Les også: 10 triks for bedre wifi hjemme
Verdensopera
I forbindelse med den årlige festivalen Art.on.Wires har forskerne i Perceval også utforsket interaktive opptredener som går live.
Forskere ved Universitetet i Tromsø samarbeidet også med forskere i prosjektet Verdione om å få i stand en live opera som fant sted i flere byer samtidig.
Samspillet mellom sangere og musikere var altså avhengig av teknologi. Perceval-forskerne dokumenterte deltagernes opplevelser, og deres meninger rundt hva som gir kvalitet i en slik virtuell live-opptreden.
– Musikerne lærer seg å kompensere for at lyden fra de andre henger litt etter på grunn av overføringer. Dette gjorde de ganske intuitivt, så lenge forsinkelsen var konstant, sier Eg.
Hovedideen med World Opera-prosjektet, var å utvikle et system for raskere overføring over store avstander, og skape tilstedeværelse selv om musikerne ikke er der publikum sitter. Blant annet ble det jobbet mye med den visuelle presentasjonen.
– Det ble en forestilling til slutt, forteller Eg.
Her er en video om operaprosjektet:
Denne artikkelen er levert av VERDIKT (Kjernekompetanse og verdiskaping i IKT), som er Forskningsrådets program for IKT-forskning.
Les også:
Googles TV-pinne har blitt mye bedre. Slik bruker du den