Noen ganger kan variasjonene i måleresultat opptre systematisk, eksempelvis ved at avlesningene varier som funksjon av tid på døgnet eller året når en konstant verdi er forventet. Det er generelt ønskelig å presentere tilfeldige måleverdier som en enkel verdi og en eller annen form for usikkerhet eller spredning relatert til denne.
La oss derfor, som et eksempel se på en måleserie eller utvalg bestående av følgende verdier: 106, 111, 108, 105, 109,115, 110, 114 og 101
I noen tilfeller vil middelverdien av differansen mellom største (115) og minste verdi (101) representere en god verdi å rapportere. I vårt tilfelle 108, og så anslå usikkerheten til halvparten av området målverdiene befinner seg innenfor, det vil si (115–101) / 2 = 7.
De 10 måleobservasjonene kan således bli presentert som 108 +/-7. Imidlertid kan ikke dette oppsettet gi oss noen form for sannsynlighet for at neste måleobservasjon vil bli større enn 115 eller mindre enn 101.
Basert på antakelse
Sannsynlighetsteori er basert på antakelsen om at hvis det er en sann verdi vi prøver å observere er det større sjanse for at en gitt observasjon ligger nærmere denne verdien enn langt unna. Dette kan også uttrykkes som at sannsynligheten for avviket mellom observert verdi og sann verdi avtar med den absolutte avviksverdi. Dersom den sanne observasjonsverdi var 108, vil vi, basert på sannsynlighetsteorien over forvente et større antall observasjoner i området 106 – 110, enn i området 101–105 eller 111–115. Dersom vi ser på vår måleserie er dette gjeldende. Teorien prediktorer at den beste tilnærmingsverdien for en serie målinger er den verdien som gir minste sum av avviksverdier (observert verdi minus beste tilnærmingsverdi) i kvadrat. Siden dette er komplekst å forholde til seg i praksis, går vi normalt ut fra at beste tilnærmingsverdi er den aritmetiske middelverdi av observerte verdier.
Middelverdien av de 10 måleobservasjonene presentert her er 109,1. Dersom 109,1 trekkes fra hver av de 10 verdiene som er observert, og differensen kvadreres, vil summen av kvadrerte avvik være 164,9. Dersom vi forandrer beste tilnærmingsverdi til 109.0 og repeterer prosessen vil summen av kvadrerte avvik bli 165, mens den blir 165,3 dersom beste tilnærmingsverdi velges til 108,9. Med bakgrunn i dette er 109 en mer representativ verdi for vår måleserie enn midtpunktverdien på 108.
Har du lest: Seilbåten som er sin egen kaptein
Statistisk metode
Denne metoden kan brukes i forbindelse med komplekse situasjoner hvor observasjoner av to eller flere variabler er ønskelig å beskrive med en korrelerende matematisk ligning. Men her vil vi begrense oss til å adressere hvordan usikkerheten til en middelverdi av observasjoner kan angis. Statistiske tilnærmingsmetoder er et godt verktøy med hensyn til usikkerhet, angivelse og sannsynlighet. Statistiske metoder vil aldri kunne si presist hvor nøyaktig en observasjon er, eller hvor nøyaktig en observert middelverdi måtte være. Metoden fokuserer isteden på en statistisk størrelse som vi kaller standardavvik (σ). Denne størrelsen brukes for å kalkulere sannsynligheten for at en enkel observasjon vil falle innenfor et spesifisert avvik sett i forhold til observert middelverdi. Den gir også sannsynligheten for at en ny bestemmelse av middelverdi hentet fra en serie nye observasjoner vil falle innenfor en gitt avviksgrense i forhold til bestemt middelverdi. Den matematiske ligningen som beregner disse verdiene er basert på en antakelse om at det er gjort et stort antall observasjoner for så å bli tilpasset til applikasjoner med mindre antall observasjoner (som i normale måleoppstillinger). Det eksisterer forskjellige navn for det som her beskrives som standardavvik dersom beregningen er basert på et begrenset antall observasjoner, eksempelvis estimert standardavvik. En annen størrelse som brukes i forbindelse med kalkulasjoner av standardavvik er frihetsgrader eller «degrees of freedom» (df). For kalkulasjoner av middelverdi er df simpelthen antall observasjoner (N) minus 1 (df = N -1).
Se også: Gode radarerfaringer – kan konkurrere mot veiecelle
Eksempel på kalkulasjon
Kvadratet av standardavvik (σ2) er definert som summen av kvadratavvik fra middelverdi dividert med antall frihetsgrader. Kvadratet av standardavvik knyttet til måleseriens middelverdi (σm2) er definert som kvadratet av standardavvik dividert med antall observasjoner. Dette er mer forståelig gjennom et kalkulasjonseksempel:
Kalkulering av standardavvik (σ) og standardavvik knyttet til middelverdi (σ):
Observasjoner |
Avvik av obs fra middelverdi |
(Avvik av obs fra middel)2 |
106 |
106 – 109,1 = -3,1 |
9,61 |
111 |
111 – 109,1 = 1,9 |
3,61 |
108 |
108 – 109,1 = -1,1 |
1,21 |
105 |
105 – 109,1 = -4,1 |
16,81 |
109 |
109 – 109,1 = -0,1 |
0,01 |
115 |
115 – 109,1 = 5,9 |
34,81 |
110 |
110 – 109,1 = 0,9 |
0,81 |
112 |
112 – 109,1 = 2,9 |
8,41 |
114 |
114 – 109,1 = 4,9 |
24,01 |
101 |
101 – 109,1 = -8,1 |
65,61 |
Sum 1091 |
0,0 |
Sum av kvadrat 164,90 |
Antall observasjoner (N) = 10, frihetsgrader (df) = N–1 = 9
Middelverdi = Sum / N = 1091/10 = 109,1
Variansen = σ2 = (sum av kvadrat) / df = 164,90/9 = 18,3
Standardavvik = σ = 4,3
Variansen middelverdi = σm2 = σ2/N = 18,3/10 = 1,83
Standardavvik middelverdi = σm = 1,4
For få observasjoner
Statistisk teori beregner ut fra et stort antall observasjoner (legg merke til at våre antall observasjoner ikke faller inn under kategorien et stort antall observasjoner) at 68,3 % av observasjonene faller innenfor et standardavvik i forhold til middelverdi. I vårt tilfelle er 68,3 % intervallet 109,1 +/- 4,3. Dersom det er ønskelig med 90 % sannsynlighetsintervall må standardavviket multipliseres med faktor lik 1,65, hvilket igjen, i vårt tilfelle, betyr 109,1 +/- (1,65) (4,3) = 102 til 116. Faktor for 95 % sannsynlighet intervall eller konfidensnivå er 1,96.
Lignende estimater kan gjøres med hensyn på at middelverdien i en ny måleserie skal falle innenfor et sannsynlighetsintervall av standardavvikberegningen for beregnet middelverdi (i vårt tilfelle beregnet til 1,4). Det er med andre ord 90 % sannsynlighet for at middelverdien i en ny måleserie på 10 observasjoner vil falle innenfor +/- (1,65)(1,4) = +/- 2,3
Les om: Erfaring med IT-angrep må deles med andre
Mål for usikkerhet
Disse kalkulasjonene som nå er gjort og som gir oss et mål for usikkerhet i forhold til en gitt sannsynlighet går ut fra at et stort antall observasjoner legges til grunn for kalkulering av middelverdi og standardavvik. Når det benyttes måleserier med færre observasjoner vil tryggheten eller konfidens for beregningene bli lavere. Som en korreksjonsfaktor for dette er det innført en tilleggsfaktor som er basert på antall frihetsgrader og benevnes Student t-faktor (W.S. Gosset utviklet denne faktoren under pseudonym «student»)
t-faktor for forskjellige konfidensnivåer er eksempelvis:
df |
t50% |
t68% |
t95% |
1 |
1,00 |
1,82 |
12,71 |
2 |
0,82 |
1,31 |
4,30 |
9 |
0,70 |
1,05 |
2,26 |
30 |
0,68 |
1,01 |
2,04 |
100 000 |
0,67 |
0,99 |
1,96 |
For oss vil nå usikkerheten angitt ved 95 % konfidensnivå bli justert til 4,3 * 2,26 = 9,718
Når det gjelder usikkerheten til middelverdien ved 95 % konfidensnivå justeres den nå til 1,4 * 2,26 = 3,1
Relativ usikkerhet for middelverdien ved 95 % konfidensnivå vil i vårt eksempel kunne rapporteres som 100 * 3,1 / 109,1 = 2,8 %
Se for øvrig nettsiden www.mathsisfun.com og enda mer spesifikt http://www.mathsisfun.com/data/standard-deviation.html for en enkel introduksjon til dette med beregnigner av standardavvik.