Et datavarehus har liten verdi i seg selv.
Dataene som ligger her er basert på de samme dataene virksomhetene har i sine andre databaser.
Verdien i denne måten å organisere dataene på, ligger i at datavarehuset kan tilby hurtig sammenstilling av ulike data for å få frem verdifull informasjon som det så kan reageres på. Det blir som å ha svært fleksible måleinstrumenter som er direkte koblet til virksomhetens løpende virksomhet.
Et ferskt eksempel er Posten som bruker et datavarehus fra SAS Institute. De bruker informasjonen de henter ut fra datavarehuset via analyseprogrammer i den daglige driften.
Hvis de var nødt til å hente ut dataene via de vanlige datakildene, ville det ta altfor lang tid å få frem analyser, rapporter og prognoser. Posten bruker bl.a. systemet til å hente ut volumprognoser for den kommende uken som de benytter til å regulere skiftplanene med.
Mange blir en
De primære datakildene i en bedrift er gjerne fordelt på mange ulike kilder og databaser. Det kan være ERP-systemet, økonomisystemet, forsyningskjedesystemet, personal- og lønnssystemet, eller på et sykehus; røntgensystemet og journalsystemet. Hvert av disse datasystemene har gjerne egne fagfolk som står for driften og som utarbeider og leverer rapporter.
Problemet oppstår når det trengs informasjon som skal sammenstilles på tvers av de forskjellige systemene. Dersom en virksomhet for eksempel allerede har10 databaser, vil ikke enda en database løse problemet med å koble dataene sammen.
Det som trengs er et verktøy egnet for integrasjon for siden å hente ut dataene og sammenstille dem og det er nettopp det datavarehuset er til for. Det var slike problemstillinger som førte til at tankene om det som er blitt hetende datavarehus oppsto for nesten 20 år siden.
Eget hus
Det var to viktige grunner til å etablere datavarehus. For det første tok det for lang tid å få tak i relevant informasjon og generere rapporter fra de primære datakildene som lå lagret i ulike databaser. En annen grunn var å la disse kildene gå så uforstyrret som mulig.
Ofte opplevde man at hele virksomhetens operasjonelle system låste seg når det skulle hente frem informasjon. Løsningen ble å hente dataene over i et datavarehus hvor de ble sammenstilt og hvor de kunne benyttes til analyse og planlegging uten å forstyrre den vanlige driften.
ETL
ETL står for Ekstrahering, Transformering og Lasting og er et sentralt begrep i et datavarehus. Det beskriver de prosessene som trengs for å hente ut dataene fra primærkildene, eller fagsystemene, og få dem trygt plassert i varehuset i et kvalitetssikret format som kan brukes til analyse og planlegging
Dataene må hentes kontinuerlig eller ofte fra primærkildene og legges inn i datavarehuset for at det skal være mest mulig oppdatert i forhold til bedriftens situasjon. Før de ekstraherte dataene kan gå videre, må de transformeres eller omformes slik at de kommer på et format som er enhetlig og forståelig for den statistiske programvaren som til slutt skal bruke dem.
Ulike systemer lagrer dataene som ”epler”, ”pærer” og ”appelsiner” og de må bygges om til samme "frukttype” før de kan brukes. Et annet viktig poeng med transformeringen er å sørge for at de samme dataene som finnes i ulike systemer ikke lagres mange ganger. F.eks. kan personnavn finnes i alle systemene det lagres data som henviser til personer slik om lønn og ordre.
Til slutt lastes dataene inn i selve datavarehusets lagringsstruktur, som i praksis er en type database og som er bygget slik at det er lett å gjøre analyser.