En uventet storm av trafikk ved omstart av en server for mobilt bredbånd førte til en propp i systemet som hindret tale og sms.
Det var hovedårsaken til at tre millioner mobilkunder ble rammet av fell fredag før pinsehelgen.
Telenor leverte sin rapport om saken til Post- og teletilsynet torsdag morgen.
Her var hovedtrekkene det du kunne lese i TU lørdag etter at feilen oppsto: Trafikkork etter omstart
Signalisering
Direktør Ingrid Riddervold Lorange for drift og utbygging i Telenor Norge presenterte selve årsaksforholdet.
– Hovedutfordringen i kjernenettet handlet om signaliseringstrafikk. Dette er de signalene som sendes fra mobilen din og gjennom vårt system. Det identifiserer hvem du er og hvor du er, hvem du ringer til og hvor vedkommende er. Slik rutes trafikken rett sted. Det går enorme mengder slik såkalt signaliseringstrafikk, innledet Lorange.
Dette handler om det underliggende systemet, kalt kjernenettet.
– Nettopp fordi kjernenettet styrer trafikken, er alle servere her etablert med minimum to av hver. Vi har forsøkt å dimensjonere det slik at den eller de andre serverne har mer enn nok kapasitet til å ta unna trafikken ved utfall på en server.
Feilen
I kjernenettet er det en komponent med benevnelsen SGSN som styrer datatrafikken.
– På fredag ble det oppdaget feil på en slik, noe som ga problemer med mobil datatrafikk. Det rammet flere kunder, og det var viktig å få rettet det med en gang med en omstart. Dette er gjort før uten at det har hatt store konsekvenser for mobilnettet. Vi valgte derfor å ta den ned, slik at parallellsystemet skulle ta over i noen minutter, sier driftsdirektøren.
Storm
Da denne serveren for mobil data ble tatt ned, tok ”reserve-systemene” over. Da rutes trafikken dit i stedet for til serveren som skulle ha omstart.
Da oppstod en ”signaliseringsstorm”:
– For at overføring av trafikken fra den ene boksen til den andre kunne skje ved omstarten, måtte trafikken gjennom et kunderegister, formelt kalt et lokasjonsregister. Det oppstod enorm trafikk med oppslag mot dette registeret, noe vi kaller en signaliseringsstorm. Dette er samme type signalisering som i talenettet, med ruting av signal fra avsender til mottaker. Taletrafikk og sms bruker det samme lokasjonsregisteret som den mobile datatrafikken. Da det kom en ”storm” ved omruting fra mobildata-boksen som ble tatt ned, gikk det utover rutingen av tale og sms, sier Lorange til Teknisk Ukeblad.
Stanset helt opp
Etter ti minutter ble den aktuelle mobile bredbåndsserveren startet opp igjen.
– Da fikk vi den samme signaliseringsstormen en gang til, og dette førte til at talenettet gikk i ”sperr”. De fleste opplevde dette som en total stans, sier Lorange.
Loggene viser derimot at opp mot 50 prosent av trafikken kan ha gått gjennom. Men en solid propp i systemet med signaliseringsstormen førte til at brukerne opplevde det som full stans.
Fant ikke feilen
Årsaken til at det tok 11 timer å fikse feilen er at man ikke klarte å lokalisere problemet.
Telenor har ikke hatt en feil med så stort omfang før. 100 mennesker fra Telenor og leverandører var i sving denne helgen på jakt etter proppen.
– Dette handlet ikke om enkelte servere som meldte om tapt forbindelse eller strømbrudd. Etter 15 minutter hadde vi involvert alle våre leverandører, som stilte med sine beste folk. Men vi klarte bare ikke å lokalisere problemet til én boks, sier Lorange.
Derfor ble det kjørt omstart på den ene boksen etter den andre, og da fikk man lokalisert ”proppen”.
– Da vi restartet flere komponenter på tale i kjernenettet, så vi at vi klarte å løse opp i dette. Effekten viste seg ca. kl. 22.15 fredag kveld, sier driftsdirektøren.
Gransker systemet
Nå skal Telenor gå gjennom hele designet på systemene sine for å sikre at slike trafikkorker ikke skjer på ny.
Kostet 100 mill
Kostnadene for sammenbruddet er ikke klarlagt.
– Men å kompensere kundene ved ikke å fakturere dem for pinsehelgen beløper seg til rundt 100 millioner ikroner, sier konsernsjef Jon Fr. Baksaas.
Les også: Telenor kompenserer kundene etter trøbbelhelg
– Burde reist hjem
Baksaas åpnet torsdagens pressekonferanse med å innrømme at han burde ha reist fra ferieturen i Danmark tilbake til Norge for å håndtere situasjonen i forhold til stor pågang fra media.
Han understreket at han ble holdt løpende orientert og at Telenor er organisert for å håndtere kriser uten ham fysisk til stede.
Utfordrende
Men krisehåndteringen led under at den er for avhengig av at Telenors mobilnett fungerer, innrømmer adm. dir Ragnar Kårhus.
– Selv om operasjonell kriseledelse ble etablert raskt, innrømmer vi at det var utfordrende når vi hadde kommunikasjonsproblemer. Vi er avhengige av sikre mobilløsninger, og heller ikke våre backup-løsninger fungerte, sier Kårhus.
Les også: