På fire timer slo Googles kunstige intelligens en av verdens beste sjakkmotorer

Her står AlphaZero (hvit) til vinst i parti 6.
Her står AlphaZero (hvit) til vinst i parti 6. Skjermdump fra chess.com
7. des. 2017 - 19:23

I 1997 slo den IBM-utviklede superdatamaskinen Deep Blue verdensmester Garri Kasparov i sjakk. Det ble et bevis på at datakraft kunne overgå selv den beste menneskelige sjakkspiller. Siden er det utviklet flere motorer beregnet på sjakkspill og -analyse.

En av disse er Stockfish. Det delvis norskutviklede programmet har i mange år vært rangert som en av de aller beste sjakkmotorene, og vant senest i fjor det uoffisielle verdensmesterskapet for sjakkmotorer (TCEC).

Nå har Stockfish målt krefter mot den selvlærende, Google-utviklede algoritmen AlphaZero. Resultatet? Av totalt 100 partier, vant AlphaZero 28. 72 av partiene endte i remis. Googles algoritme kom seg altså ubeseiret gjennom alle partiene.

Resultatet er i seg selv interessant, men det blir desto mer oppsiktsvekkende når man ser nærmere på teknologiene de to datamaskinene bygger på.

Lærte seg selv opp med tilfeldige trekk

Mens Stockfish styres av tusenvis av regler utviklet av mennesker, har AlphaZero lært seg opp helt selv ved hjelp av maskinlæring.

Google-algoritmen ble kun matet med sjakkspillets regler. Deretter ble AlphaZero satt til å spille mot seg selv. Dette gjorde den ved hjelp av Monte Carlo-metoden, som utforsket potensielle trekk tilfeldig.

Hvert trekk lærte nodene i det nevrale nettverket mer om hva som er den beste måten å spille på. Nodene justerte seg etter dette.   

Etter fire timer, eller 300.000 trekk, presterte AlphaZero bedre enn Stockfish. De 100 omtalte partiene startet etter at AlphaZero hadde gjennomført 700.000 øvelsestrekk. Denne engelskspråklige, lesverdige rapporten beskriver eksperimentet i ytterligere detalj.  

Stockfish: Regler skrevet av mennesker

Stockfish fungerer på en litt annen måte.       

Den evaluerer hvor gode de ulike posisjonene er basert på en rekke regler utviklet av mennesker. Et eksempel er at løperen liker å ha kontroll på store diagonaler. Disse reglene er finjustert opp gjennom årene etter hvert som utviklerne har sett hva som fungerer og ikke.  

Vis mer

– Stockfish setter kongens sikkerhet opp mot en bonde som er kommet langt fram på brettet, opp mot en bonde som er beskyttet av en annen brikke, og så videre, forteller Jon Ludvig Hammer, stormester og Norges nest best rangerte sjakkspiller.

– Det er tusenvis av slike regler. Stockfish gir alt en nummerverdi som den så bruker til å avgjøre hva som er best, sier Hammer.

Som sekundant for Magnus Carlsen ved flere anledninger har Hammer lang erfaring med Stockfish.  

Han synes det er spennende at det som er ansett som en av verdens beste sjakkmotorer nå er slått av en motor som har lært seg opp helt selv.

– Det vi trodde var fasiten, kan forbedres

– Måten AlphaZero knuste Stockfish på tyder på at vi har sett sjakk bli spilt på et nivå vi ikke har sett tidligere, sier Hammer.

– Ved flere anledninger anså Stockfish situasjonen som fordelaktig, men endte opp med å tape partiet. Det er veldig interessant når vi ser en sånn feilvurdering av det vi tidligere trodde var fasiten. Den kan altså forbedres, sier Hammer.

Han trekker spesielt frem to elementer. Det ene er supercomputerens angrepsspill. og den strategiske teften til AlphaZero.

Jon Ludvig Hammer. <i>Bilde:  AGON/ VALERIY BELOBEEV</i>
Jon Ludvig Hammer. Bilde:  AGON/ VALERIY BELOBEEV

– Noe av angrepssjakken var helt spinnvill. AlphaZero ga bort en hest og latet som ingenting. Han spilte rolig videre i tre-fire trekk uten at det var noen klar angrepsplan: Han konsentrerte seg heller om å få resten av armeen i spill enn å angripe motstanders konge med én gang. Det så fryktelig imponerende ut, særlig siden Stockfish vurderte situasjonen som fordelaktig for seg selv, sier Hammer.  

AlphaGo beviser: Kunstig intelligens blir bedre uten ekspertise fra mennesker

Læringskurven for AlphaZero var bratt. Her vises læringskurven for henholdsvis sjakk, Shogi og Go. <i>Bilde:  Skjermdump fra rapporten Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm</i>
Læringskurven for AlphaZero var bratt. Her vises læringskurven for henholdsvis sjakk, Shogi og Go. Bilde:  Skjermdump fra rapporten Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

– En ny industristandard

Videre er også den strategiske teften til AlphaZero imponerende, mener Hammer.

– Blant sekundanter er det en dårlig skjult hemmelighet at sjakkcomputere ofte undervurderer terrengfordelen, for eksempel med en aggressiv bondestruktur i sentrum av brettet. Alpha fikk en sånn stilling og vant med stor stil. Stockfish hadde aggressive planer og mente den sto best. Likevel viste det seg at den viktigste langsiktige fordelen var å ha bønder høyt på brettet, sier Hammer.

Her kan du se chess.coms gjengivelse av et av partiene Hammer trekker frem som spesielt imponerende med tanke på terrengfordel (saken fortsetter nedenfor):

Han betegner AlphaZero som en ny industristandard som spillere på toppnivå ønsker å bruke til å analysere åpninger.

– Sjakkspillere på toppnivå bruker hele tiden datamaskiner til å analysere åpninger. Det kan hende visse åpninger nå blir uspillbare på grunn av nye trekk som oppdages. Da kan det komme en smell her og der, sier Hammer.

– For sjakkspillere er det veldig spennende om dette kan skaleres ned. Maskinvaren som AlphaZero brukte er litt «overkill», så man er avhengig av å gjøre det tilgjengelig på kommersielle datamaskiner, sier Hammer.

Del
Kommentarer:
Du kan kommentere under fullt navn eller med kallenavn. Bruk BankID for automatisk oppretting av brukerkonto.