Analystikäs kiekkoblogi

Jääkiekkoanalyysiä uudella tavalla

Month: April 2016

Pikakurssi todennäköisyyslaskentaan: Play-off Edition

Nyt kun NHL:n play-off sarjoja pyöräytetään käyntiin ja Suomessa aloitetaan finaaleja, ajatukset tuntuvat kaikilla liikkuvan seitsemän pelin sarjoissa. Twitterissä vastaan tuli mielenkiintoinen kysymys huonomman joukkueen todennäköisyyksistä voittaa 7-pelin sarja. Ja koska ne sattuvat olemaan itsellä työn alla osana suurempaa juttua (odotelkaa hetki, tulee kyllä tännekin), ajattelin hyödyntää tilaisuuden.

Oletetaan, että meillä on kaksi täysin sattumanvaraisesti nimettyä joukkuetta: IFK ja Tappara. Oletetaan, että tiedämme myös joukkueiden tason, mitä voimme ilmaista keskinäisillä voittoprosenteilla. IFKn voittoprosentti kotona on 55% ja vieraissa 50%. Tappara, hieman heikompana, voittaa kotonaan 50% ja vieraissa 45% peleistä.

Koti- ja vieraspelien eri prosentit vaikeuttavat laskua hieman, joten oletetaan, että kaikissa otteluissa todennäköisyydet ovat IFK p = 55% ja Tappara q = 45%.

Millä todennäköisyydellä Tappara voittaa sarjan?

Tappara voi voittaa monella eri tavoilla: suoraan neljässä pelissä, 4-1 pelein, 4-2 voitoin tai vasta viimeisessä ottelussa voitoin 4-3.

Kun todennäköisyys, että Tappara voittaa 1 pelin on q, toisen pelin voittaminen perään saa todennäköisyyden q*q (=q^2). Kolmen pelin voittaminen saa todennäköisyyden q*q*q, ja neljän voittaminen putkeen q*q*q*q = q^4. Tai 4,10%.

Mutta kuten sanottua, tuo on vain yksi tapa, jolla Tappara voi voittaa sarjan. Tappara voi kerätä neljä voittoa 5 pelissä 4 eri tavalla (esim V-H-V-V-V tai V-V-H-V-V), ja kuudessa pelissä 10 eri yhdistelmällä. Seitsemäs peli tuo vaihtoehtoja lisää 20 kappaletta. Näiden kaikkien lopputulemien todennäköisyydet tulee lisätä tuohon neljän suoran voiton todennäköisyyteen.

5 pelissä voiton saavuttamisen todennäköisyys on 4q^4p, 6 pelissä 10q^4p^2, ja 7 pelissä 20q^4p^3.

Näin Tapparan mestaruuden todennäköisyys Q = q^4(1+4p+10p^2+20p^3), noin 39,17%.

Kotiedun huomioiminen vaikuttaa asiaan, sillä V-H-V-V-V sarjan todennäköisyys ei enää ole sama kuin V-V-H-V-V sarjan, olettaen että toinen ja kolmas peli pelataan eri joukkueen kotikentällä. Mutta sama logiikka pätee edelleen, yhtälöt vain näyttävät hieman rumemmilta, kun q:n sijaan meillä on q(k) ja q(v), eli todennäköisyydet koti- ja vieraspeleihin erikseen.

Jos Tapparalla on kotietu, 4 pelissä Tappara-voiton todennäköisyys on 5,06%. 5 pelissä 11,25% ja 6 pelissä 13,48%. 7 pelin jälkeen Tappara on mestari todennäköisyydellä 15,38%. Yhteensä Tapparamestaruuden todennäköisyys on siis noin 45,16%.

Jos IFK saa kotiedun sarjaan, on Tapparan mestaruuden todennäköisyys enää noin 43,93%.

Korrelaatio vs kausaalisuus

Tämän kevään play-off peleissä IFK:lla on ollut selkeä trendi, joka voidaan tiivistää yhteen muuttujaan.

Jos kyseinen muuttuja on saanut arvon “ei”, on IFK:n saldo 6 voittoa (5-1, 3-0, 2-1, 4-2 ja 7-1).

Jos taas tämä muuttuja on arvolla “kyllä”,  on joukkueen tulos ollut 1 voitto (2-1) sekä 3 tappiota (2-4, 2-3 ha 2-5).

Kyseinen muuttuja?
Katsonko peliä vai en.

Mutta. Korrelaatio ei aina tarkoita kausaalisuutta. Eihän? Eihän??

(Huominen peli saattaa jäädä varmuuden vuoksi katsomatta.)

Mikä maalinteossa sitten on ongelmana?

Jäin vielä pohtimaan maalinteon väitettyä vaikeutta, ja tähän johtavia syitä.

Jos laukaisumäärät kohti maalia eivät ole muuttuneet, eivätkä maalimäärät, miksi kaikki puhuvat maalinteon vaikeutuneen viime vuosina? Voi tietysti olla kyse joukkohysteriasta, joukolla tehdystä observointiharhasta, tai vain sopulielämästä, jossa halutaan olla samaa mieltä enemmistön kanssa jottei vain joutuisi perustelemaan omaa mielipidettään. Tai sitten kyseessä voi olla aito ja todellisuuteen pohjautuva kokemus.

Kaudesta 2007-08 NHL:n peleistä on saatavilla niin sanottuja Advanced Statistics -tietoja. Hieno nimi, edistyneet tilastot, on vain vähän parempi tapa sanoa “laskettiin jotain uutta vaihteeksi”. Ehkä eniten näistä tilastoista nostetta on saanut alleen Corsi. Toki Corsin yhteydessä tulee aina muistaa mainita Fenwick.

Vaikka toistaiseksi kyseenalaistankin (lähinnä todisteiden puuttuessa) ainakin osaksi kyseisten tilastojen osakseen saaman hypetyksen, ovat ne tähän tarkoitukseen erittäin soveliaat. Koska ne ovat melkein sama asia. Melkein.

Jos mietitään laukaisutapahtumia jääkiekko-ottelussa, pienin osa-alue jota voidaan mitata on maalit. Kun maaleihin lisätään torjutut laukaukset, saadaat laukaukset kohti maalia. Kun tähän lisätään ohi menneet laukaukset, saadaan Fenwick. Ja kun laskemme Fenwick + blokatut laukaukset, tuloksena on Corsi.

Eli Corsi = maalit + torjunnat + ohi menneet laukaukset + blokatut laukaukset.

Ja jos käännämme tämän toisinpäin, voimme erotella Corsin eri palaset toisistaan. (Torjunnat, joista puhuin jo aikaisemmin, on skaalautuvuuden takia poistettu alta.)

Kuten jo aikaisemmin mainitsin, maalimäärissä, tai laukauksissa kohti maalia, ei suuria eroja ole tapahtunut. Ainut muuttuja, joka on merkittävästi muuttunut tarkastellulla ajanjaksolla, on blokatut laukaukset (ja sitämyöten Corsi).

Maalinteko tuntuu hankalalta, koska yhä useampi laukaus ei ikinä päädy maalille asti. Kiekko jää jo matkalla kenttäpelaajiin.

Ratkaisu: pienennetään maalivahtien varusteita. Eiku.

Toki maalivahtien varusteissa voi hyvinkin olla varaa pienentää, ja toki sitä kautta varmasti maalimäärät saadaan nousuun. Mutta varusteet eivät ole syypää maalinteon vaikeuteen. Uhrautuvaiset puolustavat pelaajat ovat. Samalla ei voi välttyä pohtimasta, onko blokattujen laukausten mittaaminen samalla luonut kannustimia blokata laukauksia yhä enemmän? Onko mittaaminen luonut blokkauksille arvon? Olisi upeaa nähdä jälkikäteen kerättyä dataa, kuinka paljon blokattuja laukauksia tuli ennenkuin niitä mitattiin.

Lisäksi palaan edelleen alkuperäiseen kysymykseeni: Millä perusteilla runsasmaalinen peli on parempi kuin vähämaalinen? Miksi tavoitteena ylipäänsä pitäisi olla enemmän maaleja?