I en tidigare artikel förklarade vi varför du inte enbart bör förlita dig på genomsnittsvärdet eftersom det kan påverkas av utomstående faktorer och inte kan återspegla spridningen inom en viss uppsättning tal.
Spridning kan mätas på många sätt varav ett är standardavvikelse som återger hur mycket en grupps värde avviker från medianvärdet. Olika metrik används antingen direkt som utgör parametrar för en funktion eller fördelning.
Poisson jämförd med Normalfördelning
Poissonfördelning är en vanlig metod oddsspelare använder för att förutse antalet gjorda mål per lag i fotbollsmatcher. Men den fördelningen har bara en enda inmatningsparameter – genomsnittet – och är en avskild fördelning som producerar utdata i heltal.
Poissonfördelningsmodellen kan uppskatta sannolikheten för att ett mål görs, men inte sannolikheten för att ett mål kommer göras mellan matchminut 25 och 30 (även om den kan utökas för att inbegripa även dessa sannolikheter).
Normalfördelning – eller Gaussisk fördelning – är också populär. Den skiljer sig från Poissonfördelning av flera skäl, bland annat eftersom det är en kontinuerlig fördelning baserad på två parametrar: genomsnittlig och standardavvikelse.
Att förutse målspridning i Premier League
Som ett testexempel kan vi titta på målskillnad i fotboll. Målskillnaden per match verkar vara normalt fördelad. Målskillnaden är antalet gjorda mål av hemmalaget minus antalet gjorda mål av bortalaget. Vid noll blir det oavgjort.
Vi tar en titt på data från Premier League-säsongen 2013-2014:
- Man City stod för största hemmavinsten med 7–0 mot Norwich.
- Liverpools seger med 5–0 i Tottenham var den största bortasegern.
- Den genomsnittliga målskillnaden var 0,3789 (median- och typvärde = 0)
- Standardavvikelsen var 1,9188.
Ett antal slutsatser kan dras av datan. Den vanligaste målskillnaden är oavgjort och distributionen är nästan symmetrisk med övervikt åt hemmasegrar. Men i den här artikeln fokuserar vi på standardavvikelsen.
Så beräknar du standardavvikelse
Normalfördelning använder sig av de två parametrarnas genomsnitt och standardavvikelse för att skapa en standardiserad kurva. Där ligger runt 68 % av fördelningen inom en standardavvikelse från medianvärdet, och 95 % ligger inom två standardavvikelser.
I det här fallet väntar vi oss att 68 % av matcherna ska generera mellan -1,5399 och 2,2977 mål (0,3789 + 1,9188). Att kurvan är kontinuerlig har sina begränsningar: målskillnaden på -1,5399 är omöjlig.
För att beräkna sannolikheten för hemmaseger med målskillnad på 1 kan man flytta 1 från ett avskilt 1-värde (heltal). Därmed representeras det kontinuerliga spannet mellan 0,5 och 1,5. Därefter kan vi beräkna varje värdes avvikelse från medianvärdet i standardavvikelser.
Det fantastiska med detta är att vi kan omforma normaldistributionen enligt exemplet. I det här exemplet behöver vi titta i det brandgula området.
Det blå området som visar sannolikheten för att det ska bli mindre än 1 mål (eller att dess kontinuerliga motsvarighet blir mindre än 0,5 mål) är alltså 52,15 %.
Vi ska inte gräva allt för djupt i denna uträkning, men du kan hitta den i vanlig mjukvara för kalkylark (i MS Excel anger du: =NORM.DIST(0.5,0.3789, 1.9188,1). Sannolikheten för att det blir mindre än 1,5 mål blir således 72,05 %. Därmed väntar vi oss 19,53 % mellan dessa två värden.
Vid 380 matcher väntar vi oss alltså att hemmalaget vinner med ett mål i 74,22 matcher. I verkligheten blev det 75 matcher, så uppskattningen var mycket nära.
Genom att upprepa detta för alla målskillnader kan vi jämföra det förväntade och faktiska antalet matcher som slutade med olika målskillnader.
Tabellen nedan visar att diskrepansen är minimal och att normaldistributionen verkar passa bra (det finns två sätt att testa normalitet och denna fördelning passar bra för Premier League-datan).
Låt oss nu anta att fördelningen är korrekt för nuvarande Premier League-säsong. Så om du gillar att spela på spreads kanske du vill ta reda på vad sannolikheten för att ett hemmalag vinner med minst ett mål i Premier League är? Det motsvarar 1 - 52,52 % vilket blir 47,48 %.
Detta är så klart en uppskattning och gäller Premier League i allmänhet snarare än specifika lag – du gör bäst i att sammanställa de individuella lagens data snarare än hela Premier Leagues.
Sammanfattningsvis är standardavvikelse inte bara ett mått på spridning där ett högre värde uppvisar större skingring inom gruppen, det är också en viktig parameter vid beräkningar av sannolikheter – något som minst sagt är viktigt för oddsspelare. I en artikel längre fram kommer vi att fokusera på hur olika standardavvikelser kan påverka sannolikheter och spridningar.