Hvad ligger bag fodboldens dataanalytiske begreber?

AF MORTEN B. RANDERS
Lektor, Institut for Idræt og Biomekanik ved Syddansk Universitet og gæsteprofessor ved Universitet i Tromsø, Norges Arktiske Universitet

Datoen 8. juli 2014 er gået over i fodboldhistorien som en historisk dag. Det var her, at det tyske landshold besejrede Brasilien med hele 7-1 i VM-semifinalen for øjnene af 58.000 tilskuere på Estádio Mineirâo i Belo Horizonte. Tysklands storsejr på 7-1 over Brasilien fik selvfølgelig alle involveret i fodbold til at spærre øjnene op. Hvad skete der lige, og hvordan kunne dette lade sig gøre? Den klassiske kampstatistik viste, at Brasilien havde et let overtag med 52% boldbesiddelse og 18 skud med 13 på mål overfor Tysklands 14 skud med 12 på mål. Brasilien fik også bragt flere bolde ved dribling eller succesfulde pasninger ind i sidste tredjedel af banen med 56 overfor Tysklands 39 mens dominansen i straffesparksfeltet var endnu større med 25 overfor Tysklands 13. Var det så bare et tilfælde, at Tyskland vandt og resultatmæssigt så ud til at dominere voldsomt?

Den teknologiske udvikling er accelereret voldsomt gennem de seneste 10-20 år og har givet nye spændende muligheder for indsigt i fodboldspillet. Det er blevet muligt at monitorere spillernes bevægelser i kamp og træning gennem såkaldte trackingsystemer. I alle kampe i 3F Superligaen benyttes et videobaseret system kaldet TRACAP til at tracke spillernes bevægelser. Flere klubber benytter i kamp eller træning også systemer, hvor spillerne bærer en enhed i en vest eller et bælte som i eksempelvis GPS eller LPM-systemer (local positioning measurement). Disse forskellige systemer registrerer alle spillernes positioner med en frekvens på 10-25 Hz. Der genereres således et datapunkt indeholdende tid og position for hver spiller 10 til 25 gange i sekundet. Med 22 spillere og en bold bliver det til 1,2-3,1 millioner datapunkter per kamp. På baggrund af hvor spillere er til en given tid, kan position og bevægelse give indsigt i taktiske elementer af fodboldspillet.
Udover positionelle data, hvor tid og sted registreres, tilbyder nogle dataudbydere anført af Opta også at notere såkaldte events. Events omfatter pasninger, skud, tacklinger, indlæg, spilstop og meget mere. Sammen med eventen registreres position og tidspunkt for start og slut af eventen, hvilket kan anvendes til at skabe en spændende indsigt i spillet.

I en årrække har det primært været disse eventdata, som har dannet baggrund for de lidt mere avancerede statistikker, men med store mængder af trackingdata kan endnu mere sofistikerede modeller udvikles til at give indsigt og øget forståelse af fodboldspillet og spilleres relationelle bevægemønster. Med så store datamængder, der generes i hver kamp, er det ikke underligt, at ord som big data, data mining, AI og machine learning oftere og oftere høres i forbindelse med fodbold og dataanalyse. I denne artikelserie vil vi dykke ned i nogle af disse analysemodeller og statistiske metoder.

Et komplekst spil

Selvom fodbold i alt sin enkelthed går ud på at score flere mål end modstanderen, og det derfor umiddelbart er nemt at se forskellen på succes og fiasko, er præstation i fodbold langt mere kompleks at definere og analysere. Det viser eksemplet med Brasilien og Tyskland også.
Udover kampens resultat går trænerne fra kampen med en masse observationer og oplevelser af præstationen. For få år siden var den eneste mulighed for at lave en analyse af egen eller kommende modstanders præstation gennem flere timers videoanalyse udført træneren eller en assistent. En sådan kvalitativ analyse er selvfølgelig meget afhængig af trænerens analytiske evner, fokus og subjektive vurdering. Men denne analyseform er, selvom den af mange regnes for ”golden standard”, ikke objektiv og meget sjælden systematisk og derfor med lille reproducerbarhed. Med adgang til event- og trackingdata kan man dog anvende og udvikle mere avancerede analysemodeller, der giver høj objektivitet og metodisk reproducerbarhed. Og kun ved systematisk indsamling af data og brug af computerkraft kan de store datamængder gennemanalyseres for sammenhænge og mønstre, der er langt mere sofistikerede end de traditionelle variable, som boldbesiddelse, pasningsoversigter, heat maps og tilbagelagte distancer med forskellig intensitet. Videnskabelige studier har også vist, at sådanne simple variable isoleret set siger meget lidt om sandsynligheden for at vinde. Og netop sandsynligheden for at vinde er helt central. Fodbold indeholder altid en portion tilfældighed og er alt for komplekst til, at udfaldet af en kamp kan forudsiges af kampanalyser. Men med en systematisk tilgang til dataanalyse kan graden af tilfældighed nedbringes.

Det relevante i expected goals

Fodbold handler om at score flere mål end modstanderen. For at øge sandsynligheden for dette, må et hold søge at skabe så mange scoringsmuligheder som muligt samtidig med at modstanderens scoringsmuligheder begrænses. De klassiske kampstatistikker giver antal afslutninger i alt samt afslutninger på mål. Dette er klart en stærk forsimpling uden hensyntagen til afstanden til og vinklen på målet, modstandere imellem positionen for afslutningen og målet samt andre parametre, der åbenlyst har indflydelse på sandsynligheden for at en afslutning fører til scoring.

Expected goal (xG) er en populær kvantificering af sandsynligheden for at en afslutning resulterer i et mål. Hver afslutning tillægges en værdi, ud fra sandsynligheden for at et skud går i mål. Denne sandsynlighed beregnes på baggrund af store databaser med eventdata. Hvilke parametre der medtages, er forskellig fra analytiker til analytiker, men det vil typisk være lokationen for afslutningen, afslutningens hastighed, hvor i målet afslutningen ender, afstand og vinkel til målet, afslutningstype. Men netop på grund af de mange forskellige faktorer, som har indflydelse på en afslutnings sandsynlighed for at føre til scoring, har xG været kritiseret. Blandt andet for ikke at medtage afslutterens kvalitet og mulighed for at udføre en afslutning med høj kvalitet herunder pres fra modstanderne i afslutningsøjeblikket. På trods af denne kritik anses expected goals dog stadig som et relevant estimat af, hvor mange mål et hold eller modstanderen burde have scoret på baggrund af de afslutninger og scoringsmuligheder, som holdene har spillet sig frem til.

Selvom Brasilien i VM-semifinalen 2014 havde flere afslutninger i alt og på mål end Tyskland, havde Tyskland de 4 tætteste afslutninger på mål. Og alle fire førte til scoringer. Lægges en model for expected goals ned over afslutninger i kampen, ville Tyskland forvente 3,1 mål mod Brasiliens 1,7 mål. Selvom expected goals ligger et stykke fra kampens udfald, bringer expected goals alligevel et andet og måske mere retfærdigt billede af kampen end de klassiske statistikker. Men hvor expected goals bygger på gennemsnitlige værdier for den gennemsnitlige spiller, må spillere som Miroslav Klose, Thomas Müller og Toni Kroos forventes af afslutte bedre end den gennemsnitlige spiller.

Forskellige modeller er udviklet til at evaluere på spilleres betydning og bidrag til at skabe gode scoringsmuligheder. Den klassiske kamprapport indeholder assists, men det er ikke altid at den næstsidste pasning er den, der har egentlig betydning for scoringen eller scoringsmuligheden. Derfor er der udviklet forskellige modeller til at give kredit for at involvering i opspil, der fører til scoringsmulighederne og til vurdere betydningen af de forskellige pasninger.

En assist tildeles kun, når afslutningen fører til scoring. Også selvom afslutningen er så dårlig, at den vil optræde i en af de utallige videoer på internettet med football mistakes. Expected assists (xA) tilskriver alle pasninger en værdi for, hvad sandsynligheden for at netop den pasning vil være målgivende. Dette gøres blandt andet ud fra pasningens type og placering på banen. Dette begreb tildeler således en spiller værdi uafhængigt af, om spilleren, der modtager bolden, afslutter på pasningen, spiller den videre eller mister den.

Værdien af xGChain og xGBuildUp

En måde at tildele kredit til andre end blot afslutteren og assistspilleren er xGChain (xGC). I denne model, går man tilbage fra alle afslutninger, og tildeler xG til alle de spillere, der har deltaget i opspillet. Spillere, der er involveret i opspil og gennembrud tildeles derfor værdi, selvom de ikke laver den pasning, der fuldstændigt splitter forsvaret. Omvendt indfanger xGChain kun de pasningssekvenser, som fører til afslutning. En afledning af xGChain er xGBuildup, som fjerne xG-værdierne fra assisterende pasninger (xA) samt afslutninger (xG). Således vil værdien af at indgå i det opbyggende spil og fokus på de vigtige spillere i denne sammenhæng øges yderligere.

I både xGChain og xGBuildup tildeles alle spillere i pasningssekvensen samme værdi. Derfor er et begreb som expected threat (xT) for nyligt blevet præsenteret og diskuteret. Målet med expected threat er på baggrund af eventdata at kunne differentiere værdien mellem spillernes aktioner, så alle i en pasningssekvens ikke tildeles samme værdi. Begrebet kan forstås således, at et boldbesiddende hold fra enhver position på banen kan afslutte og score med en vis sandsynlighed eller flytte den til en anden position og derved ændre sandsynligheden for at score. Et forslag kunne være at tilskrive pasningen værdi i forhold til, hvordan pasningen ændrer xG – altså xG på den nye position fratrukket xG på positionen, hvor bolden kom fra. Et problem med dette er dog, at den efterfølgende aktion udelukkende kan være en afslutning, og derfor ikke tager højde for, om den pasning øger chancen for at skabe en endnu farligere situation. En pasning gennem forsvarskæden, men fra en central position foran feltet skråt udad og frem mod mållinjen umiddelbart vil føre til en lavere xG, da positionen ikke er god at afslutte fra. Men pasningen giver mulighed for en efterfølgende pasning, som øger sandsynligheden for at pasningssekvensen fører til en scoring. Ligeledes vil der, hvis modellen udelukkende baseres på xG være masser af områder på banen, hvor xG er 0, hvorfor disse pasninger bliver betydningsløse. Dette tager expected threat, xT, højde for ligesom også driblinger kan ændre expected threat.

Med expected threat vil spillere således ikke blot tilskrives en værdi efter, om de afslutter (xG) eller skaber mulige assists (xA). Ej heller tilskrives samme værdi om de er første eller tredje sidste i berøring med en lang pasningssekvens (som i xGChain eller xGBuildup). Disse begreber kan således bruges til at identificere spillere, som skaber ekstraordinær værdi for eget eller modstanderhold. Men eftersom xT bygger på eventdata medtages modstandernes positionering og pres på boldholderen ikke i modellen.

Til dette er der udviklet mere komplekse modeller, der også medtager positionelle data fra tracking. De mange begreber og modeller er individuelt tilpassede fra analytiker til analytiker og klub til klub. Forskellige parametre kan vægtes lidt forskellige og i en klub, vil beregningsmodellerne tilpasses spillestil og strategi i samarbejde mellem analytiker, cheftræner og øvrigt trænerteam. På grund af disse mindre forskelle, vil man også kunne finde små forskelle i eksempelvis xG for den samme spiller eller samme kamp.

Hvad ligger bag fodboldens dataanalytiske begreber?

AF MORTEN B. RANDERS
Lektor, Institut for Idræt og Biomekanik ved Syddansk Universitet og gæsteprofessor ved Universitet i Tromsø, Norges Arktiske Universitet

Et komplekst spil

Det relevante i expected goals

Værdien af xGChain og xGBuildUp

Relateret indhold

Træneren som ‘arkitekt’ i elitemiljøer: Her er fire ufravigelige principper og fine balancer

Spillet i detaljen – med Morten Eskesen

Spillet i detaljen – med Andrée Jeglertz

Flyt fokus over på legen: Her er to modeller til en sjovere træning

Unge elitespilleres oplevelser: Sådan skabes den gode menstruationskultur

Ny rapport: Menstruationscyklussens betydning for præstationer og trivsel

Hvad ligger bag fodboldens dataanalytiske begreber?

AF MORTEN B. RANDERS Lektor, Institut for Idræt og Biomekanik ved Syddansk Universitet og gæsteprofessor ved Universitet i Tromsø, Norges Arktiske Universitet

Et komplekst spil

Det relevante i expected goals

Værdien af xGChain og xGBuildUp

Relateret indhold

Træneren som ‘arkitekt’ i elitemiljøer: Her er fire ufravigelige principper og fine balancer

Spillet i detaljen – med Morten Eskesen

Spillet i detaljen – med Andrée Jeglertz

Flyt fokus over på legen: Her er to modeller til en sjovere træning

Unge elitespilleres oplevelser: Sådan skabes den gode menstruationskultur

Ny rapport: Menstruationscyklussens betydning for præstationer og trivsel

AF MORTEN B. RANDERS
Lektor, Institut for Idræt og Biomekanik ved Syddansk Universitet og gæsteprofessor ved Universitet i Tromsø, Norges Arktiske Universitet