Hvordan kan du bruge kvantitative data til at forstå fodboldspillet? Hvad kan du bruge xG til – og hvornår kræver datapunktet flere nuancer? Hvordan kan data hjælpe trænere og analytikere til at identificere mønstre i spillet? Og lige så vigtigt: Hvordan imødekommer de faldgruber ved at arbejde med data?
De spørgsmål får du svar på i denne episode af GameChanger, hvor Nicolai Fernández Pedersen, Head of Football Data Analytics hos Brøndby IF og ph.d. i deep learning (maskinlæring), og Thor Herdal, Head of Set Pieces & Football Analysis hos FC Nordsjælland, er i studiet.
Podcasten tager udgangspunkt i kvantitative data knyttet til selve spillet – det vil sige eventdata og trackingdata, som registrerer handlinger og positioner på banen. Dermed afgrænser podcasten sig fra kvalitative analyser og fysiske data såsom GPS-målinger, pulsdata eller søvndata.
Med afsæt i deres daglige arbejde i to danske topklubber diskuterer de, hvordan data kan bruges til at identificere mønstre i spillet, hvordan et udbredt nøgletal som xG kan bruges til mere end blot at tale som sandsynligheder. Det handler nemlig om kontekst, spillestil og taktik, og hvordan analyser omsættes til konkrete beslutninger i trænerstaben og på træningsbanen.
Undervejs peger de også på faldgruberne: hvordan datamodeller kan variere, hvorfor enkelte kampe sjældent giver et retvisende billede, og hvordan data kan være en ’guide’ til at stille de rette spørgsmål.
Kvantitative data gør det muligt at se mønstre
Fodbold er så komplekst et spil, og når du har kvantitative data over tid, kan du begynde at se mønstre. Og på den måde hjælper kvantitative data til at forstå fodboldspillet, understreger Nicolai:
»Hvor kommer chancerne fra? Og hvad med assists? Data giver objektivitet i kampens hede, hvor du kan være i følelsernes vold. Eller det vi kalder recency bias.«
I forhold til at arbejde metodisk anvender Brøndby IF flagging, fodbold-KPI (alt, hvad der har med kampe at gøre) og spillestils-KPI (vores måde at vinde på) til at definere, hvilke kvantitative data der er relevante: »Hvad vil vi gerne måle på? Hvordan vil vi gerne spille? Hvordan bevæger vi os i forhold til KPI’er?«
I forlængelse heraf er det væsentligt at skelne mellem eventdata, som for eksempel kan være en aflevering fra én spiller til en anden med venstre fod, og tracking-data, som viser alle spillere 25 gange i sekundet. Værd at bemærke er, at hverken event- eller trackingdata kan måle kommunikation – det vil sige kvalitative data.
Skal indsamlingen og analysen af kvantitative data skabe værdi, skal data ses i kontekst. I FC Nordsjælland nedbryder de spillet i, hvordan holdet ser spillets faser. For eksempel kan omstillinger nedbrydes i fire typer: omstillinger efter højt pres, omstillinger efter lavt pres eller omstillinger efter standardsituationer eller genpres.
Thor påpeger, at kvantitative data ikke altid har svarene, »men de kan hjælpe med at stille de rigtige spørgsmål og guide, i forhold til hvor vi skal se ekstra video,« og der skal være en gylden mellemvej mellem overordnede og specifikke data:
»Er data for overordnede, siger de ikke så meget, og du bliver ikke guidet. Men data må heller ikke blive for specifikke, for så bliver samplet for lille, og det kan blive behæftet med for mange tilfældigheder i et komplekst spil.«
Nuancerne i xG går ofte tabt
Det er nærmest mere reglen end undtagelsen, at Expected Goals – bedre kendt som xG – bliver brugt og diskuteret, når det gælder data i fodbold. Overordnet bruges xG til at forklare sandsynligheden for at score på en afslutning ud fra en bestemt position og andre underparametre. Dertil giver standardsituationer oftere en lavere xG end en omstilling.
Men der er behov for nuancer i brugen af xG, for meget går tabt, når vi analyserer xG ud fra én kamp.
Thor fortæller, at xG er blevet et centralt datapunkt, fordi det er håndgribeligt for både trænere og spillere, ligesom xG kan give et billede af tendenser, når data anvendes over tid. Det samme gælder xG Against.
Netop »over tid« er centralt for xG i en fodboldfaglig sammenhæng og diskussion, for hvis anskuer du xG i en enkeltstående kamp, kan det være misvisende: »Du kan sagtens tabe en fodboldkamp, selvom du har en højere xG end modstanderen,« siger Nicolai og giver et eksempel med FC Barcelonas kvindehold, der havde en xG på 5,11 mod en xG på 1,00. Alligevel tabte FC Barcelona 2–1.
Og så vender vi tilbage til det med behovet for nuancer, for i arbejdet med xG – og data generelt – skal du være bevidst om, at datamodeller og dataudbydere kan beregne ud fra forskellige definitioner: »En anden ting, der går tabt i xG-begrebet, er det her med, at vi netop taler om sandsynlighed. Men der er stor forskel på, hvor sikre modellerne er, og hvor mange samples de har set af de enkelte situationer,« siger Nicolai og uddyber:
»Hvis vi isolerer til et straffespark, er vi ret sikre på, at xG er omkring 0,8, fordi situationen er den samme hver gang. Men der er andre situationer, hvor der er større usikkerhed i, hvad chancen er for at score her. Der er også mere avancerede xG-modeller, der giver et konfidensinterval, hvor vi normalt vil sige, at der er 50 procents chance for at score, så vil modellen sige, at der er 40–60 procents chance for at score.«
En yderligere måde at gøre xG relevant at arbejde med er kombinationen med andre nøgletal. Blandt andet bruger Brøndby IF Expected Threat (xT), som fortæller, »hvilken position skaber vi truslen fra? Hvor er vi selv farlige? Hvor er vores modstandere farlige? Hvor tillader vi mest trussel fra?«
LÆS OGSÅ Din guide til databegreber i fodbold – og hvordan du bruger dem i praksis
Fra datasprog til trænersprog
Som henholdsvis chef for dataanalyse hos Brøndby IF samt chefanalytiker og standardsituationstræner hos FC Nordsjælland har Nicolai og Thor også en stor opgave i at identificere relevante datapunkter og gøre dem relevante for trænerstaben.
Der kan være forskelle på definitioner af for eksempel kontraangreb fra udbyder til udbyder, og det kan give forskellige resultater. Det er nødvendigt at opsætte egne definitioner, så trænere, spillere og analysestab har et fælles sprog i den enkelte klub – og er enige om – hvad forskellige datapunkter betyder i forhold til spillestil og taktik:
»Det handler om dybest set om at få spillerne til at træffe nogle bedre beslutninger på banen. Det vil sige, det skal være trænerbart, og vi skal kunne måle på nogle situationer spilleren kommer i i løbet af kampene,« pointerer Thor og fremhæver store fordele ved, at i FC Nordsjælland er analytikerne tætte på trænerne, de sidder på samme kontor og har daglige møder, som gør data til en integreret del af deres dialoger.
’Kontekst’ er et ord, som Thor og Nicolai vender tilbage til, for kommunikationen af data afhænger af modtageren: »Nogle gange bliver data videreformidlet til spillere, og der kan vi lave rangeringer i forhold til resten af 3F Superliga og den gruppe, vi gerne vil måle os med for at vise vores ambitionsniveau. At præsentere data, så de indgår i konkurrence, kan være en måde.«
At tale trænerens sprog er en vigtig kompetence, så data kommer ned på fodboldbanen og bliver oversat til »herfra er de allerfarligst, herfra bliver deres chancer skabt. […] Det gælder om at ramme målgruppen.«
Hold analyserne simple og hold fokus på faste punkter
Selvom fire kampe ikke er et stort sample, bruger Thor alligevel dén række af kampe som et eksempel på, hvordan FC Nordsjælland anvender data fra kampe og gør dem relevante i forhold til træning.
Over de fire kampe indkasserede FCN syv mål, hvoraf seks af dem var efter etableret spil. En enkelt kom efter omstilling og ikke nogen efter standardsituationer:
»Så er det jo interessant at se de seks mål, hvor vi har indkasseret efter etableret spil: Er det, hvor vi har presset højt? Eller hvor vi allerede er spillet ned og står lavt? Og derfra kan vi stille et nyt spørgsmål: ’Hvad er det for en type af situationer? Er det efter indlæg? Er det efter stikninger? Er det efter kombinationsspil?«
Herudfra kunne de spore sig ind på tendenser, ligesom Thor fremhæver en pointe om xG:
»En anden interessant ting ved det var, at vi indkasserede seks mål, men vi burde i forhold til xG kun have indkasseret tre. Hvad er det for nogle situationer? Er der nogle tendenser i det, i forhold til at vi har underpræsteret?«
Det dannede baggrunden for evalueringer af, hvorvidt de underpræsterede på indlægssituationer, og hvad holdet skal gøre for til at forsvare på situationerne og for at forhindre lignende situationer.
Et andet eksempel fra dagligdagen i FC Nordsjælland er arbejdet med at fastholde få, centrale datapunkter over tid. Hvis analysen konstant skifter fokus, bliver det vanskeligt at komme i dybden med udviklingen i spillet.
»Det med at have nogle ret faste ting, man kigger efter og holder track med. Vi prøver egentlig at holde det ret simpelt og ikke have alt for mange forskellige ting oppe, fordi de hurtigt kan mudre billedet. Box entries, afslutninger, expected goals og antal pasninger på modstanderens tredjedel – og så set i konteksten af hvilken spilfase det er – er nogle af de ting, vi bruger allermest.«
Derudover bruger analyseafdelingen blandt andet heat maps til at identificere mønstre i holdets positionering og boldomgang i forhold til modstanderen. Analyserne kan også pege på mere specifikke udfordringer i spillet – for eksempel at indlæg bliver slået fra for lang afstand:
»Det vil sige, modstanderens forsvar har for god tid og for gode forudsætninger til at cleare bolden. Hvad kan vi gøre for at få flyttet nogle spillere i nogle områder, hvor vi kan lave en aflevering mere og reducere tiden for det forsvarende hold – og så gå ud og træne det på banen.«
Når det gælder Thors specifikke arbejde med standardsituationer, får han hver uge en datarapport, som gør det muligt at følge modstanderens og egen udvikling over tid:
»Her får du et overblik over alle modstanderens kampe og eksempelvis, hvor mange afslutninger de har haft, og hvor meget xG de har genereret, og hvor mange mål de har scoret i de forskellige kampe. […] Det kan også være, hvor ligger vi selv på førstekontakt gennemsnitligt. Ligger vi alt for lavt defensivt, kan det være noget med strukturen, det kan være for dårlige match-up eller markeringsspillet.«
LYT OGSÅ TIL Få Mads Buttgereits guide til at vinde på standardsituationer
»Garbage in, garbage out«
Til sidst kommer Nicolai og Thor omkring misforståelser og faldgruber. Som tidligere nævnt, kan der være store variationer i, hvordan dataudbydere beregner xG og definerer underliggende parametre.
Nicolai understreger, at den største faldgrube er at stole »meget på det, der er tagget, og datakvaliteten« og se data som den helt klare sandhed. Men vi må ikke glemme, at det stadig er udbyderens ansatte, der vurderer en situation, og om en spiller »vandt tacklingen« eller ej.
Devisen »Garbage in, garbage out«, som i bund og grund handler om, at du skal rense data, siger Nicolai.
Som Thor også var inde på indledningsvis, fremhæver han, at xG i en enkelt kamp ikke er et udtryk for retfærdighed. Han husker tilbage på en kamp for fire år siden, hvor FC Nordsjælland var foran 3–1 indtil minut 94, hvor modstanderen fik »en triple–chance med afslutninger helt tæt på målstregen tre gange i træk, og det akkumulerede til samlet 1,4 xG på den ene mulighed, hvor de reducerer til 3–2 i fire minutters overtid.«
Den ene situation betød, at kampen målt på xG skulle være endt 2–2, men så du kampen i kontekst, var det en kamp, hvor FC Nordsjælland i kontrol ind til minut 93,5, hvor xG for modstanderen går helt op i den ene situation.
Straffespark er også vigtige at holde øje med, når det gælder beregningen af xG. Straffespark kan akkumulere en høj xG-værdi, hvorfor det i stedet kan give mening at analysere, hvad der sker op til straffesparket – for eksempel antallet af omstillinger. Kort og godt: konteksten.
Afslutningsvist er det vigtigt ikke at være forudindtaget og lede efter data, der passer ind i egen opfattelse af spillet. Det handler om at bruge data til at stille de rigtige spørgsmål.