Wij weten al wie de Champignons League gaat winnen...

Gaat Ajax dit jaar de Champignons League winnen? Onze collega’s uit België grepen de start van het nieuwe Champignons League seizoen aan als gelegenheid om een interessant en ambitieus dataproject te starten. Het voorspellen van de winnaar van dit seizoen. Twee trainees: Jonathan Kemel en Tom Martens, elk met hun eigen methode gingen de uitdaging aan.  

Het succes van een voetbalclub kan met allerlei factoren samenhangen. Juiste voorspellingen maken lijkt daarom een complexe klus. Jonathan koos ervoor zijn voorspelling te baseren op eerde prestaties van de clubs. Tom daarentegen, legde de focus op het clubprofiel en ontwikkelde een tweetal voorspel modellen.

Jonathan: voorspellingen op basis van eerdere prestaties 

Data verzameling

De eerste stap was het verzamelen van data van de clubs die dit jaar mee doen in de Champignons League. Omdat fysieke prestaties van clubs en spelers over de tijd veranderen, is gekozen om enkel de prestaties van de afgelopen 4 jaar te nemen. Om tot een gewogen resultaat van de verschillende prestaties te komen, is er een weging aangebracht per voetbalcompetitie. In de Belgische competitie kreeg een club een waarde van 0.74 wanneer een doelpunt werd gemaakt en 1.21 wanneer er een tegendoelpunt werd gemaakt. Binnen de Engelse competitie golden andere getallen, namelijk: 1.29 voor een goal en 0.79 voor een tegengoal. Door deze wegingen aan te brengen zijn de prestaties van de clubs onderling beter te vergelijken. 

Data-analyse met Python

Op basis van het wedstrijdschema werd berekend wat de kans op winst, gelijkspel of verlies zou zijn. Deze kansberekening is gemaakt op basis van de gemiddelde score van de clubs binnen hun eigen competities. Elke club heeft op deze manier vier waardes gekregen: 

  1. Home scored: aantal goals tijdens thuiswedstrijden 
  2. Home conceded: aantal tegengoals tijdens thuiswedstrijd 
  3. Away scored: aantal goals tijdens uitwedstrijd 
  4. Away conceded: aantal tegengoals tijdens uitwedstrijd 

Elke waarden is vermenigvuldigd met de eerdergenoemde weging coëfficiënt.  

Met behulp van deze kansberekening is in kaart gebracht wat de wedstrijdresultaten van de verschillende poules zou worden. Hiermee is een nieuwe dataset opgesteld die voor elke club aangaf wat de kans op winst, verlies en gelijkspel zou zijn. Een voorbeeld: voor de wedstrijd PSG vs. Manchester City was de kans op winst voor PSG 24%, gelijkspel 29% en winst voor Manchester City 46%. De groepsresultaten zijn gebaseerd op de uitslagkans vermenigvuldigd met de het aantal punten wat hiervoor gekregen zou zijn (verlies: 0, gelijkspel: 1, winst: 3). 

Door de resultaten als uitgangspunt te nemen zijn de clubs bepaald die de Knock-outfase hebben gehaald. De loting voor de deze indeling is vanzelfsprekend nog niet bekend en is daarom door Jonathan zelf bepaald. Omdat in deze fase een gelijkspel resulteert in penalty’s, is een deze situatie en winstkans van 50% gegeven voor beide ploegen. Want, zoals jonathan zelf zegt: Penalty’s zijn een loterij. 

The winner

Op basis van deze analyse kan gesteld worden dat de finale wordt gespeeld door Manchester City tegen Bayern München en deze gewonnen wordt door Manchester City! Omdat de indeling van het knockout-schema een gok is, blijft het natuurlijk de vraag of Manchester City en Bayern elkaar niet eerder treffen dan de finale. Voorlopig moeten we het doen met de voorspelde winst van Manchester City! 
 iStock-1197582798

Tom: Voorspelling op basis van clubprofiel 

Data verzameling

Voor het bepalen van het clubprofiel zijn verschillende datasets bij elkaar gezocht en gecombineerd. Ook is er rekening gehouden met variabelen zoals: bruto binnenlands product en bevolkingsgrootte. Dit werd gedaan vanwege de assumptie dat rijkere landen meer te investeren hebben in voetbal. Met behulp van de clubratings van de FIFA games vanaf 2005 en de resultaten van de Champignons League vanaf 2005 werd de analyse gedaan. Sommige clubs bestonden nog niet in FIFA 2005 wat zou zorgen voor een missende waarde in de analyse. Een voorbeeld van z’n club is Shakhtar Donetsk. Om dit op te lossen is voor deze missende ratings een gemiddelde waarde gebruikt van de jaren waarvan wel een rating bekend was. Clubs waarvan geen historische data bekend was zijn uit de analyse verwijderd.  Voor wat betreft de Champignons League resultaten werd gekeken naar alle clubs vanaf 2005 die minstens de 8ste finales haalden. Na het voorbereiden van de deze data zijn een tweetal modellen getraind met behulp van de datatool WEKA.  
 

Lineaire Regressie model

Het eerste model was een klassiek lineair regressie model. Als voorspellers werden de variabelen: teamrating, populatie, aantal toeschouwers en competitie gebruikt. De te voorspellen variabele was een ranking getal wat aangeeft hoever een club in de competitie komt. Een hogere score geeft een groter succes aan.  

The winner

Op basis van deze analyse is bepaald dat de grote winnaar van dit seizoen wordt: Bayern München. De verliezer van deze finale op 28 mei is Dortmund. 

K Nearest Neighbors model

Het tweede model is een clustering algoritme gebruikt genaamd: K Nearest Neighbors (KNN). Voor elk team zocht het model 7 teams op met een vergelijkbaar clubprofiel. met dit resultaat werd een gemiddelde bepaald waarvan de waarde aangaf hoe succesvol de club zou presteren binnen het huidige seizoen. Dus, wanneer Team A veel overeenkomsten heeft met 7 andere teams die het goed deden in de afgelopen jaren, dan is de voorspelling dat Team A het dit jaar ook goed doet.  

The winner

Op basis van dit model kan geconcludeerd worden dat Manchester City de finale met een groot verschil gaat winnen van Dortmund. Dit betekent dat deze uitslag overeenkomt met de uitslag van Jonathan zijn analyse. De Engelse kampioen heeft de statistiek in ieder geval aan zijn zijde. 

Ook een data-vraagstuk binnen jouw organisatie? De Young data professionals van Vlammrs denken graag mee over out-of-the-box oplossingen en helpen de verbinding te brengen tussen data en de business. Benieuwd hoe we jouw organisatie kunnen helpen? Neem contact op om de mogelijkheden te bespreken.

Bespreek de mogelijkheden

Wij weten al wie de Champignons League gaat winnen...

Wij weten al wie de Champignons League gaat winnen...