En el campo del aprendizaje automático existen miles de caminos diversos que permiten aproximarse a un objetivo. El mundo del fútbol no es una excepción y el enfoque puede ser diverso. En mi caso, en las primeras versiones de Deep Soccer, las predicciones se hacían en base a un sitema de puntuaciones genéricas de los diferentes aspectos (capacidad ofensiva, defensiva, física, estratégica, etc) de cada equipo. Sin embargo, siempre tuve la impresión de que con este modelo las predicciones eran demasiado lineales. Además, qué pasaba si un equipo atravesaba un momento de forma óptimo o muy bajo? Había llegado el momento de elegir otra hipótesis.
A partir de aquí sopesé numerosas opciones. En mi caso decidí que los 5 partidos previos eran una muestra suficiente del estado de forma actual de cada equipo. Suficiente para determinar si el potencial general del equipo en cuestión, así como para determinar en cierto modo su momento de forma actual. Por tanto, la decisión estaba tomada. Ahora quedaba solo otra pregunta importante. Qué algoritmo usar? O sería quizás mejor entrenar una red neuronal propia?
En un proyecto de estas características, la viabilidad técnica es un factor tan fundamental como la precisión de los resultados. De qué me sirviría entrenar una serie de redes neuronales o sistema de árboles de decisión de gigabytes de peso? Como iba yo a alojar semejante monstruo en la nube, asumiendo unos costes razonables para un proyecto de este tipo? Es viable el mantenimiento de algo así?
Así pues, el problema parecía ser no solo de maximizar la precisión, sino también de adaptación a los recursos técnicos y económicos del proyecto. En ese sentido, LightGBM cumplía muchos de los requisitos necesarios: basado en árboles de decisión, con capacidad para multioutput (un único modelo es capaz de predecir diferentes targets), y ante todo versátil y ligero, lo cual favorecería hospedarlo en la nube. Por otro lado, la precisión de los resultados era más que razonable en comparación con otros modelos que requieren unos recursos en la nube mucho mayores. Por tanto la decisión estaba tomada.
A partir de ahí, el objetivo era claro: recopilar el mayor número de muestras (partidos) posibles a fin de que las predicciones estuvieran basadas en el mayor número de experiencias posibles. A día de hoy, Deep Soccer basa sus predicciones en las experiencias acumuladas en una base de datos de 60000 partidos. Esta base de datos se sigue ampliando regularmente, a fin de que el espectro de partidos y de situaciones sea lo más amplio posible. Está previsto que durante 2025, la base de datos llegue a ser de 100000 partidos.
A partir de ahí, parafraseando a Vujadin Boskov, “Fútbol es fútbol”.
Un abrazo a todos,
Miguel
Leave a Reply