Хабы: Машинное обучение
Дисклеймер
По приведенным ниже прогнозам не стоит делать ставки, т.к. они не учитывают букмекерскую маржу, форму команд, а также много других факторов. В целом ставки на спорт весьма специфичное занятие, рассчитанное во многом на психологию человека, скрытые слабости и т. д., поэтому в целом не стоит ставить на основании любых прогнозов в интернете.
Для проведения исследования использовались: датасет: https://www.kaggle.com/datasets/martj42/international-football-results-from-1872-to-2017?resource=download , язык программирования R, чат GPT 4.0.
Цели исследования: 1) проверить точность прогноза в результате машинного обучения на основании базы данных за 20 лет 2) узнать размер выигрыша/проигрыша в букмекерской конторе при использовании приведенного подхода.
Проблематика исследования: здесь не учтены важные факторы такие как уровень и стоимость игроков, текущая форма команд, фактор домашнего турнира для сборной Германии и многое другое.
Это все учтено самими букмекерами при выставлении коэффициентов на матчи, минус 10-15 процентов их маржи, поэтому просто выбирая фаворитов выиграть невозможно.
Лично для меня больший интерес представляет ответ на вопрос - удастся ли машине обнаружить неочевидные закономерности и обыграть букмекера, а не определение фаворита.
Методология
В первую очередь был обработан датасет, так как он включает результаты более 47 000 матчей за 152 года, в том числе - различных африканских квалификаций, которые нам не интересны и замедлили бы обработку данных, датасет был сокращен до результатов евро, квалификации к нему и лиге наций.
Читать далее