Сезон 2024/25

Чья модель xG лучше остальных подходит для анализа данных? И должен ли вопрос ставиться именно так?

2025-12-18 15:11
Аналитики из проекта pythonfootball решили выяснить, насколько совпадает статистика ожидаемых голов у ключевых поставщиков


Каким источником статистики xG вы пользуетесь? У нас есть целый раздел с отчетами по матчам, где используются продвинутые данные наших партнеров на основе статистики Opta. Однако цифры на дистанции — а это важно при анализе — мы на Реджисте пока не публикуем и любим за трендами ходить на сайты Markstats, Understat, Opta x Analyst, FBref. И в целом при подготовке материалов стараемся не упираться в конкретный источник, хотя данные в идеале лучше всего приводить из единого хаба, если это возможно — так объективнее, хотя найти все необходимые метрики у кого-то одного непросто.

Вы, вероятно, зададитесь вопросом: что показывает график ниже? Аналитики из проекта pythonfootball решили выяснить, насколько совпадает статистика ожидаемых голов у ключевых поставщиков больших футбольных данных, сравнивая каждого с каждым.

Здесь показывается корреляция Пирсона (если упростить, то это сила линейной зависимости между двумя переменными) по xG на каждой игровой неделе. Значение 1,0 означает, что два провайдера генерируют идентичные сезонные кривые. Значение 0 означает, что кривые не имеют ничего общего. Проще говоря: чем выше линия, тем сильнее "согласованность" данных у поставщиков.

Сначала обратите внимание на то, что данные у всех пар провайдеров стартуют по сезону с довольно высоких значений — даже наименее согласованная пара начинается с 0,87, что уже является хорошим показателем. Но некоторые пары сходятся быстрее и сильнее, чем другие. Выделяются три явных кластера:

— Opta x Understat. Всего после нескольких матчей их показатель уже выше 0,97, а к концу сезона он составляет 0,99. Эти два сервиса рассказывают практически одну и ту же историю на протяжении всего сезона.

— Opta x StatsBomb и StatsBomb x Understat: средний кластер. Примерно к середине сезона обе пары преодолевают отметку 0,98.

— Все, что связано с Wyscout: исключение. Пары с Wyscout начинают с более низких показателей (0,88–0,90) и дольше набирают скорость. Даже в конце сезона их показатели немного ниже, чем у других. Wyscout "думает иначе", но в долгосрочной перспективе все равно приближается к остальным.

К концу сезона каждая пара достигает очень высокого уровня согласия (>0,97). Это говорит нам о том, что, хотя провайдеры могут расходиться во мнениях по поводу отдельных матчей, их данные в течение сезона в конечном счете сходятся — даже у Wyscout.

Так или иначе, в любом случае нередко мы видим расхождения в разрезе конкретных матчей. Например, в этом сезоне часто бывает, что у много бьющего по воротам "МЮ" статистика xG значительно разнится в зависимости от источников. В недавнем матче против "Борнмута" Understat дал манкунианцам 3,21, а Opta — 3,4, в итоге на дистанции 16 туров у команды Аморима, соответственно, 33,49 xG (лидеры сезона у Understat) и 30,77 xG (Opta дает второе место). Второй вариант ближе к истине, потому что у "МЮ" действительно 30 голов, но всегда найдется аналитик, который скажет, что им явно стоит прибавлять в реализации.

Есть еще один пример — о разнице xG: "Болонья" образца 2020/21. По версии Wyscout они заняли 18-е место в том сезоне, у Opta и Understat — 11-е, а по версии StatsBomb — 14-е место. То есть диапазон в семь позиций.

Однако это было одно из самых экстремальных разночтений за годы в топ-лигах Европы. На деле же, когда всё доходит до статистики ожидаемых очков, все четыре провайдера примерно одинаково отслеживают ее. Одна модель немного отстает от других (не нужно называть ее — вы и так поняли).

И да, аналитики выяснили, что модель xG от Understat быстрее всего добирает ожидаемые и реальные очки на дистанции сезона. График ниже.

Это вовсе не значит, что у всех команд цифры по ожидаемым и реальным очкам выравниваются к последнему туру. Речь именно о том, насколько точно модель способна предсказывать ситуацию в целом. Иронично, что Understat не относится к "большим" компаниям, занимающимся продвинутой статистикой.

Однако в долгосрочной перспективе модели плюс-минус показывают почти одинаковую картину. И хотя по конкретным матчам расхождения неизбежны, стоит помнить, что любой статистике нужен контекст, а анализу данных — дистанция.

Вы можете поддержать наш уникальный проект

Мы также внедрили VK Donut, чтобы вы могли отблагодарить нас за труд и подписаться на эксклюзивные материалы, переводы статей из иностранных источников и тематические видео