統計をサッカーに応用するのはそう簡単ではないよという話

2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する」という記事が出ていたのだが、機械学習の類は最近進歩が著しいものの、外野から見てその能力が神話的に過大評価されることもあり、この記事も少々そういう注意が必要と思える記事のため、簡単にその説明をしていく。

岡田マリノス2連覇時の「確率論的サッカー」

 当該記事で行われているような、「既にとった

過去のデータで未来を予測するにはコツがいる

 機械学習の例として、有名なGoogle TensorFlowを使ったきゅうりの選別機を例に比較する。

試作 2 号機の開発に際して小池さんが撮影したキュウリ画像はおよそ 7000 枚。お母さんが仕分けしている横で写真を撮影し、およそ 2、3 か月をかけて学習用画像を用意した。しかしそれでもまだ、学習用画像が足りないと小池さんは言う。

「学習用と合わせて用意したテスト用の画像で検証すると、正解率は 95% に達します。しかし、その後新たに作成したキュウリ画像で試すと、70% 程度に落ちてしまいます。まだまだ学習用画像の数が少ないため、『過学習』(少数の学習用データに偏って学習してしまう現象)が発生しているようです」

 過去の事象の統計をとり、その割合を確率と見做して将来予測に使うことは一般的に行われている。これは当たり前のように思われるが、実はそれには「過去も将来も条件は変わらず同じ確率で物事が起きる」という仮定が必要である。統計学的に聞こえる用語で言い換えれば、過去も未来も母集団は同じで試行を繰り返しているに過ぎないと仮定できるとき、初めて過去の統計を未来予測に転用できる。

サッカーにおいては、この仮定は短期的には成立しうるが、中長期的には維持できるかどうか怪しい。

相手がパラメタとして入っていない

例えば、2部で強者のサッカーをして昇格したものの、カテゴリが上がって相手が強くなったので2部での戦い方が通用しなくなってしまい、カウンター狙いの引いたサッカーに切り替える、などというのはよくあることである。

試行数が少ない

その他テクニカルな問題