統計をサッカーに応用するのはそう簡単ではないよという話

2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する」という記事が出ていたのだが、機械学習の類は最近進歩が著しいものの、外野から見てその能力が神話的に過大評価されることもあり、この記事も少々そういう注意が必要と思える記事のため、簡単にその説明をしていく。

岡田マリノス2連覇時の「確率論的サッカー」

 当該記事で行われているような、「既にとった

過去のデータで未来を予測するにはコツがいる

 機械学習の例として、有名なGoogle TensorFlowを使ったきゅうりの選別機を例に比較する。

試作 2 号機の開発に際して小池さんが撮影したキュウリ画像はおよそ 7000 枚。お母さんが仕分けしている横で写真を撮影し、およそ 2、3 か月をかけて学習用画像を用意した。しかしそれでもまだ、学習用画像が足りないと小池さんは言う。

「学習用と合わせて用意したテスト用の画像で検証すると、正解率は 95% に達します。しかし、その後新たに作成したキュウリ画像で試すと、70% 程度に落ちてしまいます。まだまだ学習用画像の数が少ないため、『過学習』(少数の学習用データに偏って学習してしまう現象)が発生しているようです」

 過去の事象の統計をとり、その割合を確率と見做して将来予測に使うことは一般的に行われている。これは当たり前のように思われるが、実はそれには「過去も将来も条件は変わらず同じ確率で物事が起きる」という仮定が必要である。統計学的に聞こえる用語で言い換えれば、過去も未来も母集団は同じで試行を繰り返しているに過ぎないと仮定できるとき、初めて過去の統計を未来予測に転用できる。

サッカーにおいては、この仮定は短期的には成立しうるが、中長期的には維持できるかどうか怪しい。

相手がパラメタとして入っていない

例えば、2部で強者のサッカーをして昇格したものの、カテゴリが上がって相手が強くなったので2部での戦い方が通用しなくなってしまい、カウンター狙いの引いたサッカーに切り替える、などというのはよくあることである。

試行数が少ない

その他テクニカルな問題

広告

Mes pensées après avoir lu les tweets de #teamOM

Ne comptez pas sur Sakai-Tauvin combinaison.

Dans le match contre Bastia, l’attaque de l’OM a été arrêtée après l’entrée de Djiku à 22e. Le manager de Bastia a ordonné la défense individuelle sur Sakai pour Djiku. Après cela, Sakai et Tauvin ont perdu leur fonctionnalité. Un manager tente généralement de détruire la partie la plus efficace de l’adversaire. Ce match indique que les futurs adversaires cibleront cette combinaison. Il est trop difficile de s’appuyer sur la combinaison. L’OM doit faire un point fort autre que le couloir droit.

La valeur marchande de Sakai n’est pas élevée au Japon.

Certaines personnes s’attendent à la valeur de commercialisation Sakai au Japon, mais il n’est pas élevé. Son rival est trop fort – Atsuto Uchida est très populaire au Japon pour le visage et les performances passées.

順位予想の当たり方の計り方

ドメサカブログさんで順位予想の当たり具合に「予想1位~3位チームの順位差の平均値」という数字を使っていたのですが、もうちょっと良い指標が使えないかな?と気になりました。この指標は、完全的中時にゼロになることは分かりますが、完全にランダムな(J1クラブ名を書いたカードをシャッフルした)時にどの程度の数字になるのか直観的に分からず[1]、どの程度よく当たっているかがつかみにくいという問題があります。また、上位のみの数字を使っているので中位、下位の予想力も反映されていません。

こういった問題を解決するために、統計学では順位相関係数というものを使います。これはドメサカさんが使っていたような「順位間のずれ」の数字を、完全一致時に1、ランダムな時に0、完全逆順時に-1となるように大きさを調整(標準化)したものです。この方法にすれば

  • 当たり具合が分かりにくい→分かりやすい
  • クラブ数によって影響を受ける→受けない
  • 上位の数字だけ使っている→全体の数字で計れる

と、いくつかの問題が解決します。

でも、計算が大変なんでしょう?

とっても簡単。ケンドールの順位相関係数であれば、総当たり表を作り、各マスについて「実際の順位と予想順位が同じなら“当たり”を、違えば“外れ”を書き、当たりのマス数から外れのマス数を引いて、最後にマス数の合計値で割るだけです。

無題

手軽に計算するのであれば、オンラインの順位相関計算サイト[2]に飛んで、順位&予想順位表を張り付けるだけ。あとはボタン一つで相関係数(r)が出てきます。rの横に*印がありますが、これは「ランダムシャッフルではこの的中率はなかなか(少なくとも20回に1回未満しか)出ない」という意味の印です。18クラブ予想の場合にはrが0.4を切ってくるとシャッフルでもたまには出るというレベルの的中率になります。Jの場合は0.5が大まかに凡人予想ラインと置いていいでしょう。

js-starの使い方

js-starの使い方

ドメサカブログさんのところの数字をそのまま使って計算してみたところ、以下のようになりました。
* 平野孝 0.715
* 後藤健生 0.674
* 小村徳男 0.742
* 福田正博 0.657
* 鈴木隆行 0.701
* 山口素弘 0.734

無題

数字の多少の大小は気にしないでね

順位相関係数を算出すると小数点以下細かい数字が出てきて信用できそうに見えますが、いくつか留意点があります。一つは、この数字はシーズンごとにある程度ばらつくということです。同じ人でもシーズンごとに相関係数はばらつきます。個人の「予想力」を語るなら予想10回分くらいは見たほうがよさそうです。二つ目に、これはあくまで予想が難しい「今のJ」に限定した数字です。同じことを海外リーグでやれば恐らくそちらのほうが予想と実績の相関係数は上がるでしょうが、そうなったとしてもそれはJは予想が難しいということを意味しているのであって、Jの解説陣が予想力が低いということを意味するものではありません。

補注

[1] ちなみに(ランダムに選んだ時の)期待値は16クラブで6.67、18クラブで7.65、20クラブで8.63になります。

[2] このサイトではスピアマンの順位相関係数を使っています。ドメサカブログさんの数え方はズレを数え上げているのでケンドールの順位相関係数に近く、私もこちらのほうが適していると思いますが、オンラインで計算できるサイトがないので。

賭けオッズを支持率のデータとして読む

アジアカップが近くなってきた。このような大会が近付くと、賭けオッズを見ながら強い弱いという議論は出るものなので、その参考として賭けオッズの基本についておさらいしたい。

賭けオッズを作る

賭けオッズを作る・読む上で大前提となるのは、胴元は絶対に損をしないように作られている、ということである。この前提を満たすには、各選択肢に賭けられた金額の対全体比率の逆数を倍率の上限とすればよい。例えば、全金額のうち½(50%)が選択肢Xに賭けられているならば、X勝利時に2倍支払うことにすれば胴元は損得なしである。同様に、⅓(33%)が選択肢Yに賭けられていれば3倍、⅙(17%)が選択肢Zに賭けられていれば6倍で損得なしとなる。実際には胴元が一定の比率で取り分を設けるので、それを引いた還元率を投票比率の逆数にかけて売り出し倍率とする。還元率8割の場合、50%が賭けられている選択肢の倍率は(1÷0.5)×0.8で1.6倍となる。

賭けオッズを支持率のデータとして読む

オッズを読む場合には、基本的には上記の計算の逆をすればよい。ただし、還元率については胴元が勝手に設定したものであるため、我々がそれを知るには全選択肢のオッズから逆算する必要がある。具体的には、各選択肢のオッズの逆数を求め、その合計値の逆数が還元率となり、オッズの逆数に還元率をかけた数字が全賭け金額に対するその選択肢の選択比率となる。

以下に、2015アジアカップについてのとある賭博会社のオッズ表から、その賭博会社の想定している各選択肢の選択比率を示す。還元率は83.1%、全出場国が16カ国である中での日本のオッズ3.5倍は、全投票金額のうち23.8%が日本の優勝を予想しているということである。

asiancup2015williamhills

オッズ オッズの逆数 賭け金額の対全体比率
豪州 3 0.3333 27.7%
日本 3.5 0.2857 23.8%
韓国 6.5 0.1538 12.8%
イラン 10 0.1000 8.3%
ウズベク 15 0.0667 5.5%
中国 21 0.0476 4.0%
UAE 26 0.0385 3.2%
サウジ 26 0.0385 3.2%
イラク 41 0.0244 2.0%
ヨルダン 41 0.0244 2.0%
オマーン 51 0.0196 1.6%
カタール 51 0.0196 1.6%
北朝鮮 51 0.0196 1.6%
バーレーン 67 0.0149 1.2%
クウェート 81 0.0123 1.0%
パレスチナ 251 0.0040 0.3%
オッズの逆数の合計
=還元率の逆数
1.2030
還元率 83.1%

現行FIFAランキングの特徴を説明するからちょっと聞け

要点

  • 日本のFIFAランクは「勝てる公式戦」であるアジア杯とW杯最終予選の直後半年だけ上がる。
  • W杯とコンフェデで合わせて勝ち点10を取れるようになれば20位以内で安定するはず。
  • そうなるまでは各大陸の大陸杯・予選レギュレーションでどうとでもなるから細かいことは気にするな。

続きを読む

キックの駆動力の4成分

筆者は専門のサッカー指導者ではありません。筆者が逆足キックを習得するために試行錯誤した事例を残すためのものです。本稿は試稿であり、批判的なご指摘・ご意見等も常に歓迎しております。コメント欄・twitter等でお気軽にご指摘いただければと存じます。

サッカーにおけるキックは、物理学的には足先を加速してボールにぶつけ、その反作用でボールを加速する過程と言えます。足先を加速するためには足先に力を加える必要がありますが、その力を発生させるため筋肉の使い方は、大雑把に以下の4種類に区分できると考えられます。

  1. 助走
  2. 軸足
  3. 水平面トルク
  4. 矢状面トルク

実際のキックはこれら4つの成分やその他の細かい動きが組み合わされたものですが、どの力を強調するかによってキックの性質が変わってくるでしょう。本稿ではそれについて考えます。

続きを読む