統計をサッカーに応用するのはそう簡単ではないよという話

2016年のJ1リーグ全試合データを機械学習し、2017年の展望を予測する」という記事が出ていたのだが、機械学習の類は最近進歩が著しいものの、外野から見てその能力が神話的に過大評価されることもあり、この記事も少々そういう注意が必要と思える記事のため、簡単にその説明をしていく。

岡田マリノス2連覇時の「確率論的サッカー」

 当該記事で行われているような、「既にとった

過去のデータで未来を予測するにはコツがいる

 機械学習の例として、有名なGoogle TensorFlowを使ったきゅうりの選別機を例に比較する。

試作 2 号機の開発に際して小池さんが撮影したキュウリ画像はおよそ 7000 枚。お母さんが仕分けしている横で写真を撮影し、およそ 2、3 か月をかけて学習用画像を用意した。しかしそれでもまだ、学習用画像が足りないと小池さんは言う。

「学習用と合わせて用意したテスト用の画像で検証すると、正解率は 95% に達します。しかし、その後新たに作成したキュウリ画像で試すと、70% 程度に落ちてしまいます。まだまだ学習用画像の数が少ないため、『過学習』(少数の学習用データに偏って学習してしまう現象)が発生しているようです」

 過去の事象の統計をとり、その割合を確率と見做して将来予測に使うことは一般的に行われている。これは当たり前のように思われるが、実はそれには「過去も将来も条件は変わらず同じ確率で物事が起きる」という仮定が必要である。統計学的に聞こえる用語で言い換えれば、過去も未来も母集団は同じで試行を繰り返しているに過ぎないと仮定できるとき、初めて過去の統計を未来予測に転用できる。

サッカーにおいては、この仮定は短期的には成立しうるが、中長期的には維持できるかどうか怪しい。

相手がパラメタとして入っていない

例えば、2部で強者のサッカーをして昇格したものの、カテゴリが上がって相手が強くなったので2部での戦い方が通用しなくなってしまい、カウンター狙いの引いたサッカーに切り替える、などというのはよくあることである。

試行数が少ない

その他テクニカルな問題

Mes pensées après avoir lu les tweets de #teamOM

Ne comptez pas sur Sakai-Tauvin combinaison.

Dans le match contre Bastia, l’attaque de l’OM a été arrêtée après l’entrée de Djiku à 22e. Le manager de Bastia a ordonné la défense individuelle sur Sakai pour Djiku. Après cela, Sakai et Tauvin ont perdu leur fonctionnalité. Un manager tente généralement de détruire la partie la plus efficace de l’adversaire. Ce match indique que les futurs adversaires cibleront cette combinaison. Il est trop difficile de s’appuyer sur la combinaison. L’OM doit faire un point fort autre que le couloir droit.

La valeur marchande de Sakai n’est pas élevée au Japon.

Certaines personnes s’attendent à la valeur de commercialisation Sakai au Japon, mais il n’est pas élevé. Son rival est trop fort – Atsuto Uchida est très populaire au Japon pour le visage et les performances passées.

順位予想の当たり方の計り方

ドメサカブログさんで順位予想の当たり具合に「予想1位~3位チームの順位差の平均値」という数字を使っていたのですが、もうちょっと良い指標が使えないかな?と気になりました。この指標は、完全的中時にゼロになることは分かりますが、完全にランダムな(J1クラブ名を書いたカードをシャッフルした)時にどの程度の数字になるのか直観的に分からず[1]、どの程度よく当たっているかがつかみにくいという問題があります。また、上位のみの数字を使っているので中位、下位の予想力も反映されていません。

こういった問題を解決するために、統計学では順位相関係数というものを使います。これはドメサカさんが使っていたような「順位間のずれ」の数字を、完全一致時に1、ランダムな時に0、完全逆順時に-1となるように大きさを調整(標準化)したものです。この方法にすれば

  • 当たり具合が分かりにくい→分かりやすい
  • クラブ数によって影響を受ける→受けない
  • 上位の数字だけ使っている→全体の数字で計れる

と、いくつかの問題が解決します。

でも、計算が大変なんでしょう?

とっても簡単。ケンドールの順位相関係数であれば、総当たり表を作り、各マスについて「実際の順位と予想順位が同じなら“当たり”を、違えば“外れ”を書き、当たりのマス数から外れのマス数を引いて、最後にマス数の合計値で割るだけです。

無題

手軽に計算するのであれば、オンラインの順位相関計算サイト[2]に飛んで、順位&予想順位表を張り付けるだけ。あとはボタン一つで相関係数(r)が出てきます。rの横に*印がありますが、これは「ランダムシャッフルではこの的中率はなかなか(少なくとも20回に1回未満しか)出ない」という意味の印です。18クラブ予想の場合にはrが0.4を切ってくるとシャッフルでもたまには出るというレベルの的中率になります。Jの場合は0.5が大まかに凡人予想ラインと置いていいでしょう。

js-starの使い方

js-starの使い方

ドメサカブログさんのところの数字をそのまま使って計算してみたところ、以下のようになりました。
* 平野孝 0.715
* 後藤健生 0.674
* 小村徳男 0.742
* 福田正博 0.657
* 鈴木隆行 0.701
* 山口素弘 0.734

無題

数字の多少の大小は気にしないでね

順位相関係数を算出すると小数点以下細かい数字が出てきて信用できそうに見えますが、いくつか留意点があります。一つは、この数字はシーズンごとにある程度ばらつくということです。同じ人でもシーズンごとに相関係数はばらつきます。個人の「予想力」を語るなら予想10回分くらいは見たほうがよさそうです。二つ目に、これはあくまで予想が難しい「今のJ」に限定した数字です。同じことを海外リーグでやれば恐らくそちらのほうが予想と実績の相関係数は上がるでしょうが、そうなったとしてもそれはJは予想が難しいということを意味しているのであって、Jの解説陣が予想力が低いということを意味するものではありません。

補注

[1] ちなみに(ランダムに選んだ時の)期待値は16クラブで6.67、18クラブで7.65、20クラブで8.63になります。

[2] このサイトではスピアマンの順位相関係数を使っています。ドメサカブログさんの数え方はズレを数え上げているのでケンドールの順位相関係数に近く、私もこちらのほうが適していると思いますが、オンラインで計算できるサイトがないので。

キックの駆動力の4成分

筆者は専門のサッカー指導者ではありません。筆者が逆足キックを習得するために試行錯誤した事例を残すためのものです。本稿は試稿であり、批判的なご指摘・ご意見等も常に歓迎しております。コメント欄・twitter等でお気軽にご指摘いただければと存じます。

サッカーにおけるキックは、物理学的には足先を加速してボールにぶつけ、その反作用でボールを加速する過程と言えます。足先を加速するためには足先に力を加える必要がありますが、その力を発生させるため筋肉の使い方は、大雑把に以下の4種類に区分できると考えられます。

  1. 助走
  2. 軸足
  3. 水平面トルク
  4. 矢状面トルク

実際のキックはこれら4つの成分やその他の細かい動きが組み合わされたものですが、どの力を強調するかによってキックの性質が変わってくるでしょう。本稿ではそれについて考えます。

続きを読む

欧州スポーツ紙のサッカー選手採点の目安

欧州スポーツ紙のサッカー選手採点は各国独自の歴史があり形成されたもので、国ごとにばらつきがあります。そこで、採点の統計分布を参考にして標準化することを試みます。ただし、全数データベースが参照できるkicker以外は現状は目算ですので悪しからず。

誰かシーズン通しの統計を持っていただけるとありがたい。

伊式 英式 独式
節で1人か2人、上位1%。出色の出来。 8.0 10 1.0
2試合に1人か2人くらい。上位5%。非常に良い出来。 7.5 9 1.5
その試合で違いを作った選手。 7.0 8 2
不動のレギュラーの平均値。 6.5 7 3
全体の平均値。 6.0 3.5
控え・ローテ組も含めた平均値。 5.5 6 4
試合に入れていなかった選手。 5.0 5 4.5
2試合に1人か2人くらい。下位5%。悪いほうに足を引っ張っていた選手。 4.5 4 5
節で1人か2人、下位1%。明らかにやらかした選手。 4.0 3 6

海外クラブで自国選手を優遇していても差別と言うのとは違う

現代のクラブサッカー、特に欧州主要リーグでは、各国リーグの自国籍選手の年俸や移籍金が外国籍の選手に比べ割高になるという現象が見られる。例えばプレミアリーグでは、特にリヴァプールがかなり割高と評される値段でイングランド人を集めていたり[1]、ドイツにおいても香川やレヴァンドフスキに比べロイスやゲッツェは倍近い評価額を得ていた。この事実について「差別的」という表現をする人がいるが、それは妥当とは言えない部分が大きい。

このような事態が生じる最も大きな理由は、外国籍選手の制限や自国籍選手の優遇をリーグが明白に掲げているということである。リーガやセリエはEU枠外選手の新規登録に制限がかけられているし、プレミアリーグやブンデスリーガはホームグロウン・ルール、ドイツ人枠などで自国籍選手の出場をある程度義務付けている。このような場合、自国籍選手を全て外国籍選手で置き換えることができないので、両者は経済学的な意味で代替不可能であり、別のマーケットを形成していると考えてよい。各国とも自国籍選手の供給源は世界人口の1%程度(6000万人ほど)である一方で、外国籍選手の供給源は残り99%と圧倒的に多い。自国籍選手と外国籍選手の能力が同じであったとしても、自国籍選手のほうが供給が逼迫しているので値段が上がるわけである。これは国を問わず、Jリーグも始まった当初は世界的には凡庸だった日本人選手がブラジル代表より高い給料を取っているという状態はよくあることであった。リーグに「自国選手育成」という名目を認める限りは、このような事態が生じることは甘受しなければならない。

副次的な理由として、スタジアムに足を運びグッズを買う地元サポーターが地元出身者を支持する傾向にあり、地元サポーターが支持する地元選手は商業的により価値が高い、ということも言える。地元選手の存在によってチケットが売れて地元選手のユニフォームがよく売れるのであれば、それはクラブにとって価値があることであり、その選手を引きとめるために給料を高くするのは当然であると言える。これもJリーグでよく観察される事例であり、クラブサポーターは地元高校出身者や自クラブのユースの生え抜きを好む傾向がある。また個人ファンが多い選手が経済的にも優遇されるのは、有名どころで言えばベッカムはMLS時代でさえそうであった。

日本人選手がヨーロッパで賃金的評価が低かったとしても、それは自国リーグは自国選手育成の場であるという名目が認めれている中で、市場のメカニズムから自然に生じてくることであって、サッカー選手としての評価とは少し次元が異なる部分で賃金差がついているだけである。どうしてもそれに納得できないなら、自国リーグを自国のサッカーレベルに合わせて繁栄させるしかないだろう。

[1]リバプールが支払った27億円は妥当?ダウニングの「プレミアム」の値打ち。
http://number.bunshun.jp/articles/-/148275