競馬予想の方法を考える【#3 データの落とし穴】

競馬予想の方法を考えるコラムの第3回は

よく使われるデータの使い方を考えます。

昨今では本ブログを含めて、

競馬予想を発信しているブログ、YouTube等の媒体はゴマンとあります。

これまでに取り上げたような調教や血統、馬体を見て予想している人もいますが

1番多いのは、ある特定の条件でのデータを検証していることではないでしょうか？

今回取り上げるデータは

・勝率（連対率、複勝率）、回収率

・過去の好走、凡走時のデータ

・ラップタイム分析

です。

一つずつ使い方、注意点を考えます。

・勝率、回収率の意味を考える

まずは基本となる勝率（連対率、複勝率）、回収率を考えます。

※以後、勝率とだけ書きますが、

連対率（2着以内率）と複勝率（3着以内率）を含みます。

先にポイントをまとめておきます。

① 勝率とは馬の強さが関係ない数値。

② 回収率は馬の強さによって大きく変わる数値。

③ 勝率と回収率には落とし穴が潜んでいる可能性がある。

① 勝率とは馬の強さが関係ない数値。

よく「このコース（レース）は内枠の勝率または回収率が高い傾向」

なんて言葉を聞きますよね。

当たり前のことを言いますが、勝率と回収率は違う性質を持つデータです。

勝率とは文字通り、勝つ確率です。

単勝1倍台の圧倒的な人気馬が勝っても、

単勝万馬券の超穴馬が勝っても、1勝にカウントされます。

勝率には馬の強さを考える要素がないことを頭に入れておきましょう。

② 回収率は馬の強さによって大きく変わる数値。

一方で、単勝（複勝）回収率というのは、

その枠順の馬の単勝（複勝）を100円買い続けた時に、

いくら返ってきているかという数値です。

単勝1.1倍の馬が勝っても、110円しか返ってきませんが

単勝100倍の馬が勝った際には10,000円も返ってきます。

回収率には馬の強さが大きく寄与することがわかります。

③ 勝率と回収率には落とし穴が潜んでいる可能性がある。

ここで極端な例を考えます。

100レースのうち、例えば1枠で単勝1.1倍の馬だけ、

2枠で単勝100倍の馬だけが走ったとします。

そのうち、1枠の馬は強いので50回勝ちました。返ってくるのは5,500円になります。

しかしたまたま2枠の馬が1回だけ勝ちました。返ってきたのは10,000円です。

1枠が50勝して、2枠が1勝しかしていなくても、

2枠の方が回収率が高くなります。

これを持って2枠が1枠より回収率が高いから狙い目だとなるでしょうか？

いえ、勝率は1枠が50％もあります。対して2枠の勝率はたった1％です。

だったら、2枠より1枠は有利なのでしょうか？

いえ、人気馬が1枠に偏ってしまっていますので、

強い馬が勝ちやすいのは当然です。

1枠が有利とは一概には言えません。

これは極端な例ですが、

数字の落とし穴は常に潜んでいる可能性があることを

頭に入れておきましょう。

例えば◯◯産駒や◯◯騎手の東京競馬場での

勝率は30％！回収率は200％！

なんてよく耳にしますよね？

ここに隠れやすい落とし穴は

・そもそもその産駒、騎手は競馬場に関係なく成績が良い。

・データの数が少ないのでたまたま高い数値。

・大穴の馬がたまたま1頭走っただけで数値を引き上げている。

　→マイナー産駒やリーディング下位騎手にありがち

といったところでしょうか？

これを理解した上で使うべきです。

では、落とし穴を回避するにはどうしたらいいでしょうか？

それはデータの数（分母）の増加が重要です。

データの数が増えると、データの偏りが少なくなるため、

増えれば増えるほど精度が高くなります。

数を増やすには、レース数は限られていますので、

過去のレースを何年も遡る必要があります。

しかし、そこにも別の落とし穴が待っています。

それは次項で記します。

・過去データは理由付けが重要

次に過去の好走・凡走データについて考えます。

先にポイントを記します。

① データ使用は主観や願望を排除するという長所がある。

② そのデータに合理的理由はあるか？

③ 過去にとらわれていては時代に取り残される。

① データ使用は主観や願望を排除するという長所がある。

データを用いて買う馬、買わない馬を選択していくのは、

主観や願望を排除するという長所があります。

どうしても思い入れのある馬はよく見えがちです。

それを買うのが競馬の楽しさでもありますが、客観的な評価が欲しいですよね？

そこで役立つのがデータです。

しかし、データの意味を理解しないと使い方を誤ります。

② そのデータに合理的理由はあるか？

よく重賞の過去データ分析において

・前走◯◯クラスで△着以下（もしくは◯秒以上負け）は0-0-0-21

・前走◯番人気以下だった馬は0-0-1-15

・前走馬体重が◯◯◯kg以下（以上）だった馬は0-1-0-28

・当日馬体重が◯◯kg増（減）だった馬は0-0-0-12

・前走4コーナーで◯番手より後ろだった馬は0-0-0-16

・前走の枠順が◯番より内側の馬は0-0-2-23

などといったデータを用いて、消去法で絞り込んでいく分析があります。

全てを否定するわけではありませんが、

使い方によってはただの数字遊びになります。

最も重要なのは、なぜそのデータになっているか理由を考えることです。

例えば前走のクラス別成績。

下のクラスで着順が悪かったということは、

実力が足りていないということの証明になっているのかもしれません。

しかし、◯着以下というようにボーダーを設けることが正しいのかわかりません。

例えば前走G3で6着以下はデータ的に厳しいという話なら、

5着はセーフで6着がアウトである合理的な理由はありません。

ただ単に今まで前走G3で6着以下の馬が馬券に絡まなかっただけです。

そもそも着順や着差というのは相手関係に大きく左右されます。

強い馬がたくさん出ていたら着順は悪くなりますし、

強い馬がぶっちぎると、着差もつきます。

また、出遅れや不利によって着順・着差も変わります。

要は1個のデータに該当していたからといって、

その馬を消しとするのはどうなのかな？と思っています。

上記で書いたように合理的な理由はないのですから、

盲目的に信じていいデータではないと思っています。

それなら一見すると根拠が足りなそうな

馬体重の話とか、前走の位置取りの話、前走の枠順の話の方が

案外合理的な理由があるものです。

③ 過去にとらわれていては時代に取り残される。

ネガティブデータなんて調べようによってはたくさん出てくるものです。

#2でも書きましたが昨年までの皐月賞はハーツクライ産駒は0−0−0−9でした。

これを盲目的に信じてハーツクライ産駒を切ると失敗でした。

データの数が少ないものや理由を考えないと痛い目を見ます。

競馬はどんどん変化・進歩していくものです。

馬にしてもスタッフにしても競馬場（馬場）にしてもです。

過去にとらわれていては時代に取り残されてしまいます。

流行に敏感になることも大事です。

勝率、回収率のところでは、

サンプル数を増やすために過去を遡ると書きましたが、

過去のデータが未来に役立つとは一概には言えないのです。

G1レースに臨むローテーションを見るとそうですよね。

最近のG1は過去になかったローテーションで勝利する例が続出しています。

また皐月賞を例に出しますが、

以前は3歳の初戦でぶっつけ本番で挑むと勝てないのがセオリーでした。

2017年の皐月賞、後のダービー馬レイデオロは、

ホープフルS（当時はG2）1着からのぶっつけ本番で臨みましたが5着でした。

しかし、2019年はサートゥルナーリアが同じローテで1着。

2020年も同様のローテでコントレイルが1着、

2着も朝日杯FSからのぶっつけのサリオスでした。

馬場状態も変わっていますよね。

昔はどの競馬場でも最終週ともなれば、

内側が荒れて外枠が断然有利になりましたが、

（夏の新潟や福島はまだその傾向）

今は仮柵によるコース変更も必要ないのでは？と思わせるほど

馬場造園の技術が向上してきています。

変化に対応していくことも競馬予想に求められていると感じます。

・ラップタイムは平均化してはいけない

最近、レース全体や出走メンバー個別のラップタイムを分析し、

そのラップタイムに合う馬を評価していく手法をよく見かけます。

これについても考えます。

先にポイントを記しておくと

① ラップタイム分析は有用性が高い。

② データの平均化はNG

③ 逃げ馬がどの馬かを考え、それに合わせてデータを使う。

① ラップタイム分析は有用性が高い。

ラップタイム分析は非常に有用な手法だと考えています。

条件が合わない危険な人気馬を探すのにも、穴馬を探すのにも向いています。

能力の高い馬と一言で言っても、発揮できる条件は違います。

好走時、凡走時のラップタイムを見ると、

前半スローがいいのか、速い流れがいいのか、

上がりはかかった方がいいのか、速い上がりがいいのか、

といった情報にとどまらず、

坂の得意不得意や、距離短縮or延長の適性を見ることにも優れています。

実際のレースで走った情報というのは非常に有益な情報と思います。

普段から私もかなり参考にしています。

② データの平均化はNG

しかし、分析手法を誤ると意味のないデータになってしまいます。

重賞レースの分析でよく、過去数年分のレースのラップタイムをプロットして、

平均化してペースを予測しているものが見られがちです。

なぜ平均化してしまうのかが全くわかりません。

たしかにラップタイムを決めるファクターの一つに、

コース形状が関係している側面はあります。

しかし、ラップタイムはその時の出走メンバーに左右されます。

たとえ過去5年その重賞がずっとスローペースだったとしても、

テンの速い強力な逃げ馬がメンバーにいたら流れます。

何でも平均化してしまう方の分析だと、

ハイペースだった年のラップタイムと

スローペースだった年のラップタイムを平均化して

前半も後半もミドルペースという、

訳のわからない分析になっていることもありました。

③ 逃げ馬がどの馬かを考え、それに合わせてデータを使う。

ラップタイムを使用するなら、

そのレースメンバーと枠順を見て、どの馬が逃げるのか考え、

そして、逃げ馬がどのようなラップを刻むのか考え、

そのペースに合う馬を探していくというのが当然の方法と思います。

全体のラップタイムの大部分を決めるのは逃げ馬です。

逃げ馬のペースに合わせて考えるのが合理的です。

どの馬が逃げるのか？に関しては、枠順とテンの速さに依存しますが、

思惑が知りたければ調教を見るといいです。

#2でも書きましたが、坂路を単走で速いタイムを出している場合は

逃げしか考えていないと思いますし、

調教で併せ馬をしている馬は、逃れなかったことを考えていると思います。

（もちろん結果的に逃げるということもあり得ますが）

次エントリーでこれまでのまとめをサラッと書きます。

RM_horseの競馬コラム

競馬についてあれこれ書きます。

競馬予想の方法を考える【#3 データの落とし穴】

・勝率、回収率の意味を考える

・過去データは理由付けが重要

・ラップタイムは平均化してはいけない