
NPB選手の打撃と年俸のデータから得られる年俸予測モデルと球団戦略
1.はじめに
データサイエンスの世界は、今やスポーツ界にも広く浸透しています。プロ野球も例外ではなく、データを基にした戦略やトレーニング手法が日々考案されています。プロ野球は、個人個人の働きが比較的簡単に数字で表されるスポーツであり、その分選手たちにとってはシビアな世界かもしれませんが、データサイエンスの立場からすると、非常に分析しがいのあるスポーツです。
本記事では、公開されているプロ野球選手(以下「NPB選手」)の打者成績と年俸データを用いて、
選手の年俸はどのように予測できるのか?
成績の割に年俸が安い”過小評価選手”はだれか?
選手を4つのタイプに分類してみた
データから見えてくる各球団のチーム編成戦略はどういったものか?
の4つのトピックについて統計的に分析した結果をご紹介します。
2.手法
本分析では、直近5年間の規定打席到達者を対象に、延べ230人の打撃成績と年俸を独自にまとめた表データをデータセットとして用いました。
打撃成績は、「打率」「本塁打」「三振」などの合計9つの指標を分析対象としました。
3.選手の年俸はどのように予測できるのか?
まずは、選手の年俸を決定づける指標は何であるのかを見てみましょう。前年の年俸が大きく関係するのでしょうか?もしくは特定の打撃成績が強く影響しているのでしょうか?はたまた、年齢や所属チームによってあらかた決定されてしまうのでしょうか?線形回帰、Lasso回帰などの6つの回帰モデルを適用し、それぞれの結果を比較しながら分析した結果、
選手の年俸は、「前年の年俸」をベースとして、
「打点」「打率」といった打撃成績による加点・減点方式で決まる
という直感的に非常に理解しやすい分析結果が得られました。所属チームやその順位、年齢などは年俸の計算にはさほど影響を与えず、純粋に打撃成績で評価されるフェアな構造になっていることもわかりました。
このグラフは、それぞれの要因がどれだけ年俸に影響を与えているかを可視化したグラフです。「当年の年俸」が翌年の年俸に絶大な影響を与えており、「打点」や「打率」がそこにアクセントを加えている様子が見て取れます。
4.”過小評価選手””過大評価選手”は誰だ?
前述の6つの回帰モデルのうち最も高精度に年俸を予測できた「線形回帰モデル」を用いて、全230人の選手の「翌年の予測年俸額」を計算しました。そしてそれぞれの選手について、下の式で定義した「年俸比」を算出しました。
年俸比 = 翌年の実際の年俸額 / 翌年の予測年俸額
年俸比の値が1より小さいと、打撃成績から予測される年俸より実際の年俸のほうが安い選手(=過小評価選手)であり、 反対に年俸比の値が1より大きいと、予測より実際の年俸が高い選手(= 過大評価選手)であることを示します。
過小評価選手と過大評価選手それぞれ10人ずつランキングで表してみると、下表のようになりました。(単位:万円)(敬称略)
この表から、主に2つの発見をすることができます。
1つ目は、2022 年以前は過小評価される傾向にあり、2022年以降は過大評価される傾向にあるということです。実際に年度別の年俸比の平均を計算すると、年度を経るごとに年俸比の平均は増加しており、各球団の羽振りが良くなっている様子がうかがえます。
2つ目の発見は、過大評価選手には「守備の名手」が多い傾向にあることです。NPBには「三井ゴールデン・グラブ賞」という、シーズンを通してそれぞれのポジションで最も守備力に卓越した選手を表彰する賞があります。過小評価選手のうち三井ゴールデン・グラブ賞を受賞した選手は「2021 甲斐拓也」のみであった一方で、過大評価選手で受賞したのは、「2022源田壮亮」「2022岡林勇希」「2024源田壮亮」「2020鈴木大地」「2022長岡秀樹」の延べ5選手でした。従って、守備力の高い選手は、打撃成績にプラスして更なる評価をされていると言えるでしょう。
5.選手を4つのタイプに分類してみた
一旦年俸からは離れて、選手の打撃成績そのものに注目したいと思います。230人の選手の中には、長打が多いスラッガータイプの選手や、盗塁の多いスピードタイプの選手、打率や出塁率を残すアベレージタイプの選手など、様々なタイプが存在します。そこで、k-Means法を用いて、打撃成績が似ている選手同士を集めて4つのタイプに分類しました。その4つのタイプとそれぞれの打撃成績をまとめた表が下の表です。オレンジにハイライトした箇所は、4つのタイプの中で最も打撃成績が良いことを表します。
(1) レギュラータイプ
菊池 涼介、紅林 弘太郎、吉川 尚輝、中村 晃をはじめとする、リーグの大多数を占める攻守に安定した選手が属するタイプです。突出した指標はなく、一般的なレギュラー選手層と考えられます。今回のデータセットのうち 47%の選手がこのレギュラータイプでした。
(2) スラッガータイプ
岡本 和真、村上 宗隆、佐藤 輝明、浅村 栄斗をはじめとする、OPS、本塁打、打点が突出しており、チームの得点源となるパワーヒッターが属するタイプです。四球も多いですが三振も非常に多く、強振する典型的なパワーヒッターです。
(3) スピードタイプ
近本 光司、小深田 大翔、中野 拓夢、西川 遥輝をはじめとする、盗塁数が多く、機動力を武器にチャンスを作り出す選手が属するタイプです。一方で本塁打数や打点は最も少なく、リードオフマンとして出塁することでチームに貢献している選手と考えられます。
(4) 万能型エリートタイプ
宮﨑 敏郎、牧 秀悟、近藤 健介、坂本 勇人をはじめとする、高い打率と OPS を両立しながら三振が少ない、非常に完成度の高い選手が属するタイプです。レギュラータイプの「上位互換」とも言えるでしょう。万能型エリートタイプは日本代表に選ばれやすく、特に名前の挙げた4選手は、複数年にわたり「万能型エリート」たる成績を残しているNPBトップクラスのスター選手です。
6.データから見えてくる各球団のチーム編成戦略はどういったものか?
最後に、今まで登場してきた「年俸比」や「選手タイプ」のデータをフル活用して、球団ごとにどのような特徴があるのか、どのような戦略でチームを編成しているのかを明らかにしていきたいと思います。
6.1 「年俸比」から見る各球団の投資戦略
まずは、「年俸比」を用いて、どのチームが「効率的な投資」をしているか、そしてそれがどれほど順位に結び付いているかを明らかにしたいと思います。各チームの年俸比の平均と、過去 5 年の各チームの平均順位の関係を散布図に表したものが以下の図です。
(1) 阪神、ソフトバンク、巨人
これらのチームは図の左上に位置しており、順位が高く年俸比が 1.0 を下回っています。これは、強い上に契約上手という、最も効率的な投資が行えているチームであることを意味しています。特に巨人は、金満球団のイメージと反して平均年俸比が 0.92であり、12 球団で最も低い数字でした。これは、チーム成績の割に年俸をかなり抑えられていることを意味していて、データ上は「最も契約上手な球団」と言えるでしょう。
(2) オリックス、ロッテ
これらのチームは図の右上に位置し、順位が高く年俸比が 1.0 を超えているチームです。強く、かつ投資に積極的であるという姿勢から、勝利のために成績以上のプレミアムを年俸として払うという戦略を持っている可能性が示唆されます。モデルでは測れない守備などの貢献度にもしっかりと対価を払う「投資家」タイプの戦略を持つチームだとも言えます。
(3) 楽天、DeNA、広島
これらのチームは図の中央付近に位置し、順位が中程度で年俸比は 1.0 前後であるチームです。チームとしてはやや弱い一方、選手に対する投資に関しては堅実であり、コストを抑えた選手運用をしている様子がうかがえます。特に楽天は年俸比が1.0を下回っており、効率的なチーム再建を進められていると考えることができます。
(4) 中日、日本ハム、ヤクルト、西武
これらのチームは図の右下に位置し、順位が低く年俸比が 1.0を超えています。弱い上にコストもかかっており、投資がうまく結果に結び付いていないチームであると言えるでしょう。特に西武に関しては、年俸比が12 球団の中で最も高いにもかかわらず順位は低い位置にあり、データ上は投資効率に大きな課題を抱えていると言えます。
6.2 「選手タイプ」から見る各球団の編成戦略
次に、年俸ではなく、5章で分類した4つの「選手タイプ」に着目し、各チームがどのようなタイプの選手を戦力としているかを分析します。チーム別の選手タイプ構成比を積み上げ棒グラフで表現したものが下の図です。チームは、過去5年の平均順位が高い(=強い)順に左から並んでいます。一番上の黄色が「万能型エリートタイプ」、緑が「スピードタイプ」、青色が「スラッガータイプ」、そして一番下の濃い紫色が「レギュラータイプ」を表しています。
(1) 阪神、西武
これらのチームは、レギュラータイプの選手の割合が比較的少なく、 残り 3 つのタイプがバランスよく揃っています。レギュラータイプの「上位互換」である万能型エリートタイプを平均並みに揃えながらも、スピードのある選手やパワーのある選手も打線に組み入れており、長打や機動力などを活かした多彩な攻撃パターンを繰り出せるチームだと言えます。
ここで、今回のデータセットに含まれる阪神の選手が25人で、西武の選手は16人であることを加味すると、阪神は、バランスの良い打線が構築できていることに加えて選手の数も揃っているために、過去5年で12球団で1番の成績を残すことができていると推察される一方、西武は、選手のタイプのバランスは良いもののその数が足りていないために、過去5年でワースト3位の成績に留まっているのだと考えることができます。
(2) ソフトバンク、巨人、ヤクルト
これらのチームは、スラッガータイプ(青色)の割合が高いチームです。長打を打てるバッターを多くそろえた打線により、長打力で試合を決められるチームであると言えます。確かにどのチームのホームランバッターも世界大会等で活躍してきていて、複数年にわたる実績がありますね。
(3) ロッテ、楽天、中日
これらのチームは、スピードタイプ(緑色)の割合が高いチームです。状況に応じて機動力や小技を使える、堅実な攻撃パターンを持つチームであることが示唆されます。一方で、万能型エリートタイプの選手が少なく、打線の核となるバッター、相手チームにとって脅威となるバッターが不足している可能性があります。
(4) DeNA
万能型エリートタイプ(黄色)の割合が突出して高いという特徴をもつDeNA。万能型エリートタイプの割合の平均が約20%なのに対してDeNAのそれは 70%であり、脅威の高さを誇っています。これは、 DeNA の規定打席到達者、すなわち DeNAというチームで多く打席に立っている選手は、トップクラスのスター選手ばかりであるということを示しています。この結果から、打撃がトップクラスの選手の”圧倒的な個人能力”で得点力を最大化し勝利を目指す、 「打撃特化型」の戦略をとっているチームであると言えます。たしかにDeNA の打撃力の高さはイメージとも一致していますね。
7.おわりに
いかがでしたでしょうか。NPB選手の打撃成績と年俸のデータから、年俸予測モデルを作ったり球団の編成戦略を覗いてみたりと、様々な分析をすることができました。プロ野球ファンの私にとってこの分析テーマは大当たりでして、単なる講義課題の域を超えた熱量で分析に取り組めた結果、データ分析初心者ながらこのようなアワードを頂くことができました。まさに「好きこそものの上手なれ」ですね。みなさんも何か課題のテーマを決めるときは、自分の好きなものをテーマにしてみてください。きっと課題が少しばかり楽しく感じられると思います。
丸山航平 2025年9月27日
アワード一覧
- スーパーデータサイエンスアワード2025年度春学期
- スーパーデータサイエンスアワード2024年度秋学期
- スーパーデータサイエンスアワード2024年度春学期
- スーパーデータサイエンスアワード2023年度秋学期
- スーパーデータサイエンスアワード2023年度春学期