以前にも似たようなネタをやっているのですが、B1全選手を2022-23シーズンの総計スタッツを利用し、機械学習でクラスタリングを行ってみました。
利用したスタッツの項目は以下です。すべての標準化(standardization)をしてから利用しスケールを揃えています。
- 出場試合数
- スターター出場試合数
- プレイ時間
- 平均プレイ時間
- 平均得点
- 平均2点フィールドゴール成功数
- 平均2点フィールドゴール試投数
- 平均3点フィールドゴール成功数
- 平均3点フィールドゴール試投数
- 平均フリースロー成功数
- 平均フリースロー試投数
- 平均オフェンスリバウンド数
- 平均ディフェンスリバウンド数
- 平均リバウンド数
- 平均アシスト数
- 平均ターンオーバー数
- 平均スティール数
- 平均ブロックショット数
- 平均被ブロックショット数
- 平均ファウル数
- 平均被ファウル数
- +/-(プラスマイナス)
今回はいわゆる凝縮型の階層的クラスタリングを行いました。簡単に説明すると
- 選手ひとりひとりをひとつのクラスタと見做す
- 上述のスタッツ項目を使い各クラスタ間の距離を計測する
- 一番距離が近かったクラスタをひとつのクラスタと見做す
- 2に戻る
というような手法でクラスタを作っていきます。専門的な話ですが、距離はユークリッド距離を用い、クラスタの連結にはウォード連結法を使用しました。
出来上がったクラスタを、デンドログラムという樹形図で表現します。トーナメント表のようですが、繋がっている選手同士はスタッツが似ている、そしてトーナメント表の高さが低いほど似ている度が高い、という意味です。
以下、とても大きくなってしまいましたが全体像です。
いくつかの箇所をピックアップしてみます。まずは河村勇輝を見てみましょう。
これの意味するところは、河村と一番スタッツの類似度が高いのがDJ・ニュービルで、その二人に一番近いのがマイルズ・ヘゾンだということです。その下にダーラム、エバンス、ガードナー、トレイ・ジョーンズ、ファジーカス、ビュフォードなどMVPクラスの選手たちがクラスタを成していますが、これらのクラスタが河村・ニュービル・ヘゾンのクラスタに近いということです。
ちなみにもっと大きく見ても、河村は外国籍選手が織りなす大きなクラスタに唯一属する日本人選手であり、やはりスタッツの上からも別格の存在だったことが伺えます。
次にこちらを見てみましょう。
こちらではエース級の日本人選手たちがひとつのクラスターを成していました。富樫勇樹と安藤誓哉が近いというのは感覚的に納得する人も多そうな結果です。
その少し下にはこんなクラスタもありました。
サーディー・ラベナと岡田侑大、キーファー・ラベナと佐々木隆成、鵤誠司と中東泰斗、ベンドラメ礼生と寺嶋良、納得できるような、できないような、そんな組み合わせが出来上がっていて面白いです。