データとバスケ

バスケをデータから楽しむブログです。

『Wリーグ選手名辞書』を公開しました

PCやスマホにてWリーグの選手名をより簡単に間違いなく入力する為の、いわゆるIME用の辞書を作成し公開しました。以下のgithubのリポジトリからダウンロードして利用可能です。

この辞書ですが、このブログ執筆時点でWリーグの公式ページから辿って見つかる208名の選手を対象に作成しています(おそらく2021-22シーズンのロスターだと思います。)漢字の表記などは公式ページに記載されているものをそのまま採用しています。

例えば私のWindows PCのMSIMEにユーザー辞書として選手名を登録した所、以下のような文章が一発変換できるようになりました。正直こんな文章を書くことは中々ないのですが、それでもバスケ選手の名前が一気に変換されるとちょっと感動です。

日本代表のスターティングファイブは町田瑠唯、林咲希、宮澤夕貴、オコエ桃仁花、そして渡嘉敷来夢だった。

スマホでもこんな感じでガンガン変換予測にWリーグの選手の名前がサジェストされるようになりました。バスケツイ廃のQoLもこれで爆上げしそうです。

各ファイルの説明

githubにある各ファイルの説明は以下です。各IMEへの登録方法はウェブで検索するなどして調べて頂ければと思います。ATOKやBaidu IMEなどは個人的に使ったことがないのですが、辞書のフォーマットにしろ登録方法にしろどれも似たり寄ったりだとは思います。

  • Scraper.R
  • WLeaguePlayerNameDictGenerator.Rproj

公式ページをスクレイピングして辞書データを作るためのプログラムです。もしプログラム自体をご覧になりたい方がいましたらこちらをどうぞ。

  • WLeaguePlayerNameDict_202122_CSV_UTF8_RawData.csv

辞書の元データです。自分で辞書のフォーマットに合わせて辞書データを作成したい場合にお使い頂けます。

  • WLeaguePlayerNameDict_202122_TSV_UTF16LE.txt

UTF-16LE(リトルエンディアン)でフォーマットしたタブ区切りのファイルです。品詞の情報も入っています。Windows標準IMEであるMSIMEにユーザー辞書として登録するテキストファイルとしてお使い頂けるはずです。

  • WLeaguePlayerNameDict_202122_TSV_UTF8.txt

UTF-8でフォーマットしたタブ区切りのファイルです。品詞の情報も入っています。PCやスマホで使えるGoogle日本語入力のユーザー辞書として登録するテキストファイルとしてお使い頂けるはずです。

P.S.

本当はBリーグでも同様の辞書を作りたいのですが、Bリーグは公式ページに名前の『読み』の情報がローマ字でしか公開されていないんですよね。よってローマ字から仮名に変換する処理を書く必要があり、それを書いた暁にはBリーグ選手名辞書も作りたいと思います。

追記

よくよく考えたら、ローマ字を読みに変換するのは機械的には出来ませんね。なのでBリーグさん、是非読みのデータを公開してください!