Jリーグ公式サイトから各チームの選手一覧とシーズン成績をスクレイピング
例えば川崎フロンターレのページを例に出すと、
まず、選手名鑑のタブにあるテーブル情報を取得してcsvにします。
その後、各選手の行をクリックした先にある選手ページのシーズン成績のテーブルも取得し、csvにします。ファイル名は選手名_背番号.csvの形式です。
- Python
- pip
- ChromeDriver
seleniumも使っているのでChromeDriverが必要になります。 こちらから適当なバージョンのドライバーをインストールしてそのパスをconfig.ymlに記述してください。デフォルトはルートディレクトリ直下になっています。
driver_path: ./chromedriver
$ pip install -r requirements.txt
$ python gen_table.py ${出力先フォルダ} ${チームURL}
チームURLはhttps://www.jleague.jp/club/***
の形式です。この辺のページからたどって取得してみてください。
例えば川崎フロンターレだとhttps://www.jleague.jp/club/kawasakif
になりますので、このように実行します。
$ python gen_table.py ./kawasaki https://www.jleague.jp/club/kawasakif