ProbSpace クラファンコンペ 1st place solution

「ProbSpace Kiva／クラウドファンディングの資金調達額予測」の 1st place solutionです。

概要

BERTによりDESCRIPTION_TRANSLATEDとSECTOR_NAME、COUNTRY_CODEを用いて予測する。
SwinTransformerの転移学習による画像を用いて予測する。
上記結果をStackingしたテーブル特徴量を作成して、Lightgbm、CatBoostにより予測する。
Lightgbm、CatBoostの予測結果を複数用意してアンサンブルする。

再現のための準備

probspaceで提供されているデータをinput/へ配置する。
プロジェクトディレクトリ直下.envのPROJECT_ROOTで、このリポジトリまでのパスを指定する。

BERTによる予測

DESCRIPTION_TRANSLATEDとSECTOR_NAME、COUNTRY_CODEを用いてLOAN_AMOUNTの予測を行う。
- SECTOR_NAME、COUNTRY_CODEはEmbedding層を用いてベクトルに変換する。
それぞれの予測値をテーブルデータの入力とする。
BERTの事前学習済みモデルはroberta-baseとmicrosoft/deberta-baseの2種類使用した。
条件を変更し、計8個のモデルを作成した。
- LOAN_AMOUNTをlog変換
- 損失関数の変更
- BERTのカスタムヘッダーの変更

各モデルのnotebookまでのパス、ロスの種類などは下記テーブルを参照

パス	ロス	備考
output/roberta_features/roberta_meanpooling_huber_20220209	Huber
output/roberta_features/roberta_cls_pooling_huber_20220210	Huber
output/roberta_features/roberta_clspooling_mse_20220209	MSE
output/roberta_features/deberta_clspooling_huber_20220210	Huber
output/roberta_features/deberta_meanpooling_huber_20220211	Huber	mean poolingを想定したが、誤ってcls poolingで学習推論している。
output/roberta_features/roberta_clspooling_l1_target_log_20220211	L1 target log
output/roberta_features/roberta_clspooling_mse_target_log_20220211	MSE target log
output/roberta_features/deberta_meanpooling_l1_target_log_20220212	L1 target log	mean poolingを想定したが、誤ってcls poolingで学習推論している。

順にnotebookを実行する。

前処理
- preprocess/preprocess_v4/preprocess_v4.ipynb
各モデルの学習と推論
- output/roberta_features/deberta_clspooling_huber_20220210/deberta_clspooling_huber.ipynb
- output/roberta_features/deberta_meanpooling_huber_20220211/deberta_meanpooling_huber.ipynb
- output/roberta_features/deberta_meanpooling_l1_target_log_20220212/deberta_meanpooling_l1_target_log.ipynb
- output/roberta_features/roberta_cls_pooling_huber_20220210/roberta_cls_pooling_huber.ipynb
- output/roberta_features/roberta_clspooling_l1_target_log_20220211/roberta_clspooling_l1_target_log.ipynb
- output/roberta_features/roberta_clspooling_mse_20220209/roberta_clspooling_mse.ipynb
- output/roberta_features/roberta_clspooling_mse_target_log_20220211/roberta_clspooling_mse_target_log.ipynb
- output/roberta_features/roberta_meanpooling_huber_20220209/roberta_meanpooling_huber.ipynb

画像による予測

画像データから学習済みモデルの転移学習によるLOAN_AMOUNTの予測を行う。
それぞれの予測値をテーブルデータの入力とする。
LOAN_AMOUNTをlog変換して学習した場合と、変換していない場合の2種類のモデルを用いた。

データセットの作成

python src/image_predict/make_dataset.py -c config/image_predict/make_dataset/make_dataset001.yml

学習

python src/image_predict/trainer.py -c config/image_predict/trainer/trainer005.yaml

評価・推論

python src/image_predict/evaluator.py -c config/image_predict/evaluator/evaluator005.yaml

log変換して学習する場合

データセットの作成

python src/image_predict/make_dataset.py -c config/image_predict/make_dataset/make_dataset002.yml

学習

python src/image_predict/trainer.py -c config/image_predict/trainer/trainer006.yaml

評価・推論

python src/image_predict/evaluator.py -c config/image_predict/evaluator/evaluator006.yaml

テーブルデータの特徴量生成

TAGSやカテゴリの統計量などのテーブルデータの特徴量の作成。

TAGS、LOAN_USEに対してtf-idf、SVD

python src/table/nlp_vectorizer.py

DESCRIPTION_TRANSLATED、DESCRIPTION、LOAN_USEのカラムに基づく特徴量の生成

python src/table/sentence_feature.py

前処理などを含む上記以外の特徴量の作成

python src/table/make_features.py -c config/table/make_features/make_features012.yml

画像・BERTの予測や上記結果の結合を行い、テーブルデータの特徴量の作成

python src/table/make_table_dataset.py -c config/table/make_table_dataset/009.yml

tf-idfの特徴量を作成する。

notebook/preprocess_v1.ipynbを実行する。
tf-idf以外のことも行っていますが、最終的に私用しているのはtf-idfの部分のみです。

LightGBM及びCatBoostによる予測

最終のアンサンブルに用いたモデルの学習、推論を行う。

LightGBMは一つのファイルで学習から推論までを行っている。
CatBoostは学習と推論でスクリプトが分かれている。

cd src/
python seed_change_exec_lgbm_train.py -c ../config/table/seed_change_exec_lgbm_train/011.yml
python exec_cb_train.py -c ../config/110.yml
python exec_cb_pred.py -c ../config/110.yml
python exec_cb_train.py -c ../config/325.yml
python exec_cb_pred.py -c ../config/325.yml

アンサンブル

Lightgbm、CatBoostの予測結果をアンサンブル（平均）する。
予測値は25-10000で離散化する。
output/ensemble/{now datetime}/に予測結果を出力する。
アンサンブルするモデルはスクリプト内のconfigで指定しているが、Lightgbm及びCatboostの予測結果ファイル名には実行時刻が含まれるため、再現のためには変更する必要がある。

python src/ensemble.py

参考にしたコード

一部のコードは下記を参考に作成しました。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ProbSpace クラファンコンペ 1st place solution

概要

再現のための準備

BERTによる予測

画像による予測

log変換して学習する場合

テーブルデータの特徴量生成

LightGBM及びCatBoostによる予測

アンサンブル

参考にしたコード

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
config		config
input		input
notebook		notebook
output		output
preprocess		preprocess
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

License

mina-moto/probspace_kiva_public

Folders and files

Latest commit

History

Repository files navigation

ProbSpace クラファンコンペ 1st place solution

概要

再現のための準備

BERTによる予測

画像による予測

log変換して学習する場合

テーブルデータの特徴量生成

LightGBM及びCatBoostによる予測

アンサンブル

参考にしたコード

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages