- Окунев Даниил
- Зорин Константин
- Кочян Лев
- Югай Александр
- Минина Полина
1 место Предсказание оттока клиентов.
- Best Public score: 0.77508
- Best Private score: 0.77203
Проект состоит из следующих основных частей:
- analytics - модуль аналитики данных.
- feature_extraction_1 - модуль для извлечения признаков (часть 1).
- feature_extraction_2 - модуль для извлечения признаков (часть 2).
- main - составление и обучение пайплайна
Провели анализ данных. Отобрали признаки по корреляции 95%, выделили категориальные признаки. На основе этих признаков построили модель catboost и отобрали топ90 признаков по важности. Нагенерировали новые фичи, такие как синусы, логирифмы, полиноминальные признаки и произвели повторный отбор. Отбор проводили по feature importance и permutation importance: сначала убрали признаки с нулевой важностью, для отбора финальных признаков использовали forward selection.
Попробовали Логистическую регрессию, MLP, catboost, xgboost, lightgbm, fttransformer. Лучше всего себя показал пайплайн из Autolnt + DenseNet (LigthAutoML) + bagging catboost (x3).