Skip to content

Latest commit

 

History

History
43 lines (37 loc) · 1.44 KB

README.md

File metadata and controls

43 lines (37 loc) · 1.44 KB

GSB Data Science Practice

Условия:

  • Задача: Предсказать вероятность дефолта(PD) команий
  • Данные: 32 395 объектов предоставлющие информацию о компаниях
  • Целевая метрика: Accuracy
  • Вспомогательная метрика: ROC-AUC

Видео презентация и защиты решения:

video_presentation.mov

Последовательность работы с данными:

  • Анализ данных
  • Создание признаков, основываясь на анализе предметной области
  • WOE-binning
  • Pipeline содержащий в себе:
    • SMOTE
    • StantardScaler
    • Logistic regression
  • Интерпретация модели:
    • PDP-plots
    • Benefit-curve
    • Скоринговая карта
  • Рекомендации:
    • Предложена метрика для оценивания модели после ее интеграции

Результаты:

  • Accuracy: 0.65
  • ROC-AUC: 0.69
  • ROC-curve:
    • ROC
  • Benefit-curve:
    • image

Библиотеки использованные в работе:

  • pandas
  • numpy
  • matplotlib
  • sklearn
  • scipy
  • pdpbox
  • mlxtend