Skip to content

vik1109/Heart-diseases-prediction

Repository files navigation

Данные

В наличии были следующие данные о состоянии здоровья и привычках исследуемой группы людей:

  • id - идентификатор
  • age - возраст
  • gender - пол
  • height - рост
  • weight - вес
  • ap_hi - верхнее давлениее
  • ap_lo - нижнее давление
  • cholesterol - наличие холестерина в крови
  • gluc - уровень глюкозы
  • smoke -
  • alco - наличие привычки курить
  • active - наличие привычки злоупотреблять алкоголем
  • cardio - наличие проблем с сердцем (целевой столбец)

Задача

Построить модель машинного обучения, которая по табличным данным предсказывает вероятность наличия скрытых проблем у пациентов, проходящих регулярную диспансеризацию. Для определения качества работы модели использовалась метриска ROC-AUC.

Ход проекта

На этапе предобработки данных было выяснилось, что распределени соотношений: рост-вес, давление нижнее - давление верхнее, а также распределение возраста очень сильно отличаются от ожидаемых. В данных найдено много ошибочных записей, источники многих ошибок определены и устранены по мере возможности. На этапе построения модели проверены работы таких моделей как: **LightGBM, XGBoost, RandomForest, LogisticRegression и CatBoost. CatBoost показала наилучшие результаты и вошел в финальную версию скрипта.

Лучшие результаты: Private score - 0.80781, Public Score - 0.80565

Используемые библиотеки

pandas

CatBoost

XGBoost

sklearn

mathplotlib

About

Jupiter notebook for Heart diseases prediction on Kaggle

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published