В наличии были следующие данные о состоянии здоровья и привычках исследуемой группы людей:
- id - идентификатор
- age - возраст
- gender - пол
- height - рост
- weight - вес
- ap_hi - верхнее давлениее
- ap_lo - нижнее давление
- cholesterol - наличие холестерина в крови
- gluc - уровень глюкозы
- smoke -
- alco - наличие привычки курить
- active - наличие привычки злоупотреблять алкоголем
- cardio - наличие проблем с сердцем (целевой столбец)
Построить модель машинного обучения, которая по табличным данным предсказывает вероятность наличия скрытых проблем у пациентов, проходящих регулярную диспансеризацию. Для определения качества работы модели использовалась метриска ROC-AUC.
На этапе предобработки данных было выяснилось, что распределени соотношений: рост-вес, давление нижнее - давление верхнее, а также распределение возраста очень сильно отличаются от ожидаемых. В данных найдено много ошибочных записей, источники многих ошибок определены и устранены по мере возможности. На этапе построения модели проверены работы таких моделей как: **LightGBM, XGBoost, RandomForest, LogisticRegression и CatBoost. CatBoost показала наилучшие результаты и вошел в финальную версию скрипта.
Лучшие результаты: Private score - 0.80781, Public Score - 0.80565
pandas
CatBoost
XGBoost
sklearn
mathplotlib