В данном кейсе вы попробуете себя в роли аналитика в сети отелей.
У клиентов вашей сети есть возможность отказаться от бронирования, что приводит к тому, что часть номеров пустует даже в высокий сезон. Руководство компании хотело бы внедрить практику овербукинга — возможности забронировать больше номеров, чем есть в отеле.
Но непродуманная система овербукинга может привести к тому, что постояльцев действительно будет некуда поселить. Поэтому очень важно делать качественные и точные прогнозы отказов от бронирования.
Ваша задача — разработать модель, которая будет прогнозировать вероятность отказа клиента от бронирования.
В вашем распоряжении есть данные о клиентах и их бронированиях:
- время бронирования
- продолжительность пребывания
- количество взрослых
- детей и/или младенцев
- количество доступных парковочных мест
- страна постоянного жительства гостя
- и многие другие данные.
При решении кейса вам необходимо комплексно подойти к построению модели и выполнить следующие шаги:
- Провести базовую предварительную обработку данных: заполнить пропуски, очистить данные от дубликатов, провести масштабирование.
- Выполнить продвинутую предобработку данных: сконструировать новые признаки (feature engineering) и удалить все ненужные.
- Погрузиться в специфику обрабатываемых данных: рассчитать основные описательные статистики и построить несколько визуализаций.
- Построить модель логистической регрессии, которая на вход будет получать данные, известные отелю до заселения, а на выходе давать прогноз, отменит клиент бронирование или нет. Оценить точность полученного прогноза.