Классификация пользователей в зависимости от используемого тарифа телеком-оператора
-
Pandas, Numpy, Matplotlib, Seaborn, Tqdm, Sklearn
-
GridSearchCV
На основе данных о поведении клиентов, которые уже перешли на новые тарифы телеком-оператора требуется построить модель, которая выберет подходящий тариф для других клиентов, использующих архивные тарифные планы.
Цель: на основе данных о поведении клиентов оператора мобильной связи 'Мегалайн', уже перешедших на новые тарифы 'Smart' и 'Ultra', построить модель для классификации пользователей в зависимости от используемого ими тарифа.
Целевое ограничение: значение метрики accuracy должно быть > 0.75.
В результате проведенного исследования были выполнены следующие задачи:
-
изучен файл с данными
-
исходные данные разделены на обучающую, валидационную и тестовую выборки
-
исследовано качество разных моделей за счет изменения гиперпараметров
-
качество модели проверено на тестовой выборке
-
модель с наилучшим показателем accuracy проверена на адекватность с помощью DummyClassifier
Для выполнения проекта получены готовые данные: проводить предобработку и исследовательский анализ не требуется.
По итогам испытания на тестовой выборке лучшая модель RandomForestClassifier показала следующие результаты:
-
acuracy: 0.8087
-
precision: 0.7681
-
recall: 0.5381
-
f1_score: 0.6328