Проекты, выполненные в рамках обучения по специальности Data Scientist Plus.
Название проекта | Описание | Стек |
---|---|---|
Прогнозирование электроэнергии при плавке стали (Задача регрессии) | Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Необходимо построить модель, которая предскажет температуру стали. | Jupyter Notebook, Python, pandas, numpy, sklearn, math, random, matplotlib, seaborn sqlalchemy, GridSearchCV, RandomizedSearchCV, Pipeline, DummyRegressor, Lasso, Ridge, RandomForestRegressor, LGBMRegressor, Pytorch, skorch.NeuralNetRegressor |
Название проекта | Описание | Стек |
---|---|---|
Прогнозирование заказов такси (Задача регрессии) | Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Необходимо построить модель для такого предсказания. | Jupyter Notebook, Python, os, pandas, numpy, sklearn, statsmodels, Prophet, TimeSeriesSplit, Pipeline, GridSearchCV, TransformerMixin, XGBRegressor, LGBMRegressor, CatBoostRegressor |
Название проекта | Описание | Стек |
---|---|---|
Определение возраста покупателей по фото (Задача регрессии) | Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. | Jupyter Notebook, Python, pandas, numpy, seaborn, PIL, Tensorflow, ImageDataGenerator, ResNet50 |
Название проекта | Описание | Стек |
---|---|---|
Классификация комментариев интернет-магазина (Задача классификации) | Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. | Jupyter Notebook, Python, os, pandas, numpy, sklearn, re, tqdm, seaborn, wordcloud, nltk, LGBMClassifier, LogisticRegression, SGDClassifier, Pipeline, GridSearchCV, confusion_matrix, ConfusionMatrixDisplay, classification_report |
Название проекта | Описание | Стек |
---|---|---|
Прогнозирование температуры звезд (Задача регрессии) | Задача от обсерватории «Небо на ладони»: придумать, как с помощью нейросети определять температуру на поверхности обнаруженных звёзд по известным признакам. | Jupyter Notebook, Python, os, pandas, numpy, seaborn, sklearn, Pytorch, Skorch, PCA |
Название проекта | Описание | Стек |
---|---|---|
Оценка риска ДТП (Задача классификации) | Нужно создать систему для каршеринговой компании, которая могла бы оценить риск ДТП по совокупности факторов. Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска. Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту. | Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, sqlalchemy, Shap, Pipeline, Preprocessing, LogisticRegression, RandomForestClassifier, XGBClassifier, CatBoostClassifier, LGBMClassifier |
Предсказание стоимости автомобилей (Задача регрессии) | Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. Необходимо построить модель для предсказания стоимости авто. | Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, Pipeline, TransformerMixin, DecisionTreeRegressor, RandomForestRegressor, XGBRegressor, LGBMRegressor, CatBoostRegressor |
Защита персональных данных клиентов (Задача регрессии) | Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы. | Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, Pipeline, Preprocessing, PolynomialFeatures, LinearRegression, Lightgbm |
Предсказание стоимости жилья в Калифорнии (Задача регрессии) | В проекте необходимо обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году используя фреймворк Spark для распределённых вычислений. | Jupyter Notebook, Python, pandas, numpy, seaborn, Pyspark, Pipeline, StringIndexer, VectorAssembler, StandardScaler, LinearRegression, RegressionEvaluator, ParamGridBuilder, CrossValidator |
Прогнозирование оттока клиентов в сети отелей (Задача классификации) | Заказчик исследования — сеть отелей «Как в гостях». Чтобы привлечь клиентов, сеть отелей добавила на свой сайт возможность забронировать номер без предоплаты. Однако если клиент отменяет бронирование, то компания терпит убытки. Чтобы решить эту проблему, нам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет, что бронь будет отменена, то клиенту предлагается внести депозит. | Jupyter Notebook, Python, pandas, numpy, seaborn, plotly, eli5, Preprocessing, GridSearchCV, Pipeline, DecisionTreeClassifier RandomForestClassifier, LogisticRegression, XGBClassifier |
Выбор локации для скважины (Задача регрессии) | Мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. | Jupyter Notebook, Python, pandas, numpy, seaborn, scipy, LinearRegression |
Отток клиентов (Задача классификации) | Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. | Jupyter Notebook, Python, pandas, numpy, seaborn, scipy, Preprocessing, SMOTE, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression |
Рекомендация тарифов (Задача классификации) | Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». | Jupyter Notebook, Python, pandas, numpy, seaborn, GridSearchCV, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression, KNeighborsClassifier |
Название проекта | Описание | Стек |
---|---|---|
Исследование объявлений о продаже квартир | В нашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность. По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.. | Jupyter Notebook, Python, pandas, numpy, matplotlib |
Исследование данных о российском кинопрокате | Заказчик этого исследования — Министерство культуры Российской Федерации. Необходимо изучить рынок российского кинопроката и выявить текущие тренды. Так же будет уделено внимание фильмам, которые получили государственную поддержку. Насколько такие фильмы интересны зрителю. Для исследования будут использованы данные, опубликованные на портале открытых данных Министерства культуры. Набор данных содержит информацию о прокатных удостоверениях, сборах и государственной поддержке фильмов, а также информацию с сайта КиноПоиск. | Jupyter Notebook, Python, pandas, numpy, matplotlib, seaborn |
Статистический анализ тарифов оператора сотовой сети | «Мегалайн» — федеральный оператор сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег. Необходимо сделать предварительный анализ тарифов на небольшой выборке клиентов. | Jupyter Notebook, Python, pandas, numpy, matplotlib, seaborn, scipy.stats, |
Когортный анализ посещаемости сайта stackoverflow | В этой части проекта нам нужно написать несколько SQL-запросов в Jupyter Notebook и провести исследования (включая когортный анализ) посещаемости сайта stackoverflow. | Jupyter Notebook, Python, pandas, matplotlib, seaborn, plotly, sqlalchemy |