Skip to content

Проекты, выполненные в рамках обучения по специальности Data Scientist Plus

Notifications You must be signed in to change notification settings

Vanarty/Yandex-Projects

Repository files navigation

Yandex-Projects

Проекты, выполненные в рамках обучения по специальности Data Scientist Plus.

Выпускной проект

Название проекта Описание Стек
Прогнозирование электроэнергии при плавке стали (Задача регрессии) Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Необходимо построить модель, которая предскажет температуру стали. Jupyter Notebook, Python, pandas, numpy, sklearn, math, random, matplotlib, seaborn sqlalchemy, GridSearchCV, RandomizedSearchCV, Pipeline, DummyRegressor, Lasso, Ridge, RandomForestRegressor, LGBMRegressor, Pytorch, skorch.NeuralNetRegressor

Временные ряды

Название проекта Описание Стек
Прогнозирование заказов такси (Задача регрессии) Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Необходимо построить модель для такого предсказания. Jupyter Notebook, Python, os, pandas, numpy, sklearn, statsmodels, Prophet, TimeSeriesSplit, Pipeline, GridSearchCV, TransformerMixin, XGBRegressor, LGBMRegressor, CatBoostRegressor

CV

Название проекта Описание Стек
Определение возраста покупателей по фото (Задача регрессии) Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Jupyter Notebook, Python, pandas, numpy, seaborn, PIL, Tensorflow, ImageDataGenerator, ResNet50

NLP

Название проекта Описание Стек
Классификация комментариев интернет-магазина (Задача классификации) Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Jupyter Notebook, Python, os, pandas, numpy, sklearn, re, tqdm, seaborn, wordcloud, nltk, LGBMClassifier, LogisticRegression, SGDClassifier, Pipeline, GridSearchCV, confusion_matrix, ConfusionMatrixDisplay, classification_report

Нейронные сети

Название проекта Описание Стек
Прогнозирование температуры звезд (Задача регрессии) Задача от обсерватории «Небо на ладони»: придумать, как с помощью нейросети определять температуру на поверхности обнаруженных звёзд по известным признакам. Jupyter Notebook, Python, os, pandas, numpy, seaborn, sklearn, Pytorch, Skorch, PCA

Классическое машинное обучение

Название проекта Описание Стек
Оценка риска ДТП (Задача классификации) Нужно создать систему для каршеринговой компании, которая могла бы оценить риск ДТП по совокупности факторов. Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска. Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту. Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, sqlalchemy, Shap, Pipeline, Preprocessing, LogisticRegression, RandomForestClassifier, XGBClassifier, CatBoostClassifier, LGBMClassifier
Предсказание стоимости автомобилей (Задача регрессии) Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. Необходимо построить модель для предсказания стоимости авто. Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, Pipeline, TransformerMixin, DecisionTreeRegressor, RandomForestRegressor, XGBRegressor, LGBMRegressor, CatBoostRegressor
Защита персональных данных клиентов (Задача регрессии) Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы. Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, Pipeline, Preprocessing, PolynomialFeatures, LinearRegression, Lightgbm
Предсказание стоимости жилья в Калифорнии (Задача регрессии) В проекте необходимо обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году используя фреймворк Spark для распределённых вычислений. Jupyter Notebook, Python, pandas, numpy, seaborn, Pyspark, Pipeline, StringIndexer, VectorAssembler, StandardScaler, LinearRegression, RegressionEvaluator, ParamGridBuilder, CrossValidator
Прогнозирование оттока клиентов в сети отелей (Задача классификации) Заказчик исследования — сеть отелей «Как в гостях». Чтобы привлечь клиентов, сеть отелей добавила на свой сайт возможность забронировать номер без предоплаты. Однако если клиент отменяет бронирование, то компания терпит убытки. Чтобы решить эту проблему, нам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет, что бронь будет отменена, то клиенту предлагается внести депозит. Jupyter Notebook, Python, pandas, numpy, seaborn, plotly, eli5, Preprocessing, GridSearchCV, Pipeline, DecisionTreeClassifier RandomForestClassifier, LogisticRegression, XGBClassifier
Выбор локации для скважины (Задача регрессии) Мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. Jupyter Notebook, Python, pandas, numpy, seaborn, scipy, LinearRegression
Отток клиентов (Задача классификации) Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Jupyter Notebook, Python, pandas, numpy, seaborn, scipy, Preprocessing, SMOTE, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression
Рекомендация тарифов (Задача классификации) Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». Jupyter Notebook, Python, pandas, numpy, seaborn, GridSearchCV, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression, KNeighborsClassifier

Исследовательский анализ данных (EDA)

Название проекта Описание Стек
Исследование объявлений о продаже квартир В нашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность. По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма.. Jupyter Notebook, Python, pandas, numpy, matplotlib
Исследование данных о российском кинопрокате Заказчик этого исследования — Министерство культуры Российской Федерации. Необходимо изучить рынок российского кинопроката и выявить текущие тренды. Так же будет уделено внимание фильмам, которые получили государственную поддержку. Насколько такие фильмы интересны зрителю. Для исследования будут использованы данные, опубликованные на портале открытых данных Министерства культуры. Набор данных содержит информацию о прокатных удостоверениях, сборах и государственной поддержке фильмов, а также информацию с сайта КиноПоиск. Jupyter Notebook, Python, pandas, numpy, matplotlib, seaborn
Статистический анализ тарифов оператора сотовой сети «Мегалайн» — федеральный оператор сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег. Необходимо сделать предварительный анализ тарифов на небольшой выборке клиентов. Jupyter Notebook, Python, pandas, numpy, matplotlib, seaborn, scipy.stats,
Когортный анализ посещаемости сайта stackoverflow В этой части проекта нам нужно написать несколько SQL-запросов в Jupyter Notebook и провести исследования (включая когортный анализ) посещаемости сайта stackoverflow. Jupyter Notebook, Python, pandas, matplotlib, seaborn, plotly, sqlalchemy

About

Проекты, выполненные в рамках обучения по специальности Data Scientist Plus

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published