Yandex-Projects

Проекты, выполненные в рамках обучения по специальности Data Scientist Plus.

Выпускной проект

Название проекта	Описание	Стек
Прогнозирование электроэнергии при плавке стали (Задача регрессии)	Чтобы оптимизировать производственные расходы, металлургический комбинат ООО «Так закаляем сталь» решил уменьшить потребление электроэнергии на этапе обработки стали. Необходимо построить модель, которая предскажет температуру стали.	Jupyter Notebook, Python, pandas, numpy, sklearn, math, random, matplotlib, seaborn sqlalchemy, GridSearchCV, RandomizedSearchCV, Pipeline, DummyRegressor, Lasso, Ridge, RandomForestRegressor, LGBMRegressor, Pytorch, skorch.NeuralNetRegressor

Временные ряды

Название проекта	Описание	Стек
Прогнозирование заказов такси (Задача регрессии)	Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Необходимо построить модель для такого предсказания.	Jupyter Notebook, Python, os, pandas, numpy, sklearn, statsmodels, Prophet, TimeSeriesSplit, Pipeline, GridSearchCV, TransformerMixin, XGBRegressor, LGBMRegressor, CatBoostRegressor

CV

Название проекта	Описание	Стек
Определение возраста покупателей по фото (Задача регрессии)	Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей.	Jupyter Notebook, Python, pandas, numpy, seaborn, PIL, Tensorflow, ImageDataGenerator, ResNet50

NLP

Название проекта	Описание	Стек
Классификация комментариев интернет-магазина (Задача классификации)	Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию.	Jupyter Notebook, Python, os, pandas, numpy, sklearn, re, tqdm, seaborn, wordcloud, nltk, LGBMClassifier, LogisticRegression, SGDClassifier, Pipeline, GridSearchCV, confusion_matrix, ConfusionMatrixDisplay, classification_report

Нейронные сети

Название проекта	Описание	Стек
Прогнозирование температуры звезд (Задача регрессии)	Задача от обсерватории «Небо на ладони»: придумать, как с помощью нейросети определять температуру на поверхности обнаруженных звёзд по известным признакам.	Jupyter Notebook, Python, os, pandas, numpy, seaborn, sklearn, Pytorch, Skorch, PCA

Классическое машинное обучение

Название проекта	Описание	Стек
Оценка риска ДТП (Задача классификации)	Нужно создать систему для каршеринговой компании, которая могла бы оценить риск ДТП по совокупности факторов. Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска. Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту.	Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, sqlalchemy, Shap, Pipeline, Preprocessing, LogisticRegression, RandomForestClassifier, XGBClassifier, CatBoostClassifier, LGBMClassifier
Предсказание стоимости автомобилей (Задача регрессии)	Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. Необходимо построить модель для предсказания стоимости авто.	Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, Pipeline, TransformerMixin, DecisionTreeRegressor, RandomForestRegressor, XGBRegressor, LGBMRegressor, CatBoostRegressor
Защита персональных данных клиентов (Задача регрессии)	Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы.	Jupyter Notebook, Python, pandas, numpy, seaborn, sklearn, Pipeline, Preprocessing, PolynomialFeatures, LinearRegression, Lightgbm
Предсказание стоимости жилья в Калифорнии (Задача регрессии)	В проекте необходимо обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году используя фреймворк Spark для распределённых вычислений.	Jupyter Notebook, Python, pandas, numpy, seaborn, Pyspark, Pipeline, StringIndexer, VectorAssembler, StandardScaler, LinearRegression, RegressionEvaluator, ParamGridBuilder, CrossValidator
Прогнозирование оттока клиентов в сети отелей (Задача классификации)	Заказчик исследования — сеть отелей «Как в гостях». Чтобы привлечь клиентов, сеть отелей добавила на свой сайт возможность забронировать номер без предоплаты. Однако если клиент отменяет бронирование, то компания терпит убытки. Чтобы решить эту проблему, нам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет, что бронь будет отменена, то клиенту предлагается внести депозит.	Jupyter Notebook, Python, pandas, numpy, seaborn, plotly, eli5, Preprocessing, GridSearchCV, Pipeline, DecisionTreeClassifier RandomForestClassifier, LogisticRegression, XGBClassifier
Выбор локации для скважины (Задача регрессии)	Мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину.	Jupyter Notebook, Python, pandas, numpy, seaborn, scipy, LinearRegression
Отток клиентов (Задача классификации)	Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет.	Jupyter Notebook, Python, pandas, numpy, seaborn, scipy, Preprocessing, SMOTE, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression
Рекомендация тарифов (Задача классификации)	Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра».	Jupyter Notebook, Python, pandas, numpy, seaborn, GridSearchCV, DecisionTreeClassifier, RandomForestClassifier, LogisticRegression, KNeighborsClassifier

Исследовательский анализ данных (EDA)

Название проекта	Описание	Стек
Исследование объявлений о продаже квартир	В нашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктов за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. Ваша задача — установить параметры. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность. По каждой квартире на продажу доступны два вида данных. Первые вписаны пользователем, вторые — получены автоматически на основе картографических данных. Например, расстояние до центра, аэропорта, ближайшего парка и водоёма..	Jupyter Notebook, Python, pandas, numpy, matplotlib
Исследование данных о российском кинопрокате	Заказчик этого исследования — Министерство культуры Российской Федерации. Необходимо изучить рынок российского кинопроката и выявить текущие тренды. Так же будет уделено внимание фильмам, которые получили государственную поддержку. Насколько такие фильмы интересны зрителю. Для исследования будут использованы данные, опубликованные на портале открытых данных Министерства культуры. Набор данных содержит информацию о прокатных удостоверениях, сборах и государственной поддержке фильмов, а также информацию с сайта КиноПоиск.	Jupyter Notebook, Python, pandas, numpy, matplotlib, seaborn
Статистический анализ тарифов оператора сотовой сети	«Мегалайн» — федеральный оператор сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег. Необходимо сделать предварительный анализ тарифов на небольшой выборке клиентов.	Jupyter Notebook, Python, pandas, numpy, matplotlib, seaborn, scipy.stats,
Когортный анализ посещаемости сайта stackoverflow	В этой части проекта нам нужно написать несколько SQL-запросов в Jupyter Notebook и провести исследования (включая когортный анализ) посещаемости сайта stackoverflow.	Jupyter Notebook, Python, pandas, matplotlib, seaborn, plotly, sqlalchemy

Name		Name	Last commit message	Last commit date
Latest commit History 110 Commits
CV/cv_project_1		CV/cv_project_1
analytics_eda		analytics_eda
final_project		final_project
machine_learning		machine_learning
neural_networks		neural_networks
nlp_project		nlp_project
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Yandex-Projects

Выпускной проект

Временные ряды

CV

NLP

Нейронные сети

Классическое машинное обучение

Исследовательский анализ данных (EDA)

About

Releases

Packages

Languages

Vanarty/Yandex-Projects

Folders and files

Latest commit

History

Repository files navigation

Yandex-Projects

Выпускной проект

Временные ряды

CV

NLP

Нейронные сети

Классическое машинное обучение

Исследовательский анализ данных (EDA)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages