Обо мне:
Ориентированный на результат инженер с опытом управления проектами и участия в продуктовой разработке.
Бэкграунд в электроэнергетике, желание перейти в область Data Science и анализа данных.
danil-muratov@yandex.ru
tg: wnttoknow
Личные проекты и ноутбуки
Название проекта | Описание | Навыки и инструменты |
---|---|---|
01. Consumption forecasting | Определение возможности применения методов ML для прогнозирования энергопотребления промышленных предприятий для участия в новой услуге управления спросом на розничном рынке электроэнергии. Исследование на примере данных одного из объектов ЕВРАЗ. Статус - в разработке | Timeseries, LightGBM, RandomForest, LinearRegression, Plotly |
Проекты, сделанные мной в рамках прохождения курса "Специалист по Data Science" Яндекс Практикум.
Название проекта | Описание | Навыки и инструменты |
---|---|---|
01. Предсказание температуры стали (дипломный проект) | Построил модель, решающую задачу регрессии и предсказывающей итоговую температуру стали перед разливкой на слябы. Качество модели оценивал с помощью метрики MAE. Цель - уменьшение потребления электроэнергии на этапе обработки стали. | Pandas, Matplotlib, Scikit-learn, CatBoost, LightGBM, OptunaSearchCV |
02. Исследование технологического процесса очистки золота | Подготовка модели машинного обучения для промышленной компании, разрабатывающая решения для эффективной работы промышленных предприятий. Модель должна предсказать коэффициент восстановления золота из золотосодержащей руды на основе данных с параметрами добычи и очистки. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками. | Python, Pandas, Seaborn, Matplotlib, NumPy, Scikit-learn, Исследовательский анализ данных, предобработка, визуализация, кастомные метрики, кросс-валидация, подбор гиперпараметров |
03. Прогнозирование количества заказов такси на следующий час | На основе исторических данные о заказах такси в аэропортах построена модель прогнозирования колицества заказов такси на следующий час. Цель - привлекать больше водителей в период пиковой нагрузки. | Timeseries, Feature generation, LightGBM, RandomForest, Plotly |
04. Предсказание стоимости автомобиля | На основе исторических данные построена модель для определения стоимости автомобиля. Построил и сравнил несколько моделей по критериям: качество предсказания (не тестовой выборке), скорость предсказания, время обучения | Scikit-learn, CatBoost, LightGBM, OptunaSearchCV |
05. Аналитика игр | Выявление определяющих успешность игры закономерностей. Цель - сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. | Pandas, Seaborn, Scipy |
06. Анализ тарифов сотового оператора | Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей. Проведена предобработка данных, их анализ. Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов. | Pandas, Seaborn, SciPy, numpy, проверка статистических гипотез, критерий Стьюдента |
07. Классификация тональности комментариев | Обучена модель для классификации комментариев на позитивные и негативные. В вашем распоряжении набор данных с разметкой о "токсичности" правок. | NLP, TF-IDF, NLTK, BERT |
08. Определение возраста по фотографии | Система компьтерного зрения в прикассовой зоне поможет определять возраст клиентов, чтобы анализировать покупки и предлагать товары, которые могут заинтересовать покупателей этой возрастной группы, а также контролировать добросовестность кассиров при продаже алкоголя. Построена модель, которая по фотографии определит приблизительный возраст человека. В нашем распоряжении набор фотографий людей с указанием возраста. | Keras, CV |
09. Защита персональных данных клиентов страховой компании | Необходимо защитить персональные данные клиентов страховой компании. Разработать такой метод преобразования данных, чтобы по ним было тяжело восстановить исходную информацию и при этом не менялось качество линейной регрессии. | Numpy, Шифр Хилла |