Skip to content

Asmoday/boston_crimes_shitov

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

В этом задании предлагается собрать статистику по криминогенной обстановке в разных районах Бостона. В качестве исходных данных используется датасет https://www.kaggle.com/AnalyzeBoston/crimes-in-boston С помощью Spark соберите агрегат по районам (поле district) со следующими метриками: crimes_total - общее количество преступлений в этом районе crimes_monthly - медиана числа преступлений в месяц в этом районе frequent_crime_types - три самых частых crime_type за всю историю наблюдений в этом районе, объединенных через запятую с одним пробелом “, ” , расположенных в порядке убывания частоты crime_type - первая часть NAME из таблицы offense_codes, разбитого по разделителю “-” (например, если NAME “BURGLARY - COMMERICAL - ATTEMPT”, то crime_type “BURGLARY”) lat - широта координаты района, расчитанная как среднее по всем широтам инцидентов lng - долгота координаты района, расчитанная как среднее по всем долготам инцидентов Программа должна упаковываться в uber-jar (с помощью sbt-assembly), и запускаться командой spark-submit --master local[*] --class com.example.BostonCrimesMap /path/to/jar {path/to/crime.csv} {path/to/offense_codes.csv} {path/to/output_folder} где {...} - аргументы, передаваемые пользователем. Результатом её выполнения должен быть один файл в формате .parquet в папке path/to/output_folder. Для джойна со справочником необходимо использовать broadcast.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages