В этом задании предлагается собрать статистику по криминогенной обстановке в разных районах Бостона. В качестве исходных данных используется датасет https://www.kaggle.com/AnalyzeBoston/crimes-in-boston С помощью Spark соберите агрегат по районам (поле district) со следующими метриками: crimes_total - общее количество преступлений в этом районе crimes_monthly - медиана числа преступлений в месяц в этом районе frequent_crime_types - три самых частых crime_type за всю историю наблюдений в этом районе, объединенных через запятую с одним пробелом “, ” , расположенных в порядке убывания частоты crime_type - первая часть NAME из таблицы offense_codes, разбитого по разделителю “-” (например, если NAME “BURGLARY - COMMERICAL - ATTEMPT”, то crime_type “BURGLARY”) lat - широта координаты района, расчитанная как среднее по всем широтам инцидентов lng - долгота координаты района, расчитанная как среднее по всем долготам инцидентов Программа должна упаковываться в uber-jar (с помощью sbt-assembly), и запускаться командой spark-submit --master local[*] --class com.example.BostonCrimesMap /path/to/jar {path/to/crime.csv} {path/to/offense_codes.csv} {path/to/output_folder} где {...} - аргументы, передаваемые пользователем. Результатом её выполнения должен быть один файл в формате .parquet в папке path/to/output_folder. Для джойна со справочником необходимо использовать broadcast.
-
Notifications
You must be signed in to change notification settings - Fork 0
Asmoday/boston_crimes_shitov
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published