本爬虫用于爬取全国各个城市的迁入迁出数据,以及某各个省份的人数占该城市迁入或迁出人数百分比。也就是百度迁徙页面中的这个部分:
使用的库:
- datetime
- json
- scrapy
- urllib
注意:为了该项目能够在你的计算机中运行,请先安装以上库。
在当前项目中已经爬取了2020.1.1至1.2日的每个城市的迁入迁出数据;但是省份所占百分比只爬取了一个城市1.1日的数据。
- 首先克隆或下载该项目至你的本地
- 安装python3.6或以上版本的python,并安装上述的库,使用
pip install datetime json scrapy urlib
安装 - 安装完成后进入到该项目的目录中
cd baidu_qx
(注意是该项目根目录,不是里面有spiders目录的baidu_qx) - 执行
scrapy crawl city_rank -o city_rank.csv
爬取所有城市的迁徙数据 - 执行
scrapy crawl provincerank -o province_rank.csv
爬取每个城市的迁徙人数的省份百分比数。
注意:可以在baidu_qx/baidu_qx/spiders/city_rank
以及baidu_qx/baidu_qx/spiders/provincerank
下修改你想要爬取的日期端。默认为 2020.1.1–2020.2.10.
city_rank表的字段说明:
city_name | 当前爬取的城市 |
---|---|
date | 哪一天的迁徙数据 |
inOrOUt_city | 表示人来自或进入那个城市 |
inOrout | 迁入(move_in)或迁出(move_out) |
inOrout_city_province_name | inOrOUt_city所在的省份 |
value | 值 |
provincerank表的字段说明:
city_name | 爬取的城市 |
---|---|
date | 日期 |
inOrout | 迁入(move_in)或迁出(move_out) |
province_name | 省份 |
value | 值 |