baidu_qx

百度迁徙数据爬虫

一、基本功能介绍

本爬虫用于爬取全国各个城市的迁入迁出数据，以及某各个省份的人数占该城市迁入或迁出人数百分比。也就是百度迁徙页面中的这个部分：

二、项目介绍

使用的库：

datetime
json
scrapy
urllib

注意：为了该项目能够在你的计算机中运行，请先安装以上库。

在当前项目中已经爬取了2020.1.1至1.2日的每个城市的迁入迁出数据；但是省份所占百分比只爬取了一个城市1.1日的数据。

三、使用方式

首先克隆或下载该项目至你的本地
安装python3.6或以上版本的python，并安装上述的库，使用 pip install datetime json scrapy urlib安装
安装完成后进入到该项目的目录中 cd baidu_qx (注意是该项目根目录，不是里面有spiders目录的baidu_qx）
执行 scrapy crawl city_rank -o city_rank.csv 爬取所有城市的迁徙数据
执行 scrapy crawl provincerank -o province_rank.csv 爬取每个城市的迁徙人数的省份百分比数。

注意：可以在baidu_qx/baidu_qx/spiders/city_rank以及baidu_qx/baidu_qx/spiders/provincerank下修改你想要爬取的日期端。默认为 2020.1.1–2020.2.10.

四、字段说明

city_rank表的字段说明：

city_name	当前爬取的城市
date	哪一天的迁徙数据
inOrOUt_city	表示人来自或进入那个城市
inOrout	迁入（move_in）或迁出（move_out）
inOrout_city_province_name	inOrOUt_city所在的省份
value	值

provincerank表的字段说明：

city_name	爬取的城市
date	日期
inOrout	迁入（move_in）或迁出（move_out）
province_name	省份
value	值