Skip to content

scrapy爬取C114、通信新闻、飞象网的新闻信息,按照运营、技术、云计算三个主题爬取并聚类分析

Notifications You must be signed in to change notification settings

YuleZhang/CCNews-Spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

新浪新闻挖掘分析

环境

  • Python3
  • PyCharm 2019.3.3 x64
  • scikit-learn

使用说明

本项目主要包含三个部分,即scrapy爬虫框架、reload.py聚类文本分析、UI.py聚类效果可视化。

爬虫部分

在项目目录打开控制台输入scrapy crawl spider_name,即可运行scrapy爬虫,自动采集数据集。

效果如下图所示

img

聚类分析部分

在当前目录控制台输入python reload.py,即可自动读取爬好的数据进行分析工作。这部分处理的思路是先将文章的文本分词,随后读取常用停用词表去停用词。根据处理好的此表生成词向量并计算TF-IDF值评估各个词向量,并采用Kmeans聚类分析效果(3类),每个聚类提取十个主题词效果如下图

最终采用PCA将高维数据降到两位,并保存生成的图片。

可视化词云分析词频

UI界面部分

采用TKinter库显示聚类效果以及打印部分爬取得新闻信息,效果如下图

img

About

scrapy爬取C114、通信新闻、飞象网的新闻信息,按照运营、技术、云计算三个主题爬取并聚类分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published