爬虫部分书接上回,我们讲到,要用elasticsearch来存储信息,那么我们首先就得安装elasticsearch。这里就不介绍了,默认已经装好elasticsearch,那我们就正式开始写爬虫了。1. Scrapy创建爬虫项目(baidunewsspider) C:\Users\LiTangMM\PycharmProjects>scrapy startproject baiduNe...
爬虫部分新闻链接爬取(2)书接上回,我们获取到了使用动态加载技术加载的新闻链接,但是,有些不是动态加载的新闻链接,我们还没有处理。我们将doc类型文档拷贝下来,放入HBuilder X编辑器中,然后打开内置浏览器,打开开发者工具。这里不直接使用chrome定位元素,因为chrome看到的html实际上不是我们这个请求获取到的代码。我们定位到了一个 div 它子元素 是一个 div 和5个无序...
爬虫部分首先,我们得爬取百度新闻的信息。爬虫分为两部分:获取新闻链接通过链接爬取新闻信息新闻链接爬取(1)1.获取新闻链接1.1 分析请求打开chrome浏览器,输入百度新闻链接,按F12打开开发者工具,依次点击Network->Doc,再刷新一次网页,效果如下:我们看到了所有返回doc的请求。接着,我们点击Preview选项卡:通过预览,我们可以看到这个请求热点要闻、热搜新闻词和百家...