Loading...
# 爬虫部分 书接上回,我们讲到,要用elasticsearch来存储信息,那么我们首先就得安装elasticsearch。这里就不介绍了,默认已经装好elasticsearch,那我们就正式开始写爬虫了。 ## 1. Scrapy创建爬虫项目 ```shell (baidunewsspider) C:\Users\LiTangMM\PycharmProjects>scr...
# 爬虫部分 --- ## 新闻链接爬取(2) 书接上回,我们获取到了使用动态加载技术加载的新闻链接,但是,有些不是动态加载的新闻链接,我们还没有处理。我们将doc类型文档拷贝下来,放入HBuilder X编辑器中,然后打开内置浏览器,打开开发者工具。 > 这里不直接使用chrome定位元素,因为chrome看到的html实际上不是我们这个请求获取到的代码。 !...
# 爬虫部分 首先,我们得爬取百度新闻的信息。 爬虫分为两部分: 1. 获取新闻链接 2. 通过链接爬取新闻信息 ## 新闻链接爬取(1) ## 1.获取新闻链接 ### 1.1 分析请求 打开chrome浏览器,输入百度新闻链接,按F12打开开发者工具,依次点击Network->Doc,再刷新一次网页,效果如下: 该方法会在早期发现顶层的错误。 (2)早期的程序框架可以进行演示 (3)**需要开发桩模块辅**助测试。有些甚至需要多个桩模块辅助,加大了桩模块本来的错误影响。 (4)测试完一个上层模块后,挑选哪个模块作为下一个测试模块,以及测试的顺序没有唯一的界定标准。 优点:较早地...
## 考点一:OSI七层参考模型  OSI从逻辑上,把一个网络系统分为功能上相对独立的7个有序的子系统,它们由低到高分别是物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。 (1)物理层(Physical,PH)传递信息需要利用一些物理传...