聚焦爬虫工作原理介绍

与通用爬虫相比,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1所示。 Python技术文章2020-09-18 |程序圆 |聚焦爬虫工作原理

与通用爬虫相比,聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接,并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,如图1所示。

聚焦爬虫工作原理介绍

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

(1) 对抓取目标的描述或定义。我们需要根据爬取需求定义聚焦爬虫的爬取目标,并进行相关的描述。

(2) 对网页或数据的分析与过滤。

(3) 对URL的搜索策略。猜你喜欢:

python爬虫视频教程

Python高级程序员培训课程

Python教程

网络爬虫原理:通用爬虫如何获取页面内容?

2021-5-6 14:39:09

Python教程

常用的反反爬虫应对策略

2021-5-6 20:38:58

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
有新私信 私信列表
搜索