- 网络数据采集技术:Java网络爬虫实战
- 钱洋等
- 332字
- 2025-02-17 21:43:45
1.4 网络爬虫的采集策略
网络爬虫的采集策略一般分为两种:深度优先搜索(Depth-First Search)策略和广度优先搜索(Breadth-First Search)策略。
深度优先搜索策略:从根节点开始,根据优先级向下遍历该根节点对应的子节点。当访问到某一子节点时,以该子节点为入口,继续向下层遍历,直到没有新的子节点可以继续访问为止。接着使用回溯法,找到没有被访问到的节点,以类似的方式进行搜索。图1.5给出了理解深度优先搜索的一个简单案例。

图1.5 深度优先搜索遍历案例
广度优先搜索策略:又称为宽度优先搜索策略,从根节点开始,沿着网络的宽度遍历每一层的节点,如果所有节点均被访问,则终止程序。图1.6给出了理解广度优先搜索的一个简单案例。基于广度优先的爬虫是最简单的采集网站信息的采集器,也是目前使用较为广泛的采集器。

图1.6 广度优先搜索遍历案例