爬虫架构 作者 Payne 发表于 2022-07-13 分类于 spider , 爬虫 本文字数: 225 阅读时长 ≈ 1 分钟 爬虫架构 技术的本质就是结构与组合。今天在谈技术架构,有时候我们也会谈产品架构,再往前走,我们会谈商业架构,它中间都是一个结构的问题。 爬虫开发流程 在聊爬虫架构的时候,非常有必要将爬虫的流程梳理清楚。毕竟万变不离其宗,对于爬虫流程的掌握可以更好的理解、设计、组合爬虫, 爬虫基本步骤如下 网络包捕获,确定URL 模拟发送网络请求,获取响应 解析响应, 获取数据 解析数据,数据持久化 分布式爬虫架构 均衡分布式 对等分布式 注意 不要过度优化、不要过度预留扩展点、不要过度设计