并行化 Hawk支持单机并行化,也就是使用多线程获取数据.它可以控制目前所有任务的数量,为了不给网站造成过大的压力,仅当任务池中的任务数量小于一定值后,才会插入新的任务. 你可以在数据清洗的 执行面板中,选择串行和并行模式: 在调试模式下,所有获取都是串行的.而执行模式下,执行器才会执行.为了更好地理解并行化,强烈建议阅读下面的内容. 最简单的并行化 我们以抓取某个网站的100个页面为例,第一个模块生成区间数,可以生成1-100的页面,自然地,就可以创建100个任务,分别抓取了. Hawk在默认…