首先不得不承认自己做了标题党.本文实质是分析500lines or less的crawlproject,这个project的地址是https://github.com/aosabook/500lines,有兴趣的同学能够看看.是一个非常高质量的开源project集合,据说要写一本书,只是看着代码提交记录.这本书面世时间应该不会非常快.这篇文章写得非常渣,错误一定要提啊.. . 网络爬虫从一个或若干初始网页的URL開始.获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入…