从廖雪峰老师的python教程入门的,最近在看python爬虫,入手了一下 代码比较low,没有用到多线程和ip代理池 然后呢,由于robots.txt的限定,构建了一些user-agent,并放慢的爬虫的速度,起到一些效果,可能多次抓取才能完成所有文章~~~ 仅供一些刚入门的同学参考一下........ 用到的库及工具:(自行百度) 1.BeautifulSoup4 2.pdfkit 3.requests 4.wkhtmltopdf(需添加环境变量) 代码如下: # -*- coding:ut…