1.任务需求 百度贴吧有很多主题,每个主题下的网页存在很多分页.爬取不同的主题,并下载每个主题下的多页网页. 输入贴吧名称,下载相应贴吧的多页网页,设置最多下载50页. 2.分析网页 访问不同的百度贴吧时.尝试搜索多个贴吧,观察到浏览器的url中的kw为贴吧的名称. 因此,发送get请求时,设置不同的kw可以访问不同的贴吧. 同一主题的贴吧中,有分页,通过点击不同的分页,可以看出,url中的pn规律变化 第1页 pn = 0 第2页 pn=50 第3页 pn=100 据此规律可以爬取不同页数的网…