一.前言上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. update on 2016-12-28:之前忘记给BeautifulSoup的官网了,今天补上,顺便再补点BeautifulSoup的用法. update on 2017-08-16:很多网友留言说Unsplash网站改版了,很多内容是动态加载的.所以建议动态加载的内容使用PhantomJS而不是Request…
直接上全部代码 新手上路代码风格可能不太好 import requests import re from fake_useragent import UserAgent #### 用来伪造爬头部信息 ua = UserAgent() kv = {'user-agent': ua.random} url = 'https://movie.douban.com/top250?start=0&filter=' index = 0 ####标记爬取图片的数量与命名 for i in range(0, 1…