如果只是从一个页面跳到另一个页面,那么网络爬虫是非常无聊的.为了有效地使 用它们,在用爬虫的时候我们需要在页面上做些事情.让我们看看如何创建一个爬虫来收 集页面标题.正文的第一个段落,以及编辑页面的链接(如果有的话)这些信息. 和往常一样,决定如何做好这些事情的第一步就是先观察网站上的一些页面,然后拟定一 个采集模式.通过观察几个维基百科页面,包括词条和非词条页面,比如隐私策略之类的 页面,就会得出下面的规则. • 所有的标题(所有页面上,不论是词条页面.编辑历史页面还是其他页面)都是在 h1…