我经常收到关于email爬虫的问题。有迹象表明那些想从网页上抓取联系方式的人对这个问题很感兴趣。在这篇文章里,我想演示一下如何使用python实现一个简单的邮箱爬虫。这个爬虫很简单,但从这个例子中你可以学到许多东西(尤其是当你想做一个新虫的时候)。

  我特意简化了代码,尽可能的把主要思路表达清楚。这样你就可以在需要的时候加上自己的功能。虽然很简单,但完整的实现从网上抓取email地址的功能。注意,本文的代码是使用python3写的。

  好。让我们逐步深入吧。我一点一点的实现,并加上注释。最后再把完整的代码贴出来。

  首先引入所有必要的库。在这个例子中,我们使用的BeautifulSoup 和 Requests 是第三方库,urllib, collectionsre 是内置库。

BeaufulSoup可以使检索Html文档更简便,Requests让执行web请求更容易。

from bs4 import BeautifulSoup
import requests
import requests.exceptions
from urllib.parse import urlsplit
from collections import deque
import re

  下面我定义了一个列表,用于存放要抓取的网页地址,比如http://www.huazeming.com/ ,当然你也可以找有明显email地址的网页作为地址,数量不限。虽然这个集合应该是个列表(在python中),但我选择了 deque 这个类型,因为这个更符合我们的需要。

# a queue of urls to be crawled
new_urls = deque(['http://www.themoscowtimes.com/contact_us/'])

  接下来,我们需要把处理过的url存起来,以避免重复处理。我选择set类型,因为这个集合可以保证元素值不重复。

  

# a set of urls that we have already crawled
processed_urls = set()

  定义一个email集合,用于存储收集到地址:

# a set of crawled emails
emails = set()

  让我们开始抓取吧!我们有一个循环,不断取出队列的地址进行处理,直到队列里没有地址为止。取出地址后,我们立即把这个地址加到已处理的地址列表中,以免将来忘记。

# process urls one by one until we exhaust the queue
while len(new_urls):
# move next url from the queue to the set of processed urls
url = new_urls.popleft()
processed_urls.add(url)

  然后我们需要从当前地址中提取出根地址,这样当我们从文档中找到相对地址时,我们就可以把它转换成绝对地址。

# extract base url and path to resolve relative links
parts = urlsplit(url)
base_url = "{0.scheme}://{0.netloc}".format(parts)
path = url[:url.rfind('/')+1] if '/' in parts.path else url

  下面我们从网上获取页面内容,如果遇到错误,就跳过继续处理下一个网页。

# get url's content
print("Processing %s" % url)
try:
response = requests.get(url)
except (requests.exceptions.MissingSchema, requests.exceptions.ConnectionError):
# ignore pages with errors
continue

  当我们得到网页内容后,我们找到内容里所有email地址,把其添加到列表里。我们使用正则表达式提取email地址:

# extract all email addresses and add them into the resulting set
new_emails = set(re.findall(r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+", response.text, re.I))
emails.update(new_emails)

  在我们提取完当前网页内容的email地址后,我们找到当前网页中的其他网页地址,并将其添加到带处理的地址队列里。这里我们使用BeautifulSoup库来分析网页html。

# create a beutiful soup for the html document
soup = BeautifulSoup(response.text)

  这个库的find_all方法可以根据html标签名来抽取元素。

# find and process all the anchors in the document
for anchor in soup.find_all("a"):

  但网页总的有些a标签可能不包含url地址,这个我们需要考虑到。

# extract link url from the anchor
link = anchor.attrs["href"] if "href" in anchor.attrs else ''

  如果这个地址以斜线开头,那么我们把它当做相对地址,然后给他加上必要的根地址:

# add base url to relative links
if link.startswith('/'):
link = base_url + link

  到此我们得到了一个有效地址(以http开头),如果我们的地址队列没有,而且之前也没有处理过,那我们就把这个地址加入地址队列里:

# add the new url to the queue if it's of HTTP protocol, not enqueued and not processed yet
if link.startswith('http') and not link in new_urls and not link in processed_urls:
new_urls.append(link)

  好,就是这样。以下是完整代码:

from bs4 import BeautifulSoup
import requests
import requests.exceptions
from urllib.parse import urlsplit
from collections import deque
import re # a queue of urls to be crawled
new_urls = deque(['http://www.themoscowtimes.com/contact_us/index.php']) # a set of urls that we have already crawled
processed_urls = set() # a set of crawled emails
emails = set() # process urls one by one until we exhaust the queue
while len(new_urls): # move next url from the queue to the set of processed urls
url = new_urls.popleft()
processed_urls.add(url) # extract base url to resolve relative links
parts = urlsplit(url)
base_url = "{0.scheme}://{0.netloc}".format(parts)
path = url[:url.rfind('/')+1] if '/' in parts.path else url # get url's content
print("Processing %s" % url)
try:
response = requests.get(url)
except (requests.exceptions.MissingSchema, requests.exceptions.ConnectionError):
# ignore pages with errors
continue # extract all email addresses and add them into the resulting set
new_emails = set(re.findall(r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+", response.text, re.I))
emails.update(new_emails) # create a beutiful soup for the html document
soup = BeautifulSoup(response.text) # find and process all the anchors in the document
for anchor in soup.find_all("a"):
# extract link url from the anchor
link = anchor.attrs["href"] if "href" in anchor.attrs else ''
# resolve relative links
if link.startswith('/'):
link = base_url + link
elif not link.startswith('http'):
link = path + link
# add the new url to the queue if it was not enqueued nor processed yet
if not link in new_urls and not link in processed_urls:
new_urls.append(link)

  这个爬虫比较简单,省去了一些功能(比如把邮箱地址保存到文件中),但提供了编写邮箱爬虫的一些基本原则。你可以尝试对这个程序进行改进。

  当然,如果你有任何问题和建议,欢迎指正!

  英文原文:A Simple Email Crawler in Python

实现一个简单的邮箱地址爬虫(python)的更多相关文章

  1. 用一个简单的例子来理解python高阶函数

    ============================ 用一个简单的例子来理解python高阶函数 ============================ 最近在用mailx发送邮件, 写法大致如 ...

  2. 一个简单的开源PHP爬虫框架『Phpfetcher』

    这篇文章首发在吹水小镇:http://blog.reetsee.com/archives/366 要在手机或者电脑看到更好的图片或代码欢迎到博文原地址.也欢迎到博文原地址批评指正. 转载请注明: 吹水 ...

  3. 一个简单、易用的Python命令行(terminal)进度条库

    eprogress 是一个简单.易用的基于Python3的命令行(terminal)进度条库,可以自由选择使用单行显示.多行显示进度条或转圈加载方式,也可以混合使用. 示例 单行进度条 多行进度条 圆 ...

  4. [Python Study Notes]一个简单的区块链结构(python 2.7)

    ''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''' ...

  5. 一个简单的app自动登录Python脚本案例

  6. 一个简单的go语言爬虫

    package main import ( "bufio" "fmt" "golang.org/x/net/html/charset" &q ...

  7. Python学习手册之正则表达式示例--邮箱地址提取

    在上一篇文章中,我们介绍了 Python 的捕获组和特殊匹配字符串,现在我们介绍 Python 的正则表达式使用示例.查看上一篇文章请点击:https://www.cnblogs.com/dustma ...

  8. 使用James搭建一个自己的邮箱服务器

    ---第一天开发--- 下载Apache James 3.0邮箱服务器,解压到响应的目录 可以看到目录结构: H:\code\JavaCode\James\apache-james-3.0-beta4 ...

  9. 一个简单的python爬虫,爬取知乎

    一个简单的python爬虫,爬取知乎 主要实现 爬取一个收藏夹 里 所有问题答案下的 图片 文字信息暂未收录,可自行实现,比图片更简单 具体代码里有详细注释,请自行阅读 项目源码: # -*- cod ...

随机推荐

  1. 用Python写的一个多线程机器人聊天程序

    本人是从事php开发的, 近来想通过php实现即时通讯(兼容windows).后来发现实现起来特别麻烦, 就想到python.听说这家伙在什么地方都能发挥作用.所以想用python来做通讯模块...所 ...

  2. javascript第三课underfind和类型获取

    1.underfind一般发生于变量定义之后未赋值,因此变量的值就为underfind 2.var obj=new object(); 此时使用obj点,可以获取到obj对象的一些方法,使用alert ...

  3. 一封在JSP课程结束之后给学生的信

    <JSP应用程序设计>这门课终于考完了,虽然题目有点难,但我看大部分同学考的还可以,算上平时成绩应该都能拿到一个满意的分数. 再次感谢大家一个学期来对我的支持,跟大家一起的这个学期很开心, ...

  4. 浏览器返回按钮不会触发onLoad事件

    最近在做一个移动端项目,发现移动端某些返回和PC端是有差异的, 比如ios中返回按钮是直接使用缓存的, 不会执行任何js代码, 这个问题很蛋疼, 例如, 在提交的时候将按钮设置为loading状态, ...

  5. bootstrap-js(4)标签页

    实例 标签页(Tab)在 Bootstrap 导航元素 一章中介绍过.通过结合一些 data 属性,您可以轻松地创建一个标签页界面. 通过这个插件您可以把内容放置在标签页或者是胶囊式标签页甚至是下拉菜 ...

  6. VC/MFC使用OLE操作 EXCEL

    1.VC插入sheet页到指定位置 插入sheet的函数用 sheets.Add(Before, After,Count,Type) 四个参数含义如下: 四个const   VARIANT:      ...

  7. php simple_html_dom 一个iconv错误引起解析中断的问题,貌似内存溢出

    环境: $pageNum = 8; for ($i = 1; $i < $pageNum; $i++) { $html = new simple_html_dom(); $host = 'htt ...

  8. Using Apache with SSL1(转载)

    SSL/TLS/WTLS原理 作者:yawl < yawl@nsfocus.com >主页:http://www.nsfocus.com日期:2001-02-19 一 前言 首先要澄清一下 ...

  9. struts2中使用ognl表达式时各种符号的使用规则$,#,%

    OGNL表达式struts2标签“%,#,$” 一.什么是OGNL,有什么特点? OGNL(Object-Graph Navigation Language),大概可以理解为:对象图形化导航语言.是一 ...

  10. hdu 5730 Shell Necklace fft+cdq分治

    题目链接 dp[n] = sigma(a[i]*dp[n-i]), 给出a1.....an, 求dp[n]. n为1e5. 这个式子的形式显然是一个卷积, 所以可以用fft来优化一下, 但是这样也是会 ...