python实现简易采集爬虫

#!/usr/bin/python

#-*-coding:utf-8-*-

# 简易采集爬虫

#    1.采集Yahoo!Answers，parseData函数修改一下，可以采集任何网站

#    2.需要sqlite3或者pysqlite支持

#    3.可以在DreamHost.com空间上面运行

#    4.可以修改User-Agent冒充搜索引擎蜘蛛

#    5.可以设置暂停的时间，控制采集速度

#    6.采集Yahoo会被封IP数小时，所以这个采集用处不大

# Author: Lukin<mylukin@gmail.com>

# Date  : 2008-09-25

# 导入采集需要用到的模块

import re, sys, time

import httplib, os.path as osp

from urlparse import urlparse

# 使用sqite数据库，为了兼容DreamHost.com的空间，只能这么写了

try :

    import sqlite3 as sqlite

except ImportError:

    from pysqlite2 import dbapi2 as sqlite

# 采集速度控制，单位秒

sleep = 0

# 数据库路径

dbname = './database.db'

# 设置提交的header头

headers = {"Accept": "*/*","Referer": "http://answers.yahoo.com/","User-Agent": "Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html)"}

# 连接服务器

dl = httplib.HTTPConnection('answers.yahoo.com')

# 连接数据库

conn = sqlite.connect(osp.abspath(dbname))

# 创建数据库

def createDatabase():

    global conn,dbname;

    if osp.isfile(osp.abspath(dbname)) : return

    c = conn.cursor()

    # 创建url列表存放表

    c.execute('''CREATE TABLE IF NOT EXISTS [collect]([cid] INTEGER PRIMARY KEY,[curl] TEXT,[state] INTEGER DEFAULT '0',UNIQUE([curl]));''')

    c.execute('''CREATE INDEX IF NOT EXISTS [collect_idx_state] ON [collect]([state]);''')

    # 创建分类表

    c.execute('''CREATE TABLE IF NOT EXISTS [sorts]([sortid] INTEGER PRIMARY KEY,[sortname] TEXT,[sortpath] TEXT,[sortfoot] INTEGER DEFAULT '0',[sortnum] INTEGER DEFAULT '0',UNIQUE([sortpath]));''')

    c.execute('''CREATE INDEX IF NOT EXISTS [sorts_idx_sortname] ON [sorts]([sortname]);''')

    c.execute('''CREATE INDEX IF NOT EXISTS [sorts_idx_sortfoot] ON [sorts]([sortfoot]);''')

    # 创建文章表

    c.execute('''CREATE TABLE IF NOT EXISTS [article]([aid] INTEGER PRIMARY KEY,[sortid] INTEGER DEFAULT '0',[hits] INTEGER DEFAULT '0',[title] TEXT,[path] TEXT,[question] TEXT,[banswer] TEXT,[oanswer] TEXT,UNIQUE([path]));''')

    c.execute('''CREATE INDEX IF NOT EXISTS [article_idx_sortid] ON [article]([sortid]);''')

    # 事物提交

    conn.commit()

    c.close()

# 执行采集

def collect(url="http://answers.yahoo.com/"):

    global dl,error,headers; R = 0

    print "GET:",url

    urls = urlparse(url); path = urls[2];

    if urls[4]!='' : path += '?' + urls[4]

    dl.request(method="GET", url=path, headers=headers); rs = dl.getresponse()

    if rs.status==200 :

        R = parseData(rs.read(),url);

    else :

        print "3 seconds, try again ..."; time.sleep(3)

        dl.request(method="GET", url=path, headers=headers); rs = dl.getresponse()

        if rs.status==200 :

            R = parseData(rs.read(),url);

        else :

            print "3 seconds, try again ..."; time.sleep(3)

            dl.request(method="GET", url=path, headers=headers); rs = dl.getresponse()

            if rs.status==200 :

                R = parseData(rs.read(),url);

            else :

                print "Continue to collect ..."

                R = 3

    # 更新记录

    updateOneUrl(url,R)

    # 返回结果

    return R

# 处理采集到的数据

def parseData(html,url):

    global dl,conn; R = 2;

    c = conn.cursor()

    # 格式化html代码

    format = formatURL(clearBlank(html),url)

    # 取出所有的连接

    urls = re.findall(r'''(<a[^>]*?href="([^"]+)"[^>]*?>)|(<a[^>]*?href='([^']+)'[^>]*?>)''',format,re.I)

    if urls != None :

        i = 0

        # 循环所有的连接

        for regs in urls :

            # 得到一个单一的url

            sUrl = en2chr(regs[1].strip())

            # 判断url是否符合规则，符合，则插入数据库

            if re.search('http(.*?)/(dir|question)/index(.*?)',sUrl,re.I) != None :

                if re.search('http(.*?)/dir/index(.*?)',sUrl,re.I) != None:

                    if sUrl.find('link=list') == -1 and sUrl.find('link=over') == -1 :

                        sUrl+= '&link=over'

                    else:

                        sUrl = sUrl.replace('link=list','link=over')

                if sUrl[-11:]=='link=mailto' : continue

                try :

                    c.execute('INSERT INTO [collect]([curl])VALUES(?);',(sUrl,))

                    i = i + 1

                except sqlite.IntegrityError :

                    pass

        if i>0 : print "Message: %d get a new URL." % (i,)

    # 截取数据

    if re.search('http(.*)/question/index(.*)',url,re.I) != None :

        sortfoot = 0

        # 自动创建分类和分类关系

        guide  = sect(format,'<ol id="yan-breadcrumbs">','</ol>','(<li>(.*?)Home(.*?)</li>)')

        aGuide = re.findall('<a[^>]*href="[^"]*"[^>]*>(.*?)</a>',guide,re.I)

        if aGuide != None :

            sortname = ""

            for sortname in aGuide :

                sortname = sortname.strip()

                sortpath = en2path(sortname)

                # 查询分类是否存在

                c.execute('SELECT [sortid],[sortname] FROM [sorts] WHERE [sortpath]=? LIMIT 0,1;',(sortpath,))

                row = c.fetchone();

                # 分类不存在，添加分类

                if row==None :

                    c.execute('INSERT INTO [sorts]([sortname],[sortpath],[sortfoot])VALUES(?,?,?);',(sortname,sortpath,sortfoot))

                    sortfoot = c.lastrowid

                else:

                    sortfoot = row[0]

            # 标题

            title = sect(format,'<h1 class="subject">','</h1>')

            # 最佳答案

            BestAnswer = sect(format,'(<h2><span>Best Answer</span>(.*?)</h2>(.*?)<div class="content">)','(</div>)')

            # 最佳答案不存在，则不采集

            if BestAnswer != None :

                # 文章路径

                path = en2path(sortname + '-' + title.strip())

                # 问题

                adddata = sect(format,'<div class="additional-details">','</div>')

                content = sect(format,'(<h1 class="subject">(.*?)<div class="content">)','(</div>)')

                if adddata != None : content += '<br/>' + adddata

                # 其他回答

                OtherAnswer = ''

                for regs in re.findall('<div class="qa-container">(.+?)<div class="utils-container">',format):

                    if regs.find('<h2>') == -1 and regs.find('</h2>') == -1 :

                        a1 = sect(regs,'<div class="content">','</div>')

                        a2 = sect(regs,'<div class="reference">','</div>')

                        OtherAnswer+= '<div class="oAnswer">' + a1

                        if a2 != None : OtherAnswer+= '<div class="reference">' + a2 + '</div>'

                        OtherAnswer+= '</div>'

                # 判断采集成功

                if title != None and content != None :

                    # 将数据写入到数据

                    try :

                        c.execute('INSERT INTO [article]([sortid],[title],[path],[question],[banswer],[oanswer])VALUES(?,?,?,?,?,?);',(sortfoot,title,path,content,BestAnswer,OtherAnswer))

                        print "Message：%s.html" % (path,)

                        R = 1

                    except sqlite.IntegrityError :

                        pass

    # 提交写入数据库

    conn.commit(); c.close()

    return R

# 取得一条URL

def getOneUrl():

    global conn; c = conn.cursor()

    c.execute('SELECT [curl] FROM [collect] WHERE [state] IN(0,3) LIMIT 0,1;')

    row = c.fetchone(); c.close()

    if row==None : return ""

    return row[0].encode('utf-8')

# 更新一条记录的状态

def updateOneUrl(url,state):

    global conn; c = conn.cursor()

    c.execute('UPDATE [collect] SET [state]=? WHERE [curl]=?;',(state,url))

    conn.commit(); c.close()

# 清除html代码里的多余空格

def clearBlank(html):

    if len(html) == 0 : return ''

    html = re.sub('\r|\n|\t','',html)

    while html.find("  ")!=-1 or html.find('&nbsp;')!=-1 :

        html = html.replace('&nbsp;',' ').replace('  ',' ')

    return html

# 格式化url

def formatURL(html,url):

    urls = re.findall('''(<a[^>]*?href="([^"]+)"[^>]*?>)|(<a[^>]*?href='([^']+)'[^>]*?>)''',html,re.I)

    if urls == None : return html

    for regs in urls :

        html = html.replace(regs[0],matchURL(regs[0],url))

    return html

# 格式化单个url

def matchURL(tag,url):

    urls = re.findall('''(.*)(src|href)=(.+?)( |/>|>).*|(.*)url\(([^\)]+)\)''',tag,re.I)

    if urls == None :

        return tag

    else :

        if urls[0][5] == '' :

            urlQuote = urls[0][2]

        else:

            urlQuote = urls[0][5]

    if len(urlQuote) > 0 :

        cUrl = re.sub('''['"]''','',urlQuote)

    else :

        return tag

    urls = urlparse(url); scheme = urls[0];

    if scheme!='' : scheme+='://'

    host = urls[1]; host = scheme + host

    if len(host)==0 : return tag

    path = osp.dirname(urls[2]);

    if path=='/' : path = '';

    if cUrl.find("#")!=-1 : cUrl = cUrl[:cUrl.find("#")]

    # 判断类型

    if re.search('''^(http|https|ftp):(//|\\\\)(([\w/\\\+\-~`@:%])+\.)+([\w/\\\.\=\?\+\-~`@':!%#]|(&amp;)|&)+''',cUrl,re.I) != None :

        # http开头的url类型要跳过

        return tag

    elif cUrl[:1] == '/' :

        # 绝对路径

        cUrl = host + cUrl

    elif cUrl[:3]=='../' :

        # 相对路径

        while cUrl[:3]=='../' :

            cUrl = cUrl[3:]

            if len(path) > 0 :

                path = osp.dirname(path)

    elif cUrl[:2]=='./' :

        cUrl = host + path + cUrl[1:]

    elif cUrl.lower()[:7]=='mailto:' or cUrl.lower()[:11]=='javascript:' :

        return tag

    else :

        cUrl = host + path + '/' + cUrl

    R = tag.replace(urlQuote,'"' + cUrl + '"')

    return R

# html代码截取函数

def sect(html,start,end,cls=''):

    if len(html)==0 : return ;

    # 正则表达式截取

    if start[:1]==chr(40) and start[-1:]==chr(41) and end[:1]==chr(40) and end[-1:]==chr(41) :

        reHTML = re.search(start + '(.*?)' + end,html,re.I)

        if reHTML == None : return

        reHTML = reHTML.group()

        intStart = re.search(start,reHTML,re.I).end()

        intEnd = re.search(end,reHTML,re.I).start()

        R = reHTML[intStart:intEnd]

    # 字符串截取

    else :

        # 取得开始字符串的位置

        intStart = html.lower().find(start.lower())

        # 如果搜索不到开始字符串，则直接返回空

        if intStart == -1 : return

        # 取得结束字符串的位置

        intEnd = html[intStart+len(start):].lower().find(end.lower())

        # 如果搜索不到结束字符串，也返回为空

        if intEnd == -1 : return

        # 开始和结束字符串都有了，可以开始截取了

        R = html[intStart+len(start):intStart+intEnd+len(start)]

    # 清理内容

    if cls != '' :

        R = clear(R,cls)

    # 返回截取的字符

    return R

# 正则清除

def clear(html,regexs):

    if regexs == '' : return html

    for regex in regexs.split(chr(10)):

        regex = regex.strip()

        if regex != '' :

            if regex[:1]==chr(40) and regex[-1:]==chr(41):

                html = re.sub(regex,'',html,re.I|re.S)

            else :

                html = html.replace(regex,'')

    return html

# 格式化为路径

def en2path(enStr):

    return re.sub('[\W]+','-',en2chr(enStr),re.I|re.U).strip('-')

# 替换实体为正常字符

def en2chr(enStr):

    return enStr.replace('&amp;','&')

# ------------------------------------- 开始执行程序 -------------------------------------------

# 首先创建数据库

createDatabase()

# 开始采集

loops = 0

while True:

    if loops>0 :

        url = getOneUrl()

        if url == "" :

            loops = 0

        else :

            loops = collect(url)

    else :

        loops = collect()

    # 暂停

    time.sleep(sleep)

    if loops==0 : break

# 关闭HTTP连接

dl.close()

# 退出程序

sys.exit()

python实现简易采集爬虫的更多相关文章

基于redis的简易分布式爬虫框架
代码地址如下:http://www.demodashi.com/demo/13338.html 开发环境 Python 3.6 Requests Redis 3.2.100 Pycharm(非必需,但 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
Python数据网络采集5--处理Javascript和重定向
Python数据网络采集5--处理Javascript和重定向到目前为止,我们和网站服务器通信的唯一方式,就是发出HTTP请求获取页面.有些网页,我们不需要单独请求,就可以和网络服务器交互(收发信息 ...
洗礼灵魂，修炼python（69）--爬虫篇—番外篇之feedparser模块
feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom .使用它我们可从任何 RSS 或 Atom 订阅源得到标题.链接和文章的 ...
百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量-代码篇
需要结合:<百度搜索引擎关键字URL采集爬虫优化行业定投方案高效获得行业流量--笔记篇> 一起看. #!/user/bin/env python # -*- coding:utf-8 -* ...
免费IP代理池定时维护，封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池，并制作简易流量爬虫
前言我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,本文记录免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作 ...
【Python】：简单爬虫作业
使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...
采集爬虫中，解决网站限制IP的问题？ - wendi_0506的专栏 - 博客频道 - CSDN.NET
采集爬虫中,解决网站限制IP的问题? - wendi_0506的专栏 - 博客频道 - CSDN.NET undefined
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道使用python/casperjs编写终极爬虫-客户端App的抓取

随机推荐

anaconda中实现双spyder版本
1)先在conda中创建一个名为python2的环境,并下载对应版本python2.7 conda create --name python27 python=2.7 2)激活python2环境 ac ...
Spring中@Async用法详解及简单实例
Spring中@Async用法引言: 在Java应用中,绝大多数情况下都是通过同步的方式来实现交互处理的:但是在处理与第三方系统交互的时候,容易造成响应迟缓的情况,之前大部分都是使用多线程来完成此类 ...
[转载]MVC中单用户登录
转自:http://www.cnblogs.com/firstcsharp/archive/2013/05/19/3087481.html 把下面这段代码放在登录用户验证以后: //用户登录验证通 ...
【47.40%】【codeforces 743B】Chloe and the sequence
time limit per test1 second memory limit per test256 megabytes inputstandard input outputstandard ou ...
一个自己主动依据xcode中的objective-c代码生成类关系图的神器
https://github.com/kimsungwhee/KSHObjcUML 安装方法: 1.下载项目 2.执行 3.会又一次开启一个新的xcode 4.选择一个项目,点击 Objc-UML 会 ...
在Eclipse中运行hadoop程序分类： A1_HADOOP 2014-12-14 11:11 624人阅读评论(0) 收藏
1.下载hadoop-eclipse-plugin-1.2.1.jar,并将之复制到eclipse/plugins下. 2.打开map-reduce视图在eclipse中,打开window--> ...
HDU 5072 Coprime (单色三角形+容斥原理)
题目链接:Coprime pid=5072"> 题面: Coprime Time Limit: 2000/1000 MS (Java/Others) Memory Limit: ...
监控tcp，占用端口---netstat命令
netstat命令监控tcp,占用端口等等 netstat命令是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表.实际的网络连接以及每一个网络接口设备的状态信息,语法:netstat [ ...
skip-slave-start的重要性
原来做复制的主机因为数据丢失需要重新创建复制环境,机器上已经有了主库数天前的备份,于是删除数据目录直接把备份放上去,结果发现复制没有抱错,show slave status一切正常,select co ...
c#面向对象基础知识（转）
OOP技术按照现实世界的特点来管理复杂的事物,把它们抽象为对象,具有自己的状态和行为,通过对消息的反应来完成一定的任务.这种编程方法提供了非常强大的多样性,大大增加了代码的重用机会,增加了程序开发的速 ...

python实现简易采集爬虫

python实现简易采集爬虫的更多相关文章

随机推荐

热门专题