python 多线程抓取动态数据

利用多线程动态抓取数据，网上也有不少教程，但发现过于繁杂，就不能精简再精简？！

不多解释，直接上代码，基本上还是很好懂的。

#!/usr/bin/env python

# coding=utf-8

import urllib2

import re,sys

from bs4 import BeautifulSoup

from selenium import webdriver

import threading

import time

reload(sys)

sys.setdefaultencoding("utf-8")

queue = [

    "http://baike.baidu.com/view/8332.htm",

    "http://baike.baidu.com/view/145819.htm",

    "http://baike.baidu.com/view/643415.htm",

    "http://baike.baidu.com/view/157424.htm",

    "http://baike.baidu.com/view/149759.htm",]

crawled_url = set()

crawled_word = set()

cnt = 0

class BaikeSpider(threading.Thread):

    """

    模拟浏览器打开页面，多线程爬取数据

    """

    def __init__(self,name):

        threading.Thread.__init__(self)

        self.name = str(name)

        self.browser = webdriver.Chrome()

        # 将抓取数据写入各自的文件

        self.fw = open("baike_words_"+self.name+".txt","wb")

    def run(self):

        global queue

        global crawled_url

        global crawled_word

        global cnt

        while queue:

            url = queue.pop(0)

            try:

                self.browser.get(url)

                # 休眠0.5s，等待数据加载

                time.sleep(0.5)

                links = BeautifulSoup(urllib2.urlopen(url).read(),"lxml").find_all("a")

                vote = self.browser.find_element_by_class_name("vote-count").text

                view = self.browser.find_element_by_id("j-lemmaStatistics-pv").text

                word = self.browser.title.split(u"_")[0]

                if word in crawled_word or url in crawled_url:

                    continue

                else:

                    for link in links:

                        if 'href' not in dict(link.attrs) or re.search(u"javascript",link['href']) or len(link['href'])

<8:

                            continue

                        tmpurl = link["href"]

                        if re.search("baike.baidu.com/view/\d+|baike.baidu.com/subview/\d+(/\d+)?",tmpurl) and tmpurl n

ot in crawled_url:

                            queue.append(tmpurl)

                crawled_url.add(url)

                linedata = word+"\t"+view+"\t"+vote+"\t"+url+"\n"

                self.fw.write(linedata)

            except Exception,e:

                print 'error',e

                continue

            cnt += 1

            print cnt,self.name,'len',len(queue)

    def __exit__(self):

        self.fw.close()

if __name__=='__main__':

    """

    开５个线程

    """

    for i in range(5):

        t = BaikeSpider(i)

        t.start()

python 多线程抓取动态数据的更多相关文章

Python 逆向抓取 APP 数据
今天继续给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,关于 APP 的反爬会麻烦一些,比如 Android 端的代码写完一般会进行打包并混淆加密加固 ...
scrapy-splash抓取动态数据例子一
目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无 ...
pythonのscrapy抓取网站数据
(1)安装Scrapy环境步骤请参考:https://blog.csdn.net/c406495762/article/details/60156205 需要注意的是,安装的时候需要根据自己的pyt ...
php外挂python脚本抓取ajax数据
之前我写过一遍php外挂python脚本处理视频的文章.今天和大家分享下php外挂python实现输入关键字搜索的脚本首先我们先来分析一波网站: http://www.dzdpw.com/s.php ...
scrapy-splash抓取动态数据例子八
一.介绍本例子用scrapy-splash抓取界面网站给定关键字抓取咨询信息. 给定关键字:个性化:融合:电视抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源二.网站信息 ...
scrapy-splash抓取动态数据例子七
一.介绍本例子用scrapy-splash抓取36氪网站给定关键字抓取咨询信息. 给定关键字:个性化:融合:电视抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源二.网站信 ...
scrapy-splash抓取动态数据例子六
一.介绍本例子用scrapy-splash抓取中广互联网站给定关键字抓取咨询信息. 给定关键字:打通:融合:电视抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源二.网站信 ...
scrapy-splash抓取动态数据例子五
一.介绍本例子用scrapy-splash抓取智能电视网网站给定关键字抓取咨询信息. 给定关键字:打通:融合:电视抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源二.网站 ...
scrapy-splash抓取动态数据例子四
一.介绍本例子用scrapy-splash抓取微众圈网站给定关键字抓取咨询信息. 给定关键字:打通:融合:电视抓取信息内如下: 1.资讯标题 2.资讯链接 3.资讯时间 4.资讯来源二.网站信息 ...

随机推荐

套接字I/O模型-完成端口IOCP
“完成端口”模型是迄今为止最为复杂的一种I/O模型.然而,假若一个应用程序同时需要管理为数众多的套接字,那么采用这种模型,往往可以达到最佳的系统性能!但不幸的是,该模型只适用于Windows NT和W ...
opsview
nagios,cacti,opsview,prtg,zabbix http://www.opsview.com 1.需要注册一个账号,createyuan#sohu.com
Redis持久化机制和恢复机制
Redis持久化方式有两种: (1)RDB 对内存中数据库状态进行快照 (2)AOF 把每条写命令都写入文件,类似mysql的binlog日志 RDB 将Redis在内存中的数据库状态保存到磁盘里面, ...
制作OS X 10.10.3启动安装U盘
http://www.cnblogs.com/Bob-wei/p/4471407.html 1.获得“Install OS X Yosemite.app” 2.准备一个8GB的U盘,用磁盘工具“抹掉” ...
intellij idea +maven4+springmvc4搭建
0.淘宝mave培训PPT http://www.open-open.com/doc/view/4058453cde4b429c82ff2807d8aa81f0 1.intellij创建空的maven ...
selenium+python自动化之环境安装
一.Python安装 1.操作系统:win7 64位系统 2.下载Python安装包,选择2.7版本和3.6版本都可以(最好安装2.7版本稳定)官网下载地址:https://www.python.or ...
The 'Microsoft.ACE.OLEDB.12.0' provider is not registered on the local machine
问题描述: 修改一个工具功能为读取excel文件中的数据(xls) 本机(windows server 2003 32位) 调试运行正常,部署到服务器(windows server 2003 64位) ...
phpredis中文手册——《redis中文手册》 php版--引用他人
出处: http://www.cnblogs.com/zcy_soft/archive/2012/09/21/2697006.html 目录(使用CTRL+F快速查找命令): Key String H ...
【linux】chmod命令详细用法
功能说明: 变更文件或目录的权限 u:User,即文件或目录的拥有者. g:Group,即文件或目录的所属群组. o:Other,除了文件或目录拥有者或所属群组之外,其他用户皆属于这个范围. a:Al ...
SPOJ #752. Power it!
By property of mod operations , we can simply use Divide and Conquer + Recursion to solve it. Refere ...

python 多线程抓取动态数据

python 多线程抓取动态数据的更多相关文章

随机推荐

热门专题