爬虫多线程模板，xpath，etree

class QuiShi:
    def __init__(self):
        self.temp_url = "http://www.lovehhy.net/Joke/Detail/QSBK/{0}"
        self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"}
        #1.Queue url队列
        self.url_query = Queue()
        #　html网页队列
        self.html_query = Queue()
        # content内容队列
        self.content_query = Queue()
    def get_url_list(self):
         for i in range(1,5):
             self.url_query.put(self.temp_url.format(i))

    def parse_url(self):
        while True:
            url = self.url_query.get()
            self.html_query.put(requests.get(url,headers=self.headers).content.decode("gbk"))
            self.url_query.task_done()

    def get_content_list(self):
        # print(html_str)
        #etree.HTML 变成树状结构
        while True:
            html_str = self.html_query.get()
            html_str = html_str.replace("<br />","").strip("")
            html = etree.HTML(html_str)
            # s = html.xpath('//div[@id="footzoon"]')
            h3_list = html.xpath('//div[@id="footzoon"]/h3')
            content_list=[]
            for h3 in h3_list:
                item = {}
                item["title"] = h3.xpath("./a/text()")
                item["title_href"] = h3.xpath("./a/@href")
                item["content"] =[]
                s = h3.xpath('./following-sibling::div/text()')
                for i in s:
                    item["content"].append(i.replace("\u3000",""))
                content_list.append(item)
            self.content_query.put(content_list)
            self.html_query.task_done()

    def save_content_list(self):
        while True:
            cons = self.content_query.get()
            print(cons)
            self.content_query.task_done()

    def run(self):
        # 1.获取url地址列表

        t1 = threading.Thread(target=self.get_url_list)
        t21 = threading.Thread(target=self.parse_url)
        t22 = threading.Thread(target=self.parse_url)
        t23 = threading.Thread(target=self.parse_url)
        t3 = threading.Thread(target=self.get_content_list)
        t4 = threading.Thread(target=self.save_content_list)
        t1.start()
        t21.start()
        t22.start()
        t23.start()
        t3.start()
        t4.start()
        self.url_query.join()
        self.html_query.join()
        self.content_query.join()

if __name__ == '__main__':
    t1 = time.time()
    quishi = QuiShi()
    quishi.run()
    print(time.time() - t1)

爬虫多线程模板，xpath，etree的更多相关文章

爬虫系列(九) xpath的基本使用
一.xpath 简介究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: &l ...
从0开始学爬虫3之xpath的介绍和使用
从0开始学爬虫3之xpath的介绍和使用 Xpath:一种HTML和XML的查询语言,它能在XML和HTML的树状结构中寻找节点安装xpath: pip install lxml HTML 超文本标 ...
爬虫 xpath etree自动补全页面
aa = etree.HTML(response.content) bb = etree.tostring(aa) doc = etree.HTML(bb)
python动态网站爬虫实战(requests+xpath+demjson+redis)
目录前言一.主要思路 1.观察网站 2.编写爬虫代码二.爬虫实战 1.登陆获取cookie 2.请求资源列表页面,定位获得左侧目录每一章的跳转url(难点) 3.请求每个跳转url,定位右侧下载 ...
爬虫之BS&Xpath
BeautifulSoup 一简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下: ''' Beautiful Soup提供一些简单的.p ...
爬虫——BeautifulSoup和Xpath
爬虫我们大概可以分为三部分:爬取——>解析——>存储一 Beautiful Soup: Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功 ...
sumafan:python爬虫多线程爬取数据小练习（附答案）
抓取 https://www.cnbeta.com/ 首页中新闻内容页网址, 抓取内容例子: https://hot.cnbeta.com/articles/game/825125 将抓取下来的内容页 ...
python3 多线程采集 xpath
#!/usr/bin/python # -*- coding: UTF-8 -*- '''Thread3 多线程测试采集''' import threading,time,queue,Mongo_ut ...
爬虫解析库xpath
# xpath简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言.用于在 XML 文档中通过元素和属性进行导航. XPath基于XM ...

随机推荐

使用WSL中开发调试.NET Core
安装WSL 1.打开WINDOWS功能,勾选子系统选项 2.打开商店搜索WSL,安装ubuntu 我这里的系统版本是:18.04 如何查看ubuntu系统版本 sudo lsb_release -a ...
两分钟让你明白Go中如何继承
最近在重构代码的时候,抽象了大量的接口.也使用这些抽象的接口做了很多伪继承的操作,极大的减少了代码冗余,同时也增加了代码的可读性. 然后随便搜了一下关于Go继承的文章,发现有的文章的代码量过多,并且代 ...
OpenGL glMatrixMode() 函数解释与例子
概述 glMatrixMode() 用以指定当前要操作的矩阵,可选值有 GL_MODELVIEW(模型视图,默认值),GL_PROJECTION(投影),GL_TEXTURE(纹理),GL_COLOR ...
Leetcode（3）无重复字符的最长子串
Leetcode(3)无重复字符的最长子串 [题目表述]: 给定一个字符串,请你找出其中不含有重复字符的最长子串的长度. 第一种方法:暴力执行用时:996 ms: 内存消耗:12.9MB 效果: ...
JdbcTemplate增删改
(1)Accountsdao层 //删除单个账户 int delaccount(Integer accountid); //添加单个用户 int addaccount(Accounts account ...
使用诊断工具观察 Microsoft.Extensions.DependencyInjection 2.x 版本的内存占用
目录准备工作大量接口与实现类的生成 elasticsearch+kibana+apm asp.net core 应用请求与快照 Kibana 上的请求记录请求耗时的分析请求内存的分析第2次 ...
【原创】怎样才能写出优雅的 Java 代码？这篇文章告诉你答案！
本文已经收录自 JavaGuide (59k+ Star):[Java学习+面试指南] 一份涵盖大部分Java程序员所需要掌握的核心知识. 本文比较简短,基本就是推荐一些对于写好代码非常有用的文章或者 ...
Flask+WebSocket实现群聊与单聊功能
在开始我们的程序代码之前,先来了解一下相关的基础知识: 1.什么是websocket? (1)WebSocket是HTML5开始提供的一种在单个 TCP 连接上进行全双工通讯的协议.WebSocket ...
windows服务参考
dll文件 aaclient.dll 何时何地都可以访问客户端 accessibilitycpl.dll 轻松访问控制面板 acledit.dll 访问控制列表编辑器 aclui.dll 安全描述符编 ...
PL/SQL软件执行命令出现动态执行表不可访问，本会话的自动统计被禁止
出现这样的原因是该用户没有相关权限. 解决方法: 去除软件层面设置

爬虫多线程模板，xpath，etree

爬虫多线程模板，xpath，etree的更多相关文章

随机推荐

热门专题