15-糗事百科(python+xpath)】的更多相关文章

# -*- coding: utf-8 -*- #coding=utf-8 import urllib import urllib2 import re import thread import time class QSBK: def __init__(self): self.pageIndex=1 self.user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' self.header={'User-Agent':self.…
多线程糗事百科案例 案例要求参考上一个糗事百科单进程案例:http://www.cnblogs.com/miqi1992/p/8081929.html Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用:队列时线程间最常用的交互数据的形式. python下多线程的思考 对于资源,加锁是个重要的环节.因为python原生的list,dict等,都是not thread safe的.而Queue,是线程安全的,因此在满足使用条件下,建议使用队列 初始化:…
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的情况,是因为正则表达式没有匹配到的缘故. 现在,博主已经对程序进行了重新修改,代码亲测可用,包括截图和说明,之前一直在忙所以没有及时更新,望大家海涵! 更新时间…
案例要求参考上一个糗事百科单进程案例 Queue(队列对象) Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是个重要的环节.因为python原生的list,dict等,都是not thread safe的.而Queue,是线程安全的,因此在满足使用条件下,建议使用队列 初始化: class Queue.Queue(maxsize) FIFO 先进先出 包中的常用方法: Queue.qsize…
编写qsbk_spider.py爬虫文件 # -*- coding: utf-8 -*- import scrapy from qsbk.items import QsbkItem from scrapy.http.response.html import HtmlResponse from scrapy.selector.unified import SelectorList class QsbkSpiderSpider(scrapy.Spider): name = 'qsbk_spider'…
上回我们说到 python爬虫29 | 使用scrapy爬取糗事百科的例子,告诉你它有多厉害! WOW!! scrapy awesome!! 怎么会有这么牛逼的框架 wow!! awesome!! 用 scrapy 来爬取数据 岂!不!是!非!常!爽! wow!! 接下来就是我独享的moment 哦不 接下来就是 学习 python 的正确姿势 我们已经创建了爬取糗事百科的项目 并且把糗事百科的前两页的作者和段子爬取到 json 文件了 这次 我们将我们要爬取所有的数据 使用 scrapy 存储…
是时候给你说说 爬虫框架了 使用框架来爬取数据 会节省我们更多时间 很快就能抓取到我们想要抓取的内容 框架集合了许多操作 比如请求,数据解析,存储等等 都可以由框架完成 有些小伙伴就要问了 你他妈的 为什么不早点说呢? 是这样的 当你不知道 1+1 是什么的时候 你去使用计算器来计算 也是没用的 对吧 所以框架的使用 在现在这个时候(爬虫28篇之后)讲 就是一个不错的时机 今天 小帅b就跟你说说 scrapy这个框架 到底有多牛b 那么 接下来就是 学习 python 的正确姿势 要使用 scr…
#!usr/bin/env python#-*- coding:utf-8 _*-"""@author:Hurrican@file: 爬取糗事百科.py@time: 2018/11/29 20:43 """'''content返回的是byte型数据,而text返回的是Unicode数据,也就是说text对原始数据进行的特殊的编码,而这个编码方式是基于对原始数据的猜测(响应头),text一般用于返回的文本 content的一般用于对返回的其他数据类…
欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字"加群",加入华为云线上技术讨论群:输入关键字"最新活动",获取华为云最新特惠促销.华为云诸多技术大咖.特惠活动等你来撩 自娱自乐 今天朋友发了一个段子,居然来自糗事百科-随着抖音.快手的各种火爆,仿佛从前拿着手机刷糗百的日子,已经过去好久了.不知道多少人还会念起那句"天王盖地虎,小鸡炖蘑菇-".今天就做个小练习,爬一爬糗事百科上的段子吧! 网站分析 段…
和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了 遍历发送请求获取响应 提取数据,这里用的是xpath提取,用的是Python的第三方模块lxml 保存数据到本地 爬取的数据有:段子内容.作者性别.作者年龄.作者头像的地址.被标记为好笑的次数 数据处理: 把段子内容中的换行都消除 获取性别操作稍微麻烦一点 头像图片的地址补全 判断是否存在,不存在用None替代 如果想了解更多,可以去 https://www.qiushibaike…