手动爬虫之糗事百科（ptyhon3）

一、调用封装的Url_ProxyHelper类，源码如下

 import urllib.request as ur

 class Url_ProxyHelper:

     def __init__(self, url, proxy_add, savepath=None):

         self.url = url

         self.proxy_add = proxy_add

         self.req = None

         self.proxy = None

         self.opener = None

         self.info = None

         self.save_path = savepath

     # 报头代理设置

     def set_UrlAndProxy(self):

         # 添加报头

         self.req = ur.Request(self.url)

         self.req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0')

         # 设置代理服务器

         self.proxy = ur.ProxyHandler({'http': self.proxy_add})

         self.opener = ur.build_opener(self.proxy, ur.HTTPHandler)

         ur.install_opener(self.opener)

         return self.req

     # 数据存档

     def save_InFile(self):

         self.req = self.set_UrlAndProxy()

         self.info = ur.urlopen(self.req).read()

         open(self.save_path, 'wb').write(self.info)

     # 数据返回

     def feedbak_info(self):

         self.req = self.set_UrlAndProxy()

         self.info = ur.urlopen(self.req).read().decode('utf-8')  # decode()用来解码，特别是中文

         return str(self.info)

二、爬取源码

 import urllib.request as ur

 import re

 from Url_ProxyHelper import Url_ProxyHelper

 # 构造了一个去除Tags的函数

 def delete_Tags(content, pattern):

     return re.sub(pattern, "", content.replace("\n", ""))

 # 设置目标网址

 url = ur.quote("https://www.qiushibaike.com/", safe='/:?=', encoding='utf-8')

 # 设置代理服务器IP

 proxy_add = "114.239.147.6:808"

 # 调用Url_ProxyHelper类

 uph = Url_ProxyHelper(url, proxy_add)

 info = uph.feedbak_info()

 # 设置正则表达式

 pattern_1 = 'target="_blank" title="(.*?)">'

 pattern_2 = 'class="content">(.*?)</div>'

 pattern_3 = '<(.*?)>'

 # 匹配数据

 user_list = re.compile(pattern=pattern_1, flags=re.S).findall(info)

 content_list = re.compile(pattern=pattern_2, flags=re.S).findall(info)

 for user, content in zip(user_list, content_list):

     data = {

         "user": user,

         "content": delete_Tags(content, pattern_3)

     }

     print("用户是：" + data["user"])

     print("内容是：" + data["content"])

三、一点总结

1.关于urllib.request.urlopen("www.x.com").read()是否调用decode("utf-8")。
答：一般而言，当我们抓取一个页面需要将该信息存档（如存为x.html文件）时，这个时候不能调用decode()函数；而当我们需要读取页面的信息时（这里指的是抓取页面部分内容），存在信息的转码，所以这个时候需要调用decode()函数。

2.在正则表达式的使用过程中，需要注意，re.compile(pattern).findall(info)中的info必须是str类型，所有当出现报错时，需要稍微转换一下。

3.正则表达式中，re.compile(pattern=pattern, flags=re.S)的第二个参数的使用，模式修正，防止有用信息被过滤掉。

4.函数的构建必须放在函数调用之前。

手动爬虫之糗事百科（ptyhon3）的更多相关文章

爬虫_糗事百科（scrapy）
糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数 ...
Python爬虫_糗事百科
本爬虫任务: 爬虫糗事百科网站(https://www.qiushibaike.com/)--段子版块中所有的[段子].[投票数].[神回复]等内容步骤: 通过翻页寻找url规律,构造url列表查 ...
<爬虫实战>糗事百科
1.糗事百科段子.py # 目标:爬取糗事百科段子信息(文字) # 信息包括:作者头像,作者名字,作者等级,段子内容,好笑数目,评论数目 # 解析用学过的几种方法都实验一下①正则表达式.②Beauti ...
21天打造分布式爬虫-Spider类爬取糗事百科（七）
7.1.糗事百科安装 pip install pypiwin32 pip install Twisted-18.7.0-cp36-cp36m-win_amd64.whl pip install sc ...
python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
利用python的爬虫技术爬去糗事百科的段子
初次学习爬虫技术,在知乎上看了如何爬去糗事百科的段子,于是打算自己也做一个. 实现目标:1,爬取到糗事百科的段子 2,实现每次爬去一个段子,每按一次回车爬取到下一页技术实现:基于python的实现, ...
python3 爬虫---爬取糗事百科
这次爬取的网站是糗事百科,网址是:http://www.qiushibaike.com/hot/page/1 分析网址,参数''指的是页数,第二页就是'/page/2',以此类推... 一.分析网页 ...
芝麻HTTP：Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
Python爬虫-爬取糗事百科段子
闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url http://www.qiushibaike.com/h ...

随机推荐

自己动手写CPU之第五阶段（2）——OpenMIPS对数据相关问题的解决措施
将陆续上传本人写的新书<自己动手写CPU>(尚未出版).今天是第16篇.我尽量每周四篇 5.2 OpenMIPS对数据相关问题的解决措施 OpenMIPS处理器採用数据前推的方法来解决流水 ...
服务发现与负载均衡 dubbo zk原理
服务发现与负载均衡拓展阅读 : dubbo 原理概念图 2016-03-03 杜亦舒性能与架构性能与架构性能与架构微信号 yogoup 功能介绍网站性能提升与架构设计内容整理自文章“实施 ...
如何使用ip端口来浏览自己的网站
现在做网站的朋友越来越多,域名注册后往往需要进行备案,而在备案期间我们的域名又不能正常打开,在服务器上直接编辑浏览我们的网站有些棘手,思来想去,在我们购买的服务器ip后面加上个端口来达到域名一样的效果 ...
在一个验证form的实例中扩展jQuery.validate
需求很简单,直接上图: 要验证表单上的3个input输入框的格式,要求如下: 主关键词情形1: 浙江杭州温州主关键词情形2: 浙江|江苏|上海,但是不能用空格和 | 混合用,也就是情形1和2不 ...
go 语言学习笔计之结构体
go 语言中的结构体方法结构体名称的大小写有着不同的意义: 小写表示不能被别的包访问 package main import "fmt" type Rect struct { w ...
InnoDB: auto-extending data file ./ibdata1 is of a different size 640 pages (rounded down to MB) than specified in the .cnf file: initial 768 pages, max 0 (relevant if non-zero) pages!
问题描述: centos 安装MySQL $yum install mysql-server 安装之后执行命令mysql 报错: 查看mysql的启动日志: [ERROR] InnoDB: auto- ...
HTTP与HTTPS异同/HTTP1.0与HTTP1.1差别
HTTP状态码分类解释描述 1XX 信息服务器收到请求,需要请求者继续执行操作 2XX 成功操作被成功接收并处理 3XX 重定向需要进一步的操作以完成请求 4XX 客户端错误请求包含语法 ...
图像处理之优化---任意半径局部直方图类算法在PC中快速实现的框架
在图像处理中,局部算法一般来说,在很大程度上会获得比全局算法更为好的效果,因为他考虑到了图像领域像素的信息,而很多局部算法可以借助于直方图获得加速.同时,一些常规的算法,比如中值滤波.最大值滤波.最小 ...
（转）java中Executor、ExecutorService、ThreadPoolExecutor介绍
转自: http://blog.csdn.net/linghu_java/article/details/17123057 ScheduledThreadPoolExecutor介绍: http:// ...
（转）servlet setCharacterEncoding setContentType
转自:http://blog.csdn.net/fancylovejava/article/details/7700683 编码中的setCharacterEncoding 理解 1.pageEnco ...

手动爬虫之糗事百科（ptyhon3）

手动爬虫之糗事百科（ptyhon3）的更多相关文章

随机推荐

热门专题