Python 爬虫 (三)


#对第一章的百度翻译封装的函数进行更新
 1 from urllib import request, parse

 from urllib.error import HTTPError, URLError

 # 保存cookie

 from http import cookiejar

 class session(object):

     def __init__(self):

         cookie_object = cookiejar.CookieJar()

         # handler 对应着一个操作

         handler = request.HTTPCookieProcessor(cookie_object)

         # opener 遇到有cookie的response的时候,

         # 调用handler内部的一个函数, 存储到cookie object

         self.opener = request.build_opener(handler)

     def get(self, url, headers=None):

         return get(url, headers, self.opener)

     def post(self, url, form, headers=None):

         return post(url, form, headers, self.opener)

 #a. get(url, headers=None)

 def get(url, headers=None, opener = None):

     return urlrequests(url, headers=headers, opener = opener)

 def post(url, form, headers=None, opener = None):

     return urlrequests(url, form, headers=headers, opener=opener)

 #b. post(url, form, headers=None)

 #1. 传入url

 #2. user_agent

 #3. headers

 #4. 定义Request

 #5. urlopen

 #6. 返回byte数组

 def urlrequests(url, form=None, headers=None, opener = None):

     user_agent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'

     # 如果用户需要自行传入headers, 则覆盖之前的headers

     if headers == None:

         headers = {

             'User-Agent': user_agent

         }

     html_bytes = b''

     try:

         if form:

             # POST

             # 2.1 转换成str

             form_str = parse.urlencode(form, encoding='utf-8')

             #print(form_str)

             # 2.2 转换成bytes

             form_bytes = form_str.encode('utf-8')

             req = request.Request(url, data=form_bytes, headers=headers)

         else:

             # GET

             req = request.Request(url, headers=headers)

         if opener:

             response = opener.open(req)

         else:

             response = request.urlopen(req)

         html_bytes = response.read()

     except HTTPError as e:

         print(e)

     except URLError as e:

         print(e)

     return html_bytes

 if __name__ == '__main__':

     # url = 'http://fanyi.baidu.com/sug'

     # form = {

     #     'kw': '呵呵'

     # }

     # html_bytes = post(url, form=form)

     # print(html_bytes)

     url = 'http://www.baidu.com'

     html_byte = get(url)

     print(html_byte)

Python 爬虫 (三)的更多相关文章

Python爬虫(三)爬淘宝MM图片
直接上代码: # python2 # -*- coding: utf-8 -*- import urllib2 import re import string import os import shu ...
python爬虫(三)
Requests模块这个库的标准文档有个极其幽默的地方就是它的中文翻译,我就截取个开头部分,如下图: 是不是很搞笑,在正文中还有许多,管中窥豹,可见一斑.通过我的使用,感觉Requests库的确是给 ...
Python 爬虫三 beautifulsoup模块
beautifulsoup模块 BeautifulSoup模块 BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查 ...
Python爬虫(三)——开封市58同城出租房决策树构建
决策树框架: # coding=utf-8 import matplotlib.pyplot as plt decisionNode = dict(boxstyle=') leafNode = dic ...
Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析
文化经管 ....略结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的
Python爬虫(四)——开封市58同城数据模型训练与检测
前文参考: Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建 ...
Python爬虫(四)——豆瓣数据模型训练与检测
前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析数据的构建在这张表中我们可以发现 ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
3.Python爬虫入门三之Urllib和Urllib2库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...

随机推荐

angular2 遗留问题
1.angular build [2017-07-26] a.改写js/css的引用目录的前缀(比如统一增加 /abc/xxx/*.js) b.build时,可以控制index/js/css的生成 ...
学习Road map Part 04 自动驾驶、SLAM、ROS、树莓派
学习Road map Part 04 自动驾驶.SLAM.ROS.树莓派
ZT 绿茶和枸杞绝不可以同饮
绿茶和枸杞绝不可以同饮正文我来说两句(人参与) 速腾试驾招募预约得iPad Air! 2012年06月28日10:38 来源:中国网打印字号大|中|小绿茶含有儿茶素与β-胡萝卜素.维生素 ...
vue记录
vue项目中使用默认图片代替异常图片第一种方法 <img onerror="javascript:this.src='../../static/custom.png';" ...
C# 解决组合优化问题
Google Optimization Tools介绍 Google Optimization Tools(OR-Tools)是一款专门快速而便携地解决组合优化问题的套件.它包含了: 约束编程求解器. ...
aop的概念以及 cglib-nodep-2.1_3.jar第三方jia包动态代理使用
引入 cglib-nodep-2.1_3.ja包 cglib产生的代理类是目标类的子类定义接口,让切面都继承它,方便加入到动态代理方法的那个类中使用在SalaryInterceptor类中使用 ...
BZOJ3312:[USACO]No Change(状压DP)
Description Farmer John is at the market to purchase supplies for his farm. He has in his pocket K c ...
thinkphp清除缓存
前台 //清除缓存 $(function(){ $("#cache").click(function(){ layer.confirm('你确定要清除缓存吗?', {icon: 3 ...
学会WCF之试错法——客户端调用基础
1当客户端调用未返回结果时,服务不可用(网络连接中断,服务关闭,服务崩溃等) 客户端抛出异常异常类型:CommunicationException InnerException: Message: ...
EF Core 2.1 中的 Eager loading、Explicit loading和LazyLoading (转自MSDN)
Entity Framework Core allows you to use the navigation properties in your model to load related enti ...

Python 爬虫 (三)

Python 爬虫 (三)的更多相关文章

随机推荐

热门专题