手动爬虫之流程笔记1(python3)

一、引入拓展库

　　由于刚刚起步学习爬虫，故从urllib库开始

　　首先引入urllib，这里主要用到urllib中request类

import urllib.request as ur

二、设置全局参数

　　我把它分为三个变量：代理服务器IP、目标网址、存放路径。　

# 代理服务器的地址

proxy_add = "110.183.238.145:811"

# 获取目标网址

url = "https://www.baidu.com"

# 设置目标文档（路径+文件名【包括后缀】）

aim_file = "E:/workspace/PyCharm/codeSpace/books/python_web_crawler_book/chapter4/demo2/1.html"

三、将爬虫模拟成浏览器访问页面

　　由于urlopen不支持一些HTTP的高级功能，所以要想达到预期的访问效果，有两种方式。

　　一是使用build_opener()修改报头，二是使用add_header()添加报头。本人更加倾向于第二种，使用方法如下

# 添加报头

req = ur.Request(url)

req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0')

四、设置服务器代理

# 设置代理

proxy = ur.ProxyHandler({'http': proxy_add})

opener = ur.build_opener(proxy, ur.HTTPHandler)

ur.install_opener(opener)

五、爬行页面并信息存档

# 读取数据

info = ur.urlopen(req).read()

fh = open(aim_file, "wb")

# 信息转档

fh.write(info)

# 关闭文件

fh.close()

六、源代码：

 import urllib.request as ur

 # 代理服务器的地址

 proxy_add = "110.183.238.145:811"

 # 获取目标网址

 url = "https://www.baidu.com"

 # 设置目标文档（路径+文件名【包括后缀】）

 aim_file = "E:/workspace/PyCharm/codeSpace/books/python_web_crawler_book/chapter4/demo2/1.html"

 # 添加报头

 req = ur.Request(url)

 req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0')

 # 设置代理

 proxy = ur.ProxyHandler({'http': proxy_add})

 opener = ur.build_opener(proxy, ur.HTTPHandler)

 ur.install_opener(opener)

 # 读取数据

 data = ur.urlopen(req).read()

 # 文件指向

 fh = open(aim_file, "wb")

 # 信息转档

 fh.write(data)

 # 关闭文件

 fh.close()

手动爬虫之流程笔记1(python3)的更多相关文章

手动爬虫之京东笔记本栏（ptyhon3）
import urllib.request as ur import urllib.error as ue import re # 目标网址 url = 'https://list.jd.com/li ...
Ubuntu下配置python完成爬虫任务（笔记一）
Ubuntu下配置python完成爬虫任务(笔记一) 目标: 作为一个.NET汪,是时候去学习一下Linux下的操作了.为此选择了python来边学习Linux,边学python,熟能生巧嘛. 前期目 ...
scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
学习笔记：python3，代码。小例子习作（2017）
http://www.cnblogs.com/qq21270/p/7634025.html 学习笔记:python3,一些基本语句(一些基础语法的代码,被挪到这里了) 日期和时间操作 http://b ...
学习笔记：python3，代码。小例子习作
http://www.cnblogs.com/qq21270/p/7634025.html 学习笔记:python3,一些基本语句(一些基础语法的代码,被挪到这里了) 日期和时间操作 http://b ...
python 之爬虫基本流程
python 之爬虫基本流程一用户获取网络数据的方式: 方式1:浏览器提交请求--->下载网页代码--->解析成页面方式2:模拟浏览器发送请求(获取网页代码)->提取有用的数据 ...
python 网络爬虫全流程教学，从入门到实战（requests+bs4+存储文件）
python 网络爬虫全流程教学,从入门到实战(requests+bs4+存储文件) requests是一个Python第三方库,用于向URL地址发起请求 bs4 全名 BeautifulSoup4, ...
手动爬虫之淘宝笔记本栏（ptyhon3）
1.这次爬虫用到了之前封装的Url_ProxyHelper类,源代码如下 import urllib.request as ur class Url_ProxyHelper: def __init__ ...
手动爬虫之报头及代理封装类（python3）
本人刚刚学习爬虫,见每次都需要添加报头比较繁琐,故将该过程封装为Url_ProxyHelper类,代码如下 import urllib.request as ur class Url_ProxyHel ...

随机推荐

FIFO、LRU、OPT页面调度算法及样例
网上非常多介绍3种页面置换算法的样例和过程是不对的, 本文依据<操作系统概念>第七版对三种算法做介绍,并给出正确的样例以验证算法. 一.FIFO先进先出页面置换算法,创建一个FIFO队列来 ...
Smart Client技术简要总结
摘要:Smart Client简称智能客户端,是Microsoft推出的一种将B/S(瘦客户端)和C/S(胖客户端)结合在一起的一种技术.Smart Client结合了B/S和C/S的优势,具有新的特 ...
python 配置
一.下载 https://www.python.org/ftp/python/3.4.2/python-3.4.2.amd64.msi 二.配置python--eclipse插件 1.直接在eclip ...
Android架构须知
1.了解不同版本号的特性包含IDE的. 如:AsyncTask3.0之后和之前的差别.Android 5.0的新的API.Android 6.0 不能用HttpClient .AS2.0的新特性等等 ...
tomcat web 修改logo
第一种: 打开tomcat目录,进入 D:\tomcat\apache-tomcat-7.0.50-1\webapps\ROOT 找到favicon.ico图标然后替换成自己的第二种: 由于tom ...
MapReduce编程实例3
MapReduce编程实例: MapReduce编程实例(一),详细介绍在集成环境中运行第一个MapReduce程序 WordCount及代码分析 MapReduce编程实例(二),计算学生平均成绩 ...
使用uGUI系统玩转标准俄罗斯方块
使用uGUI系统玩转标准俄罗斯方块笔者使用的Unity3D版本是4.6b17.由于一些工作上的一些事情导致制作的进度被严重滞后.笔者实际用于开发俄罗斯方块的时间,大概也就2-3天吧. 开始前的准备 ...
ubuntu 安装 qt等软件
1 ubuntu安装qt4 sudo apt-get install qt4-dev-tools qt4-designer qt4-doc qt4-qtconfigqt4-demos qt4-qmak ...
JQ实现小火箭效果
点击返回顶部以动画方式返回 $(function(){ $(window).scroll(function(){ //当滚动距离超过50后,显示按钮: ...
hibernate中的java对象有几种状态，其相互关系如何（区别和相互转换）。
hibernate中的java对象有几种状态,其相互关系如何(区别和相互转换). 解答:在Hibernate中,对象有三种状态:临时状态.持久状态和游离状态. 临时状态:当new一个实体对象后,这个对 ...

手动爬虫之流程笔记1(python3)

手动爬虫之流程笔记1(python3)的更多相关文章

随机推荐

热门专题