urllib-Proxy

代理的使用：

首先，当我们正确爬取一个网页时，发现代码没有错误，可就是不能爬取网站。原因是有些网站设置了反爬取手段，就是知道你就是用python代码爬取该网站，设置了屏蔽。如果我们又想爬取该网站，便要我们使用代理服务了。

from urllib import request

url = "http://httpbin.org/"

headers = {

    #使用代理 伪装一个火狐浏览器

    "User-Agent":'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0',

    "host":'httpbin.org'

}

req = request.Request(url=url,headers=headers)      #发出url请求

response = request.urlopen(req)                     #打开req对象

print(response.read().decode("utf-8"))

from urllib import request

url = "http://httpbin.org/"

req = request.Request(url=url)      #发出url请求

req.add_header(

    "User-Agent",'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'

)

response = request.urlopen(req)                     #打开req对象

print(response.read().decode("utf-8"))

意思就是以浏览器的身份去访问被屏蔽的网站，这样就不会被认为是python爬取的代码了

urllib-Proxy的更多相关文章

urllib的实现---timeout,获取http响应码，重定向，proxy的设置
1.Timeout设置超时只能修改Socket设置全局Timeout #! /usr/bin/env python3 import socket import urllib.request # ti ...
Python3使用urllib访问网页
介绍改教程翻译自python官网的一篇文档. urllib.request是一个用于访问URL(统一资源定位符)的Python模块.它以urlopen函数的形式提供了一个非常简单的接口,可以访问使用 ...
urllib源码简单分析
对下面这段代码做分析 import urllib params = urllib.urlencode({'wd': 'python'}) f = urllib.urlopen("http:/ ...
爬虫---request+++urllib
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕 ...
python2 urllib 笔记
python2 urllib 笔记 import urllib base='http://httpbin.org/' ip=base+'ip' r=urllib.urlopen(ip) print r ...
Python3学习笔记（urllib模块的使用）转http://www.cnblogs.com/Lands-ljk/p/5447127.html
Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, ...
urllib,urllib2,requests对比
#coding:utf-8 import urllib2 import urllib import httplib import socket import requests #实现以下几个方面内容: ...
[转]Python中urllib与urllib2的区别与联系
引用文章1:http://my.oschina.net/u/558071/blog/144792 引用文章2:http://zhuoqiang.me/python-urllib2-usage.html ...
python中urllib, urllib2,urllib3, httplib,httplib2, request的区别
permike原文python中urllib, urllib2,urllib3, httplib,httplib2, request的区别若只使用python3.X, 下面可以不看了, 记住有个ur ...
Python3 内建模块 hashlib、itertools、HTMLParser、urllib
Python的hashlib提供了常见的摘要算法,如MD5,SHA1等等. 什么是摘要算法呢?摘要算法又称哈希算法.散列算法.它通过一个函数,把任意长度的数据转换为一个长度固定的数据串(通常用16进制 ...

随机推荐

不用代码就能实现get与post
这些天在测试各种API,每次都敲代码实现,就显得有点浪费时间了为了节约时间,提高效率,我想着收集一些可以只用 -命令行- 或者是 -浏览器- 就能够实现的技巧在这里,我简单测试三种工具来实现 ge ...
互相关（cross-correlation）及其在Python中的实现
互相关(cross-correlation)及其在Python中的实现在这里我想探讨一下“互相关”中的一些概念.正如卷积有线性卷积(linear convolution)和循环卷积(circular ...
slickedit编译调试linux应用程序
目录 slickedit编译调试linux应用程序工程建立编译智能报错跳转配置编译环境调试 title: slickedit编译调试linux应用程序 date: 2019/3/19 17: ...
HBase海量数据存储
1.简介 HBase是一个基于HDFS的.分布式的.面向列的非关系型数据库. HBase的特点 1.海量数据存储,HBase表中的数据能够容纳上百亿行*上百万列. 2.面向列的存储,数据在表中是按照列 ...
关于IsDeleted，Islock,State类型Bit,char(1),tinyint的探讨
做IsDeleted,Islock,State时,字段的数据类型选择一般有三种Bit,char,tinyint,大于2个字节的类型我们暂时不考虑,这里以mssql为例. 数据大小: Bit,char ...
oldboy s21day14装饰器模块和面试题
# 1.为函数写一个装饰器,在函数执行之后输入 after"""def wrapper(arg): def inner(*args): arg() print('afte ...
[转载]再谈PostgreSQL的膨胀和vacuum机制及最佳实践
本文转载自 www.postgres.cn 下的文章: 再谈PostgreSQL的膨胀和vacuum机制及最佳实践http://www.postgres.cn/news/viewone/1/390 还 ...
order by 的用法
select * from emp order by sal desc --将员工工资按照由高到低的顺序排列
sqli注入--利用information_schema配合双查询报错注入
目录 sqli-labs 5.6双查询报错注入通关 0x01 获取目标库名 0x02 获取库中表的数量 0x03 获取库中表名 0x04 获取目标表中的列数 0x05 获取目标表的列名 0x06 从列 ...
DBA_TABLES ALL_TABLES USER_TABLES
DBA_TABLES >= ALL_TABLES >= USER_TABLES DBA_TABLES意为DBA拥有的或可以访问的所有的关系表. ALL_TABLES意为某一用户拥有的或可以 ...

urllib-Proxy

代理的使用：

urllib-Proxy的更多相关文章

随机推荐

热门专题