商业爬虫学习笔记day3
一. 付费代理发送请求的两种方式
第一种方式:
(1)代理ip,形式如下:
money_proxy = {"http":"username:pwd@192.168.12.11:8080"}
(2)代理的处理器
proxy_handler = urllib.request.ProxyHandler(money_proxy)
(3)通过处理器创建opener
opener = urllib.request.build_opener(proxy_handler)
(4)open发送请求
opener.open("http://www.baidu.com")
第二种方式发送付费ip地址
use_name = "abcname"
pwd = "123456"
proxy_money = "123.158.63.130:8888"
# 创建密码管理器,添加用户名和密码
password_manager = urllib.request.HTTPasswordMgrWithDefaultRealm()
# uri定位 uri>url
# url 资源定位符
password_manager.add_password(None, proxy_money, use_name, pwd)
# 创建可以验证代理ip的处理器
handle_auth_proxy = urllib.request.ProxyBasicAuthHandler(password_manager)
# 根据处理器创建opener
handle_quth = urllib.request..build_opener(handle_auth_proxy)
# 发送请求
response = opener_auth.open("http://www.baidu.com")
- import urllib.request
- #付费的代理发送
- #1.用户名密码(带着)
- #通过验证的处理器来发送
- def money_proxy_use():
- # #第一种方式付费代理发送请求
- # #1.代理ip
- # money_proxy ={"http":"username:pwd@192.168.12.11:8080"}
- # #2.代理的处理器
- # proxy_handler=urllib.request.ProxyHandler(money_proxy)
- #
- # #3.通过处理器创建opener
- # opener = urllib.request.build_opener(proxy_handler)
- # #4.open发送请求
- # opener.open("http://www.baidu.com")
- # #第二种方式发送付费的ip地址
- use_name = "abcname"
- pwd = "123456"
- proxy_money = "123.158.63.130:8888"
- #2.创建密码管理器,添加用户名和密码
- password_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()
- #uri定位 uri>url
- #url 资源定位符
- password_manager.add_password(None,proxy_money,use_name,pwd)
- #3.创建可以验证代理ip的处理器
- handle_auth_proxy = urllib.request.ProxyBasicAuthHandler(password_manager)
- #4.根据处理器创建opener
- opener_auth = urllib.request.build_opener(handle_auth_proxy)
- #5.发送请求
- response = opener_auth.open("http://www.baidu.com")
- print(response.read())
- money_proxy_use()
二. 爬取自己公司的数据,做数据分析(admin)
- import urllib.request
- def auth_nei_wang():
- #1.用户名密码
- user = "admin"
- pwd = "adimin123"
- nei_url = "http://192.168.179.66"
- #2.创建密码管理器
- pwd_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()
- pwd_manager.add_password(None,nei_url,user,pwd)
- #创建认证处理器(requests)
- auth_handler = urllib.request.HTTPBasicAuthHandler(pwd_manager)
- opener = urllib.request.build_opener(auth_handler)
- response = opener.open(nei_url)
- print(response)
- auth_nei_wang()
商业爬虫学习笔记day3的更多相关文章
- 商业爬虫学习笔记day1
day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.ne ...
- 商业爬虫学习笔记day2
1. get传参 (1)url中包含中文报错解决方法 urllib.request.quote("包含中文的url", safe = "string.printtable ...
- 商业爬虫学习笔记day4
一.获取登录后页面信息的两种方法 1.第一种方法: 人为把有效cookies加到请求头中,代码如下 import urllib.request # 确定url url = "https:// ...
- 商业爬虫学习笔记day8-------json的使用
一. 简介 JSON,全称为JavaScript Object Notation(JavaScript对象标记),它通过对象和数组的组合来表示数据,是一种轻量级的数据交换格式.它基于 ECMAScri ...
- 商业爬虫学习笔记day7-------解析方法之bs4
一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据.其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beau ...
- 商业爬虫学习笔记day6
一. 正则解析数据 解析百度新闻中每个新闻的title,url,检查每个新闻的源码可知道,其title和url都位于<a></a>标签中,因为里面参数的具体形式不一样,同一个正 ...
- 商业爬虫学习笔记day5
一. 发送post请求 import requests url = "" # 发送post请求 data = { } response = requests.post(url, d ...
- python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
- python网络爬虫学习笔记(二)BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...
随机推荐
- openssh 7.4 升级 8.3
1.删除旧版本(如果是远程连接升级,不能卸载旧版本,否则连接会断开.安装8.3完也不能卸载7.4,否则要到服务器直连重新安装8.3.) # rpm -qa |grep openssh #rpm -e ...
- 使用silky脚手架构建微服务应用
目录 模板简介 构建独立应用的模板Silky.App.Template 构建模块化应用的模板Silky.Module.Template 开源地址 在线文档 模板简介 使用 dotnet new 命令可 ...
- 使用BadBoy录制JMeter脚本
BadBoy简介 BadBoy是一款免费WEB自动化测试工具,其实就是一个浏览器模拟工具,具有录制和回放功能,支持对录制出来的脚本进行调试.同时支持捕获表单数据的功能,所以能够进行自动化测试.但目前 ...
- LeetCode刷题 字符串详解
一.字符串常用的操作 1. string类 1.1 string的定义与初始化 1.1.1 string的定义 1.1.2 string的初始化 1.2 string的赋值与swap.大小操作.关系运 ...
- spring boot+vue实现H5聊天室客服功能
spring boot+vue实现H5聊天室客服功能 h5效果图 vue效果图 功能实现 spring boot + webSocket 实现 官方地址 https://docs.spring.io/ ...
- Ubuntu更换python版本
Ubuntu更换python版本 ubuntu服务器自带的python版本是python3.6,在运行jwt包时会有版本问题,所以安装和本地相同的python版本=>python3.7 安装py ...
- 系统调用篇——SSDT
写在前面 此系列是本人一个字一个字码出来的,包括示例和实验截图.由于系统内核的复杂性,故可能有错误或者不全面的地方,如有错误,欢迎批评指正,本教程将会长期更新. 如有好的建议,欢迎反馈.码字不易, ...
- ajax的post请求获取kfc官网数据
# _*_ coding : utf-8 _*_# @Time : 2021/11/2 13:45# @Author : 秋泊酱 # 1页 # http://www.kfc.com.cn/kfccda ...
- node对象
global,node的全局对象;js在游览器中的全局对象为windows 在node环境中;输入global.consloe 输出: Console { log: [Function: bound ...
- Study Blazor .NET(二)安装
翻译自:Study Blazor .NET,转载请注明. 安装 请根据下面步骤安装开始使用Blazor: 1.针对不同的操作系统,安装最新版.Net Core框架 [这里] 2.用.Net Core ...