4 中文乱码 selenium的使用
# 中文乱码
#处理中文乱码
import requests
from lxml import etree
from urllib import request
url = 'http://pic.netbian.com/4kqiche/'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
response = requests.get(url=url,headers=headers) #响应
#手动设置响应数据的编码
# response.encoding = 'utf-8'
page_text = response.text
tree = etree.HTML(page_text) #实例化
li_list = tree.xpath('//div[@class="slist"]/ul/li')
for li in li_list:
img_src = li.xpath('./a/img/@src')[0]
img_name = li.xpath('./a/b/text()')[0]
# 通用性
img_name = img_name.encode('iso-8859-1').decode('gbk') #西欧 向下兼容ascii 一般浏览器默认的文本编码格式
request.urlretrieve(url="http://pic.netbian.com"+img_src,filename='./图片/%s.jpg'%img_name) #相对路径
# request.urlretrieve(url="http://pic.netbian.com"+img_src,filename=r'C:\spider\day01\图片\%s.jpg'%img_name) #绝对路径
print(img_name,'0k')
print('OK')
连接池报警 请求头改 Connection: keep-alive 为close
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36
代理IP 在IP被封禁后
每次请求之间sleep进行间隔等待
模拟登陆 -- 爬取基于某些用户的用户信息
验证码识别:云打码平台 http://www.yundama.com/ 打码兔 超级鹰
使用流程:
注册
登陆:
普通用户:
查询剩余提分(充值) http://www.yundama.com/price.html
开发者用户:
创建软件:我的软件-》添加新软件(ID,秘钥)
下载示例代码:开发文档-》点此下载:云打码接口DLL-》PythonHTTP示例下载
代理:代理服务器
- 快代理
- 西祠代理
- goubanjia
匿名度:
透明:对方服务器知道你使用了代理ip也知道你的真实ip
匿名:知道你使用了代理ip但是不知道你的真实ip
高匿:什么都不知道
类型:
http:只可以发起http请求
https:只可以发起https的请求
# 代理池
import requests
url = 'http://www.baidu.com/s?wd=ip'
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}
page_text = requests.get(url=url,headers=headers,proxies={'http':'117.127.0.202:80'}).text
with open('./ip.html','w',encoding='utf-8') as fp:
fp.write(page_text)
# 构建代理池
http_list = [
{'http':'60.190.250.120:8080'},
{'http':'60.190.250.120:8080'},
{'http':'60.190.250.120:8080'}
]
https_list = [
{'https':'60.190.250.120:8080'},
{'https':'60.190.250.120:8080'},
{'https':'60.190.250.120:8080'}
]
# selenium 自动化
# 用来完成浏览器自动化相关的操作,可以通过代码的形式制定一些基于浏览器自动化的(行为动作),当代码执行后,浏览器就会自动触发定义的事件.
- 环境安装:
pip install selenium
下载对应浏览器的驱动软件
http://chromedriver.storage.googleapis.com/index.html
查看驱动和浏览器版本的映射关系:
http://blog.csdn.net/huilan_same/article/details/51896672
- 编码流程:
- 导包
- 实例化某一款浏览器对象
- 制定相关行为动作
Selenium支持非常多的浏览器,如Chrome、Firefox、Edge等,还有Android、BlackBerry等手机端的浏览器。另外,也支持无界面浏览器PhantomJS。
PhantomJS 现在停止维护更新了,不建议使用,在无界面领域,建议google的chrome无头.
https://www.cnblogs.com/bobo-zhang/p/9685362.html 更多请浏览这个link
# 简单的百度自动化处理 chromedriver.exe是个软件
from selenium import webdriver # web驱动 显式的自动化浏览器操作
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get('https://www.baidu.com')
sleep(2)
# 标签定位
tag_input = bro.find_element_by_id('kw')
tag_input.send_keys('人民币') btn = bro.find_element_by_id('su')
btn.click()
sleep(2) bro.quit() # 退出
from selenium import webdriver # 显式的Js滚轮操作
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get('https://xueqiu.com')
sleep(5)
# 执行js实现滚轮向下滑动
js = "window.scrollTo(0,document.body.scrollHeight)"
bro.execute_script(js)
sleep(2)
bro.execute_script(js)
sleep(2)
bro.execute_script(js)
sleep(2)
bro.execute_script(js)
sleep(2)
bro.execute_script(js)
sleep(2)
# 加载更多的处理
a_tag = bro.find_element_by_xpath('//*[@id="app"]/div[3]/div/div[1]/div[2]/div[2]/a')
a_tag.click()
sleep(5)
# 获取当前浏览器页面数据(动态数据)
bro.page_source # 可print bro.quit() # 退出
# 一款无可视化的浏览器(免安装) 基于谷歌无头
# 谷歌无头浏览器
from selenium import webdriver
from time import sleep
from selenium.webdriver.chrome.options import Options
# 创建一个参数对象,用来控制chrome以无界面模式打开
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu') bro = webdriver.Chrome(executable_path='./chromedriver.exe',options=chrome_options)
bro.get('https://www.baidu.com')
sleep(2)
bro.save_screenshot('1.png') #拍照截屏
#标签定位
tag_input = bro.find_element_by_id('kw')
tag_input.send_keys('人民币')
sleep(2) btn = bro.find_element_by_id('su') # 找见 百度一下 按钮
btn.click() # 点击进行搜索
sleep(2) print(bro.page_source) # 打印页面资源
bro.quit() #退出
# 前进后退
# 模拟浏览器 前进 后退
from time import sleep
from selenium import webdriver bro=webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get('https://www.baidu.com')
sleep(1)
bro.get('https://www.taobao.com')
sleep(1)
bro.get('https://sogou.com')
sleep(1) browser.back() #后退
sleep(1)
browser.forward() #前进
print(bro.page_source)
sleep(1)
bro.close()
# 动作链 拖动 点击
#动作链
from selenium import webdriver
from time import sleep
from selenium.webdriver import ChromeOptions
from selenium.webdriver import ActionChains #动作链的类 option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation']) bro = webdriver.Chrome(executable_path='./chromedriver.exe',options=option)
url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
bro.get(url=url)
#如果定位的标签存在于iframe标签之中,则必须经过switch_to(切换参照物)操作在进行标签定位 页面加载的子页面
bro.switch_to.frame('iframeResult') # frame的id
source_tag = bro.find_element_by_id('draggable') # 开始地
taget_tag = bro.find_element_by_id('droppable') # 目的地
#创建一个动作链的对象
action = ActionChains(bro) #实例化动作链对象 传入浏览器对象
action.drag_and_drop(source_tag,taget_tag)
action.perform() #执行
sleep(3)
# bro.quit() # 退出
# 动作链 简单版
from selenium import webdriver
from time import sleep
from selenium.webdriver import ActionChains
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
url = 'https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
bro.get(url=url)
#如果定位的标签存在于iframe标签之中,则必须经过switch_to操作在进行标签定位
bro.switch_to.frame('iframeResult')
source_tag = bro.find_element_by_id('draggable')
#创建一个动作连的对象
action = ActionChains(bro)
action.click_and_hold(source_tag) for i in range(4):
#perform表示开始执行动作链
action.move_by_offset(20,0).perform() #x,y 水平/垂直像素
sleep(1)
bro.quit()
# 如何规避selenium被检测到?
正常情况下我们用浏览器访问淘宝等网站的 window.navigator.webdriver的值为 undefined。
而使用selenium访问则该值为true. 只需要设置Chromedriver的启动参数即可解决问题。在启动Chromedriver之前,为Chrome开启实验性功能参数excludeSwitches,
它的值为['enable-automation'],完整代码如下:
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = Chrome(options=option)
# QQ空间的模拟登录
# 只在没有验证码情况下适用 QQ空间模拟登陆
from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
url = 'https://qzone.qq.com'
bro.get(url=url)
#如果定位的标签存在于iframe标签之中,则必须经过switch_to操作在进行标签定位
bro.switch_to.frame('login_frame')
input_tag = bro.find_element_by_id('switcher_plogin').click()
bro.find_element_by_id('u').send_keys('') #这里填写你的QQ号
bro.find_element_by_id('p').send_keys('') #这里填写你的QQ号
bro.find_element_by_id('login_button').click()
sleep(3)
print(bro.page_source)
bro.save_screenshot('zone.png') # 截屏 拍照
bro.quit()
# QQ空间模拟
from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
url = 'https://qzone.qq.com'
bro.get(url=url)
#如果定位的标签存在于iframe标签之中,则必须经过switch_to操作在进行标签定位
bro.switch_to.frame('login_frame')
avartar_tag = bro.find_element_by_id('img_out_576951284').click()
sleep(3)
print(bro.page_source)
bro.save_screenshot('zone.png')
bro.quit()
4 中文乱码 selenium的使用的更多相关文章
- RoportNG报表显示中文乱码和TestNG显示中文乱码实力解决办法
最近在进军测试自动化框架学习阶段,但无意间总是会伴随小问题的困扰,比如中文乱码,而导致显示总是不舒服,个人觉得,就一定要解决,似乎有点点强迫症.所以遇到RoportNG报表显示中文乱码和TestNG显 ...
- HTMLTestRunner测试报告中文乱码问题解决
在学习python selenium自动化测试学习中遇到HTMLTestRunner测试报告出现乱码的问题 Test Group/Test case Count Pass Fail Error Vie ...
- ReportNG报表显示中文乱码和TestNG显示中文乱码实力解决办法
最近在进军测试自动化框架学习阶段,但无意间总是会伴随小问题的困扰,比如中文乱码,而导致显示总是不舒服,个人觉得,就一定要解决,似乎有点点强迫症.所以遇到ReportNG报表显示中文乱码和TestNG显 ...
- java中文乱码解决之道(一)-----认识字符集
沉寂了许久(大概有三个多月了吧),LZ"按捺不住"开始写博了! java编码中的中文问题是一个老生常谈的问题了,每次遇到中文乱码LZ要么是按照以前的经验修改,要么则是baidu.c ...
- MAC下 mysql不能插入中文和中文乱码的问题总结
MAC下 mysql不能插入中文和中文乱码的问题总结 前言 本文中所提到的问题解决方案,都是基于mac环境下的,但其他环境,比如windows应该也适用. 问题描述 本文解决下边两个问题: 往mysq ...
- java中文乱码解决之道(九)-----总结
乱码,我们前台展示的杀手,可能有些朋友和我的经历一样:遇到乱码先按照自己的经验来解决,如果没有解决就google,运气好一搜就可以解决,运气不好可能够你折腾一番了.LZ之所以写这个系列博客就是因为遇到 ...
- 解决springmvc+mybatis+mysql中文乱码问题【转】
这篇文章主要介绍了解决java中springmvc+mybatis+mysql中文乱码问题的相关资料,需要的朋友可以参考下 近日使用ajax请求springmvc后台查询mysql数据库,页面显示中文 ...
- freemarker页面中文乱码
一.前言 简单的记录freemarker遇到的错误问题:ftl页面中文乱码 由于freemarker整合在ssm框架中,所以笔者直接贴配置代码 <beans xmlns="http:/ ...
- tomcat项目中文乱码问题解决方法
在部署tomcat项目时经常会遇到中文乱码问题,解决的方法可参考以下步骤. 1.更改Tomcat安装目录下的conf\server.xml,指定浏览器的编码格式为"utf-8"格式 ...
随机推荐
- Android 验证APK签名对比
最近OTT制定产品,其中有一条需求是只能安装自己公司签名的APK,所以在网上找了相关资料,最后总结功能实现如下: 1.签名错误码frameworks/base/core/java/android/co ...
- laravel实现excel表的导入导出功能
1.这是个我去公司之后曾经折磨我很久很久的功能查阅了很多资料但是功夫不负有心人在本人的不懈努力下还是实现了这个功能 (ps看不懂我下面说讲述的可以参考这个laravel学院的官方文档 https:// ...
- python3 求一个list的所有子集
python3 求一个list的所有子集 def PowerSetsBinary(items): N = len(items) for i in range(2 ** N):#子集的个数 combo ...
- Linux, Nginx - Deepin linux手动安装nginx和出现的问题
安装步骤 切换至root su 安装依赖库 sudo apt-get install build-essential && sudo apt-get install libtool s ...
- CAN总线电平(隐性与显性)
CAN2.0B规范定义了两种互补的逻辑数值:显性和隐性.同时传送显性和隐性位时,总线呈现显性状态:同时传送显性状态位时,总线呈现显性状态:同时传送隐性状态位时,总线呈现隐性状态.显性数 ...
- 题解【CJOJ2608】[JZOJ 100043]第k小数
P2608 - [JZOJ 100043]第k小数 Description 有两个非负整数数列,元素个数分别为N和M.从两个数列中分别任取一个数相乘,这样一共可以得到N*M个数,询问这N*M个数中第K ...
- 【音乐欣赏】《紅蓮華》 - LiSA
曲名:紅蓮華 作者:LiSA [00:00.92]強くなれる理由を知った [00:07.34]僕を連れて 進め [00:18.74]泥だらけの走馬灯に酔う [00:24.37]強張る心 震える手は [ ...
- mysql 同时支持多少连接MYSQL 查看最大连接数和修改最大连接数
MySQL查看最大连接数和修改最大连接数 1.查看最大连接数 show variables like '%max_connections%'; 2.修改最大连接数 set GLOBAL max_con ...
- instGroup/constraint/Gcell/busguide/netgroup/Bump
1. instGroup Instance group.中文名例化单元组.Instance group可以用来group一些instances, 在做placement时,如果你希望一些instanc ...
- 95. 不同的二叉搜索树 II、96. 不同的二叉搜索树
95 Tg:递归 这题不能算DP吧,就是递归 一个问题:每次的树都要新建,不能共用一个根节点,否则下次遍历对根左右子树的改动会把已经放进结果数组中的树改掉.. class Solution: def ...