pip install lxml

导包
From lxml import etree
1. 注意这个是本地html就直接使用etree.parse即可
2. html_etree=etree.parse("test.html") print(html_etree)
3. Html_etree.xpath("//li")//就是直接打印出来li所有的属性
4. 获取所有li下面的的class的值 html_etree.xpath(//li/@class)
5. 获取li下的所有的span的标签 html_etree.xpath("//li//span") /是用来获取子元素的 而span和li不是子元素
6. 获取li下面的所有的a标签里面的所有的class html_etree.xpath("//li/a//@class")
7. html.xpath('//li[last()]/a/@href') # 谓语 [last()] 可以找到最后一个元素 获取最后一个li的a的href属性对应的值
8. 获取倒数第二个就是[last()-1/a] 获取倒数第二个li元素的内容

在本地没有文件的情况下使用response读取到的数据直接打开就可以了
#html_etree=etree.HTML(html)
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。

1) 一般使用html_etree.xpath("//div[@class=' ']/a//text()")
2) 使用text()就可以文字的形式的方式打印出数据 不在是打印出来的数据

Cookiejar
1. 首先需要导入import http.cookiejar
然后来进行生成这个方法 (这样就可以不用在headers里面写入cookie的值了)
#创建cookie对象可以帮助我们保存服务器向浏览器cookie中写入的内容
cookie=http.cookiejar.CookieJar()
#使用cookie对象来创建handler对象
handler=request.HTTPCookieProcessor(cookie)
#使用handler对象创建opner对象
opener=request.build_opener(handler)
最后可以直接使用open打开就行了:
req1=request.Request(url=login_url,headers=headers)
response1=opener.open(req1)
print(response1.read().decode("utf-8"))

代理ip
#构建免费代理
#proxy={
#"http":"49.86.183.163:9999",
#"https":"49.86.183.163:9999"
#}
(这里我们使用的免费ip,(快代理),公司一般都会有代理池的!)
proxy={
"http":"http://18632229371:qq6218346@119.96.174.58:28803",
"https":"http://18632229371:qq6218346@119.96.174.58:28803"
}
1. handler=request.ProxyHandler(proxies=proxy) request的proxyhandler方法
opener=request.build_opener(handler) 生成这个方法

lxml and 代理ip的更多相关文章

  1. python爬虫实战(一)——实时获取代理ip

    在爬虫学习的过程中,维护一个自己的代理池是非常重要的. 详情看代码: 1.运行环境 python3.x,需求库:bs4,requests 2.实时抓取西刺-国内高匿代理中前3页的代理ip(可根据需求自 ...

  2. 通过爬虫代理IP快速增加博客阅读量——亲测CSDN有效!

    写在前面 题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少. 了解网站的反爬机制 一般网站从以下几个方面反爬虫: 1. 通过Headers反 ...

  3. 用代理IP进行简单的爬虫——爬高匿代理网站

    用西刺代理网站的IP爬高匿代理网站 import re import _thread from time import sleep,ctime from urllib.request import u ...

  4. 【python3】如何建立爬虫代理ip池

    一.为什么需要建立爬虫代理ip池 在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑.在一段时间内被禁止访问. 这种时候,可 ...

  5. 维护爬虫代理IP池--采集并验证

    任务分析 我们爬的免费代理来自于https://www.kuaidaili.com这个网站.用`requests`将ip地址与端口采集过来,将`IP`与`PORT`组合成`requests`需要的代理 ...

  6. 免费代理ip爬虫分享

    分享一个某代理网站的免费代理ip的爬虫,直接复制到pycharm运行就可以了. 注意:爬取的代理ip有点坑,因为是免费的所以过期时间很快,可能1分钟后就会失效.并且在scrapy使用这些代理ip还会给 ...

  7. 代理 IP 云打码平台的使用

    代理ip 获取代理ip的网站: 快代理 西祠代理 www.goubanjia.com #代理ip import requests headers = { 'User-Agent':'Mozilla/5 ...

  8. requests 使用免费的代理ip爬取网站

    import requests import queue import threading from lxml import etree #要爬取的URL url = "http://xxx ...

  9. 建立爬虫代理IP池

    单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...

随机推荐

  1. 2019.6.28 校内测试 T4 【音乐会】达拉崩吧·上

    考试的一道附加题~ 一看题目描述:把区间[l,r]里每个数异或上x,求区间[l,r]里所有数的异或和,这明显的要用数据结构或RMQ吧. 恩,所以正解就是线段树啦,至于树状数组行与否,不知道~ wate ...

  2. 三十、CentOS 7之systemd

    一.系统启动流程 POST --> bootloader  --> MBR工作 --> kernel(initramfs/initrd) --> ro rootfs --> ...

  3. 十二、 RAID

    https://blog.51cto.com/sonlich http://note.youdao.com/noteshare?id=17083150f38dd19343f82ea6cc0e0e62& ...

  4. 学习GeoServer遇到的问题及答案

    简介:本文的记录学习GeoServer遇到的问题,如果已有答案将会附上. 1.GeoServer介绍?,功能? GeoServer 是 OpenGIS Web 服务器规范的 J2EE 实现,利用 Ge ...

  5. Java排序之计数排序

    Java排序之计数排序 计数排序思路 计数排序适用于有明确范围的数组,比如给定一个数组,且知道所有值得范围是[m,n].这个时候可以使用一个n-m+1长度的数组,待排序的数组就可以散在这个数组上,数组 ...

  6. iOS App的几种安全防范

    虽然公司的项目目前还不算健壮,安全问题对于大部分小公司来说似乎并没什么必要,不过要攻击的话,我有十足的把握,我们是无法承受冲击的.嘿嘿嘿~不过带着一颗入坑iOS的心思,搜集了一下资料后,还是做了一些尝 ...

  7. k-means和iosdata聚类算法在生活案例中的运用

    引言:聚类是将数据分成类或者簇的过程,从而使同簇的对象之间具有很高的相似度,而不同的簇的对象相似度则存在差异.聚类技术是一种迭代重定位技术,在我们的生活中也得到了广泛的运用,比如:零件分组.数据评价. ...

  8. Flask模拟实现CSRF攻击的方法

    https://www.jb51.net/article/144371.htm https://www.cnblogs.com/888888CN/p/9489345.html http://xiaor ...

  9. C++ replace replace_if replace_copy replace_copy_if

    #include <iostream>#include <list>#include <algorithm>#include <iterator>#in ...

  10. 阶段5 3.微服务项目【学成在线】_day05 消息中间件RabbitMQ_4.RabbitMQ研究-安装RabbitMQ

    RabbitMQ由Erlang语言开发,Erlang语言用于并发及分布式系统的开发,在电信领域应用广泛,OTP(Open Telecom Platform)作为Erlang语言的一部分,包含了很多基于 ...