Python爬虫总结

Python爬虫的原理：1通过URLopen（）来获取到url页面，这个过程可以加代理

　　　　　　　　　2这个页面上都是字符串，所以我们而通过字符串查找的方法来获取到目标字符串，用到了正则来匹配目标re.findall(pattern,string)

　　　　　　　　　　或者查找页面的字符串，bs4.Beautifulsoup（html）可以将url页面的标签提取出来，提升查找效率

　　　　　　　　　3.目标字符串为网址：urlretrieve（）或者写到excel中

代理访问：

 url='http://www.baidu.com'

 iplist=['121.226.174.246:8080','210.38.1.142:8080','210.38.1.143:8080']

 proxyhandler=urllib.request.ProxyHandler({'http':random.choice(iplist)})

 openner=urllib.request.build_opener(proxyhandler)

 openner.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) '

 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0')]

 urllib.request.install_opener(openner)

 response=urllib.request.urlopen(url)

 html=response.read().decode('utf-8')

beautifulsoup 来把所有的标签都列出来，然后通过标签的属性来找出每个标签下的url

 url="https://tieba.baidu.com/p/1988291937?fr=ala0&pstaala=1&tpl=5&isgod=0"

 html=urllib.request.urlopen(url)

 bsobj=bs4.BeautifulSoup(html)     #beautifulsoup直接定位标签

 print(type(bsobj))

 imglist=bsobj.findAll("img",{"src":re.compile(".*\.jpg")})  #imglist是含有所有标签类型的元素  img是一个标签   src是标签的属性

 for img in imglist:

     print(img["src"])

对图片进行下载

 def get_img(html):

     p=r'<img class="BDE_Image" src="([^"]+\.jpg)"'

     imglist=re.findall(p,html)

     # for each in imglist:

     #     print(each)

     for each in imglist:

         filename=each.split("/")[-1]

         urllib.request.urlretrieve(each,filename,None)

Python爬虫总结的更多相关文章

Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
python 爬虫（二）
python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能 ...
Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...
[python]爬虫学习（一）
要学习Python爬虫,我们要学习的共有以下几点(python2): Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy ...
python爬虫学习(1) —— 从urllib说起
0. 前言如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫所以建议先学习一下cuiqingcai大神的 Pyth ...

随机推荐

中点Bresenham画圆
这里不仔细讲原理,只是把我写的算法发出来,跟大家分享下,如果有错误的话,还请大家告诉我,如果写的不好,也请指出来,一起讨论进步. 算法步骤: (1) 输入圆的半径R. (2) 计算初始值d = 1 - ...
vue插件编写与实战
关于微信公众号:前端呼啦圈(Love-FED) 我的博客:劳卜的博客知乎专栏:前端呼啦圈前言热爱vue开发的同学肯定知道awesome-vue 这个github地址,里面包含了数以千计的vue ...
python的eval函数
eval函数介绍:将字符串str当成有效的表达式来求值并返回计算结果.语法: eval(source[, globals[, locals]]) -> value参数: source:一个Pyt ...
Tomcat闪退的问题
问题:双击tomcat bin下的startup.bat,tomcat的窗口一闪而过,未成功启动: 原因是:在启动tomcat是,需要读取环境变量和配置信息,缺少了这些信息就会导致了tomcat的闪退 ...
对响应数据写在config文件的再次优化
之前写过 [基于moco的mock server 简单应用]这篇文章,然后自己这段时间也在做基金的接口测试,逛了一些论坛,然后对响应数据写在config文件的再次优化,之前是把所有的响应数据都写到c ...
sed修炼系列(四)：sed中的疑难杂症
本文目录:1 sed中使用变量和变量替换的问题2 反向引用失效问题3 "-i"选项的文件保存问题4 贪婪匹配问题5 sed命令"a"和"N" ...
bootstrap 基础（一）
1 bootstrap简介 bootstrap是Twitter公司的两名前端设计师设计的. bootstrap是一款基于HTML.CSS和JavaScript的一个前端框架. bootstrap的特点 ...
Spring 事务管理笔记
本文为 Spring 框架的事务管理学习笔记,官网文档地址为:Transaction Management,隔离级别及传播属性解释来自 org.springframework.transaction. ...
fixed定位兼容性
不过从ios5.1以来,fixed定位就已经支持了,但很遗憾,ios现在对它还只是半支持. 但是在某些情况下,会出现一些比较奇葩的问题,比如fixed元素中存在输入框子元素,这个时候就会跪了. 可以看 ...
JAVA 文件编译执行与虚拟机(JVM)简单介绍
详见:http://blog.yemou.net/article/query/info/tytfjhfascvhzxcytpo3 java程序的内存分配 JAVA 文件编译执行与虚拟机(JVM)介绍 ...

Python爬虫总结

Python爬虫总结的更多相关文章

随机推荐

热门专题