用python语言编写网络爬虫
本文主要用到python3自带的urllib模块编写轻量级的简单爬虫。至于怎么定位一个网页中具体元素的url可自行百度火狐浏览器的firebug插件或者谷歌浏览器的自带方法。
1、访问一个网址
re=urllib.request.urlopen('网址‘)
打开的也可以是个urllib.request.Request对象,后边也可以跟数据参数,当有传入数据时会自动变为POST请求;
2、urllib.request.Request(url,data=None,headers={})对象属性和方法
- full_url
- type
- host
- data
- selector
- method
- get_method()
- add_header(key,val)
- add_unredirected_header(key,header)
- has_header(header)
- remove_header(header)
- get_full_url(header)
- set_proxy(host,type)
- get_header(header_name,default=None)
15 header_items()
3、已连接对象的可用方法:
- re.read() 读取内容,想要将内容保存下来,需先新建一个相应格式的文件,再将读取到的内容写入到这个文件内即可;
- re.geturl() 可取得已打开对象的url地址;
- re.info() 可取得响应服务器的信息;
- re.getcode() 可取得响应状态码;
- urllib.parse.urlencode() 将一个存储post数据的字典转换成打开网页所需要的数据格式;
可用json.loads()将文本转换成键值对
可在传地址时将header以一个字典数据的形式传入,以隐藏自己的访问方式;也可用re.add_header('') 的方式进行追加;
4、当知道一个文件的url时可用此方法直接下载保存到本地
urllib.request.urlretrieve('http://wx1.sinaimg.cn/mw600/9bbc284bgy1ffkuafn4xtj20dw0jgh08.jpg','bc.jpg')
5、登录功能的实现(post)
(1)利用session保留登录状态
- login_data = {
- '_xsrf': getXSRF(baseurl),
- 'password': password,
- 'remember_me': 'true',
- 'email': email,
- session = requests.session()
- content = session.post(url, headers = headers_base, data = login_data)
- s = session.get("http://www.zhihu.com", verify = False)
- print s.text.encode('utf-8')
(2)利用cookie进行登录
- post = {
- 'ua':self.ua,
- 'TPL_checkcode':'',
- 'CtrlVersion': '1,0,0,7',
- 'TPL_password':'',
- }
- #将POST的数据进行编码转换
- postData = urllib.urlencode(post)
- cookie = cookielib.LWPCookieJar()
- cookieHandler = urllib2.HTTPCookieProcessor(cookie)
- opener = urllib2.build_opener(cookieHandler, urllib2.HTTPHandler)
- #第一次登录获取验证码尝试,构建request
- request = urllib2.Request(loginURL,postData,loginHeaders)
- #得到第一次登录尝试的相应
- response = self.opener.open(request)
- #获取其中的内容
- content = response.read().decode('gbk')
网站常用的编码方式有utf8,gbk,gb2132,gb18030等
6、代理的使用
同一个Ip设备在短时间内访问一个服务器次数过多会被服务器禁止访问,所以很多时候我们都需要用天代理来帮助我们解决这个问题。方法如下:
- proxy_support = urllib.request.ProxyHandler({类型:代理ip和端口号})
- opner = urllib.request.build_opener(proxy_suppoert)
- urllib.request.install_opener(opener) #可选安装
- opener.open(url) #或直接调用opener代理
注:如想实现更复杂的可使用更全面的scrapy框架。
附:自己写的一个验证网上代理的有效性的爬虫,此爬虫先从网站上获取代理的地址,然后使用这个代理来访问百度,验证是否能得到百度的网页,如能则将此代理地址保存。
- import threading,time,pickle,re
- import urllib.request
- class ProxyCheck(threading.Thread):
- def __init__(self,proxylist):
- threading.Thread.__init__(self)
- self.proxylist = proxylist
- self.timeout = 5
- self.test_url = 'http://www.baidu.com'
- self.test_str = ''
- self.checkedProxyList = []
- def checkProxy(self):
- cookies = urllib.request.HTTPCookieProcessor()
- for proxy in self.proxylist:
- proxy_handler = urllib.request.ProxyHandler({'http':r'%s://%s:%s' %(proxy[0],proxy[1],proxy[2])})
- opener = urllib.request.build_opener(cookies,proxy_handler)
- opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
- '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')]
- urllib.request.install_opener(opener)
- t1 = time.time()
- try:
- req = urllib.request.urlopen(self.test_url,timeout=self.timeout)
- result = req.read().decode('utf-8')
- timeused = time.time() - t1
- pos = result.find(self.test_str)
- if pos > 1:
- self.checkedProxyList.append((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
- print((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
- else:
- continue
- except:
- continue
- # def sort(self):
- # sorted(self.checkedProxyList,cmp=lambda x,y:cmp(x[4],y[4]))
- def save(self,filename):
- with open("%s.txt"%filename,'w') as f:
- for proxy in self.checkedProxyList:
- f.write("{}\t{}:{}\t{}\t{}\n".format(*proxy))
- with open("%s.pickle"%filename,'wb') as fb:
- pickle.dump(self.checkedProxyList,fb)
- def run(self):
- self.checkProxy()
- self.save("checked-50")
- class xiciProxy:
- def __init__(self):
- self.alllist = []
- def grep(self,url):
- # req = urllib.request.Request(url)
- # req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
- # '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')
- result1 = urllib.request.urlopen(req)
- result2 = result1.read().decode('utf-8')
- regex = r"<td>(\d+.\d+.\d+.\d+)</td>\n.*?" \
- r"<td>(\d+)</td>\n.*?" \
- r"\n.*?" \
- r"<a href=.*?>(.*?)</a>\n.*?" \
- r"\n.*?" \
- r"\n.*?" \
- r"<td>(HTTPS?)</td>"
- get = re.findall(regex,result2)
- proxylist = []
- for i in get:
- proxylist.append((i[3],i[0],i[1],i[2]))
- return proxylist
- def save(self,filename):
- with open("%s.txt"%filename,'w') as f:
- for proxy in self.alllist:
- f.write("{}\t{}:{}\t{}\n".format(*proxy))
- with open("%s.pickle"%filename,'wb') as fb:
- pickle.dump(self.alllist,fb)
- def run(self):
- for i in range(51,1951):
- url = "http://www.xicidaili.com/nn/{}".format(i)
- print(url)
- proxylist = self.grep(url)
- self.alllist += proxylist
- if i % 50 == 0:
- self.save("xiciproxy-{}".format(i))
- self.alllist = []
- with open("xiciproxy-50.pickle","rb") as fb:
- proxylist = pickle.load(fb)
- ProxyCheck(proxylist).run()
用python语言编写网络爬虫的更多相关文章
- python3编写网络爬虫18-代理池的维护
一.代理池的维护 上面我们利用代理可以解决目标网站封IP的问题 在网上有大量公开的免费代理 或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的 因为可能此IP被其他人使用 ...
- Python语言编写BP神经网络
Python语言编写BP神经网络 2016年10月31日 16:42:44 ldy944758217 阅读数 3135 人工神经网络是一种经典的机器学习模型,随着深度学习的发展神经网络模型日益完善 ...
- Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址 本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
- 使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道 使用python/casperjs编写终极爬虫-客户端App的抓取
- 运用Python语言编写获取Linux基本系统信息(三):Python与数据库编程,把获取的信息存入数据库
运用Python语言编写获取Linux基本系统信息(三):Python与数据库编程 有关前两篇的链接: 运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间 运 ...
- 运用Python语言编写获取Linux基本系统信息(二):文件系统使用情况获取
本文跟着上一篇文章继续写,上一篇文章的链接 运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间 一.随便说说 获取文件系统使用情况的思路和上一篇获取主要系统是 ...
- [Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
- 利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
- 吴裕雄--天生自然python学习笔记:编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例 就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存 将指定网站的 .jpg 和 .png 格式的图片 ...
随机推荐
- 13.什么是javabean,以及使用原则
javabean简介 javabeans就是符合某种特定的规范的java类,使用javabeans的好处是解决代码的重复编写,减少代码 冗余,功能区分明确,提高了代码的维护性. javabean的设计 ...
- Python3分析sitemap.xml抓取导出全站链接
最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个 ...
- 普通RAID磁盘数据格式规范
普通RAID磁盘数据格式规范 1.介绍 在当今的IT环境中,系统管理员希望改变他们正在使用的内部RAID方案,原因可能有以下几个:许多服务器都是附带RAID解决方案的,这些RAID解决方案是通过母板磁 ...
- Linux 压缩 与解压命令
tar命令 解包:tar zxvf FileName.tar 打包:tar czvf FileName.tar DirName gz命令 解压1:gunzip FileName.gz 解压2:gzip ...
- asp.net mvc视图中使用entitySet类型数据时提示出错
asp.net mvc5视图中使用entitySet类型数据时提示以下错误 检查了一下引用,发现已经引用了System.Data.Linq了,可是还是一直提示出错, 后来发现还需要在Views文件夹下 ...
- vue路由跳转时判断用户是否登录功能
通过判断该用户是否登录过,如果没有登录则跳转到login登录路由,如果登录则正常跳转. 一丶首先在用户登录前后分别给出一个状态来标识此用户是否登录(建议用vuex): 简单用vuex表示一下,不会可以 ...
- STL—list
前面我们分析了vector,这篇介绍STL中另一个重要的容器list list的设计 list由三部分构成:list节点.list迭代器.list本身 list节点 list是一个双向链表,所以其li ...
- Odoo之Field
字段描述符包含了字段的定义,下面是实例化一个字段时的属性: class Field(object): :param string: 字段标签(用户所见),如果不设置ORM将取用类的字段名(大写).:p ...
- Python面向对象编程(一)
1.什么是面向对象 面向对象(oop)是一种抽象的方法来理解这个世界,世间万物都可以抽象成一个对象,一切事物都是由对象构成的.应用在编程中,是一种开发程序的方法,它将对象作为程序的基本单元. 2.面向 ...
- 为什么不需要为Python对象添加 getter 和 setter
Getter 和 setter在java中被广泛使用.一个好的java编程准则为:将所有属性设置为私有的,同时为属性写getter和setter函数以供外部使用. 这样做的好处是属性的具体实现被隐藏, ...