用python语言编写网络爬虫

本文主要用到python3自带的urllib模块编写轻量级的简单爬虫。至于怎么定位一个网页中具体元素的url可自行百度火狐浏览器的firebug插件或者谷歌浏览器的自带方法。

1、访问一个网址

re=urllib.request.urlopen('网址‘）

打开的也可以是个urllib.request.Request对象，后边也可以跟数据参数，当有传入数据时会自动变为POST请求；

2、urllib.request.Request(url,data=None,headers={})对象属性和方法

     full_url
     type
     host
     data
     selector
     method
     get_method()
     add_header(key,val)
     add_unredirected_header(key,header)
     has_header(header)
     remove_header(header)
     get_full_url(header)
     set_proxy(host,type)
     get_header(header_name,default=None)
15　　  header_items()

3、已连接对象的可用方法：

 re.read()    　　　　　　　　 读取内容，想要将内容保存下来，需先新建一个相应格式的文件，再将读取到的内容写入到这个文件内即可；
 re.geturl()    　　　　　　  可取得已打开对象的url地址；
 re.info()    　　　　　　　　 可取得响应服务器的信息；
 re.getcode()    　　　　　　 可取得响应状态码；
 urllib.parse.urlencode()　　将一个存储post数据的字典转换成打开网页所需要的数据格式；

可用json.loads()将文本转换成键值对

可在传地址时将header以一个字典数据的形式传入，以隐藏自己的访问方式；也可用re.add_header('') 的方式进行追加；

4、当知道一个文件的url时可用此方法直接下载保存到本地

urllib.request.urlretrieve('http://wx1.sinaimg.cn/mw600/9bbc284bgy1ffkuafn4xtj20dw0jgh08.jpg','bc.jpg')

5、登录功能的实现(post)

（1）利用session保留登录状态

 login_data = {
             '_xsrf': getXSRF(baseurl),
             'password': password,
             'remember_me': 'true',
             'email': email,
 session = requests.session()
 content = session.post(url, headers = headers_base, data = login_data)
 s = session.get("http://www.zhihu.com", verify = False)
 print s.text.encode('utf-8')

(2)利用cookie进行登录

 post = {
             'ua':self.ua,
             'TPL_checkcode':'',
             'CtrlVersion': '1,0,0,7',
             'TPL_password':'',
 }
 #将POST的数据进行编码转换
 postData = urllib.urlencode(post)
 cookie = cookielib.LWPCookieJar()
 cookieHandler = urllib2.HTTPCookieProcessor(cookie)
 opener = urllib2.build_opener(cookieHandler, urllib2.HTTPHandler)
 #第一次登录获取验证码尝试，构建request
 request = urllib2.Request(loginURL,postData,loginHeaders)
 #得到第一次登录尝试的相应
 response = self.opener.open(request)
 #获取其中的内容
 content = response.read().decode('gbk')

网站常用的编码方式有utf8,gbk,gb2132,gb18030等

6、代理的使用

同一个Ip设备在短时间内访问一个服务器次数过多会被服务器禁止访问，所以很多时候我们都需要用天代理来帮助我们解决这个问题。方法如下：

 proxy_support = urllib.request.ProxyHandler({类型：代理ip和端口号})
 opner = urllib.request.build_opener(proxy_suppoert)
 urllib.request.install_opener(opener)  #可选安装
 opener.open(url)        #或直接调用opener代理

注：如想实现更复杂的可使用更全面的scrapy框架。

附：自己写的一个验证网上代理的有效性的爬虫，此爬虫先从网站上获取代理的地址，然后使用这个代理来访问百度，验证是否能得到百度的网页，如能则将此代理地址保存。

 import threading,time,pickle,re
 import urllib.request
 
 class ProxyCheck(threading.Thread):
     def __init__(self,proxylist):
         threading.Thread.__init__(self)
         self.proxylist = proxylist
         self.timeout = 5
         self.test_url = 'http://www.baidu.com'
         self.test_str = ''
         self.checkedProxyList = []
 
     def checkProxy(self):
         cookies = urllib.request.HTTPCookieProcessor()
         for proxy in self.proxylist:
             proxy_handler = urllib.request.ProxyHandler({'http':r'%s://%s:%s' %(proxy[0],proxy[1],proxy[2])})
             opener = urllib.request.build_opener(cookies,proxy_handler)
             opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
                                                 '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')]
             urllib.request.install_opener(opener)
             t1 = time.time()
             try:
                 req = urllib.request.urlopen(self.test_url,timeout=self.timeout)
                 result = req.read().decode('utf-8')
                 timeused = time.time() - t1
                 pos = result.find(self.test_str)
                 if pos > 1:
                     self.checkedProxyList.append((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
                     print((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
                 else:
                     continue
             except:
                 continue
     # def sort(self):
     #     sorted(self.checkedProxyList,cmp=lambda x,y:cmp(x[4],y[4]))
     def save(self,filename):
         with open("%s.txt"%filename,'w') as f:
             for proxy in self.checkedProxyList:
                 f.write("{}\t{}:{}\t{}\t{}\n".format(*proxy))
         with open("%s.pickle"%filename,'wb') as fb:
             pickle.dump(self.checkedProxyList,fb)
 
     def run(self):
         self.checkProxy()
         self.save("checked-50")
 
 class xiciProxy:
     def __init__(self):
         self.alllist = []
     def grep(self,url):
         # req = urllib.request.Request(url)
         # req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
         #                             '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')
 
         result1 = urllib.request.urlopen(req)
         result2 = result1.read().decode('utf-8')
 
         regex = r"<td>(\d+.\d+.\d+.\d+)</td>\n.*?" \
                 r"<td>(\d+)</td>\n.*?" \
                 r"\n.*?" \
                 r"<a href=.*?>(.*?)</a>\n.*?" \
                 r"\n.*?" \
                 r"\n.*?" \
                 r"<td>(HTTPS?)</td>"
         get = re.findall(regex,result2)
         proxylist = []
         for i in get:
             proxylist.append((i[3],i[0],i[1],i[2]))
         return proxylist
     def save(self,filename):
         with open("%s.txt"%filename,'w') as f:
             for proxy in self.alllist:
                 f.write("{}\t{}:{}\t{}\n".format(*proxy))
         with open("%s.pickle"%filename,'wb') as fb:
             pickle.dump(self.alllist,fb)
     def run(self):
         for i in range(51,1951):
             url = "http://www.xicidaili.com/nn/{}".format(i)
             print(url)
             proxylist = self.grep(url)
             self.alllist += proxylist
             if i % 50 == 0:
                 self.save("xiciproxy-{}".format(i))
                 self.alllist = []
 
 with open("xiciproxy-50.pickle","rb") as fb:
     proxylist = pickle.load(fb)
 ProxyCheck(proxylist).run()

用python语言编写网络爬虫的更多相关文章

python3编写网络爬虫18-代理池的维护
一.代理池的维护上面我们利用代理可以解决目标网站封IP的问题在网上有大量公开的免费代理或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的因为可能此IP被其他人使用 ...
Python语言编写BP神经网络
Python语言编写BP神经网络 2016年10月31日 16:42:44 ldy944758217 阅读数 3135 人工神经网络是一种经典的机器学习模型,随着深度学习的发展神经网络模型日益完善 ...
Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道使用python/casperjs编写终极爬虫-客户端App的抓取
运用Python语言编写获取Linux基本系统信息(三)：Python与数据库编程，把获取的信息存入数据库
运用Python语言编写获取Linux基本系统信息(三):Python与数据库编程有关前两篇的链接: 运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间运 ...
运用Python语言编写获取Linux基本系统信息(二)：文件系统使用情况获取
本文跟着上一篇文章继续写,上一篇文章的链接运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间一.随便说说获取文件系统使用情况的思路和上一篇获取主要系统是 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
利用Python编写网络爬虫下载文章
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...
吴裕雄--天生自然python学习笔记：编写网络爬虫代码获取指定网站的图片
我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存将指定网站的 .jpg 和 .png 格式的图片 ...

随机推荐

13.什么是javabean，以及使用原则
javabean简介 javabeans就是符合某种特定的规范的java类,使用javabeans的好处是解决代码的重复编写,减少代码冗余,功能区分明确,提高了代码的维护性. javabean的设计 ...
Python3分析sitemap.xml抓取导出全站链接
最近网站从HTTPS转为HTTP,更换了网址,旧网址做了301重定向,折腾有点大,于是在百度站长平台提交网址,不管是主动推送还是手动提交,前提都是要整理网站的链接,手动添加太麻烦,效率低,于是就想写个 ...
普通RAID磁盘数据格式规范
普通RAID磁盘数据格式规范 1.介绍在当今的IT环境中,系统管理员希望改变他们正在使用的内部RAID方案,原因可能有以下几个:许多服务器都是附带RAID解决方案的,这些RAID解决方案是通过母板磁 ...
Linux 压缩与解压命令
tar命令解包:tar zxvf FileName.tar 打包:tar czvf FileName.tar DirName gz命令解压1:gunzip FileName.gz 解压2:gzip ...
asp.net mvc视图中使用entitySet类型数据时提示出错
asp.net mvc5视图中使用entitySet类型数据时提示以下错误检查了一下引用,发现已经引用了System.Data.Linq了,可是还是一直提示出错, 后来发现还需要在Views文件夹下 ...
vue路由跳转时判断用户是否登录功能
通过判断该用户是否登录过,如果没有登录则跳转到login登录路由,如果登录则正常跳转. 一丶首先在用户登录前后分别给出一个状态来标识此用户是否登录(建议用vuex): 简单用vuex表示一下,不会可以 ...
STL—list
前面我们分析了vector,这篇介绍STL中另一个重要的容器list list的设计 list由三部分构成:list节点.list迭代器.list本身 list节点 list是一个双向链表,所以其li ...
Odoo之Field
字段描述符包含了字段的定义,下面是实例化一个字段时的属性: class Field(object): :param string: 字段标签(用户所见),如果不设置ORM将取用类的字段名(大写).:p ...
Python面向对象编程（一）
1.什么是面向对象面向对象(oop)是一种抽象的方法来理解这个世界,世间万物都可以抽象成一个对象,一切事物都是由对象构成的.应用在编程中,是一种开发程序的方法,它将对象作为程序的基本单元. 2.面向 ...
为什么不需要为Python对象添加 getter 和 setter
Getter 和 setter在java中被广泛使用.一个好的java编程准则为:将所有属性设置为私有的,同时为属性写getter和setter函数以供外部使用. 这样做的好处是属性的具体实现被隐藏, ...

用python语言编写网络爬虫

用python语言编写网络爬虫的更多相关文章

随机推荐

热门专题