本文主要用到python3自带的urllib模块编写轻量级的简单爬虫。至于怎么定位一个网页中具体元素的url可自行百度火狐浏览器的firebug插件或者谷歌浏览器的自带方法。

1、访问一个网址

re=urllib.request.urlopen('网址‘)

打开的也可以是个urllib.request.Request对象,后边也可以跟数据参数,当有传入数据时会自动变为POST请求;

2、urllib.request.Request(url,data=None,headers={})对象属性和方法

     full_url
type
host
data
selector
method
get_method()
add_header(key,val)
add_unredirected_header(key,header)
has_header(header)
remove_header(header)
get_full_url(header)
set_proxy(host,type)
get_header(header_name,default=None)
15   header_items()   

3、已连接对象的可用方法:

 re.read()             读取内容,想要将内容保存下来,需先新建一个相应格式的文件,再将读取到的内容写入到这个文件内即可;
re.geturl()        可取得已打开对象的url地址;
re.info()          可取得响应服务器的信息;
re.getcode()        可取得响应状态码;
urllib.parse.urlencode()  将一个存储post数据的字典转换成打开网页所需要的数据格式;

可用json.loads()将文本转换成键值对

可在传地址时将header以一个字典数据的形式传入,以隐藏自己的访问方式;也可用re.add_header('')    的方式进行追加;

4、当知道一个文件的url时可用此方法直接下载保存到本地

urllib.request.urlretrieve('http://wx1.sinaimg.cn/mw600/9bbc284bgy1ffkuafn4xtj20dw0jgh08.jpg','bc.jpg')

5、登录功能的实现(post)

(1)利用session保留登录状态

 login_data = {
'_xsrf': getXSRF(baseurl),
'password': password,
'remember_me': 'true',
'email': email,
session = requests.session()
content = session.post(url, headers = headers_base, data = login_data)
s = session.get("http://www.zhihu.com", verify = False)
print s.text.encode('utf-8')

(2)利用cookie进行登录

 post = {
'ua':self.ua,
'TPL_checkcode':'',
'CtrlVersion': '1,0,0,7',
'TPL_password':'',
}
#将POST的数据进行编码转换
postData = urllib.urlencode(post)
cookie = cookielib.LWPCookieJar()
cookieHandler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(cookieHandler, urllib2.HTTPHandler)
#第一次登录获取验证码尝试,构建request
request = urllib2.Request(loginURL,postData,loginHeaders)
#得到第一次登录尝试的相应
response = self.opener.open(request)
#获取其中的内容
content = response.read().decode('gbk')

网站常用的编码方式有utf8,gbk,gb2132,gb18030等

6、代理的使用

同一个Ip设备在短时间内访问一个服务器次数过多会被服务器禁止访问,所以很多时候我们都需要用天代理来帮助我们解决这个问题。方法如下:

 proxy_support = urllib.request.ProxyHandler({类型:代理ip和端口号})
opner = urllib.request.build_opener(proxy_suppoert)
urllib.request.install_opener(opener) #可选安装
opener.open(url) #或直接调用opener代理

注:如想实现更复杂的可使用更全面的scrapy框架。

附:自己写的一个验证网上代理的有效性的爬虫,此爬虫先从网站上获取代理的地址,然后使用这个代理来访问百度,验证是否能得到百度的网页,如能则将此代理地址保存。

 import threading,time,pickle,re
import urllib.request class ProxyCheck(threading.Thread):
def __init__(self,proxylist):
threading.Thread.__init__(self)
self.proxylist = proxylist
self.timeout = 5
self.test_url = 'http://www.baidu.com'
self.test_str = ''
self.checkedProxyList = [] def checkProxy(self):
cookies = urllib.request.HTTPCookieProcessor()
for proxy in self.proxylist:
proxy_handler = urllib.request.ProxyHandler({'http':r'%s://%s:%s' %(proxy[0],proxy[1],proxy[2])})
opener = urllib.request.build_opener(cookies,proxy_handler)
opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')]
urllib.request.install_opener(opener)
t1 = time.time()
try:
req = urllib.request.urlopen(self.test_url,timeout=self.timeout)
result = req.read().decode('utf-8')
timeused = time.time() - t1
pos = result.find(self.test_str)
if pos > 1:
self.checkedProxyList.append((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
print((proxy[0],proxy[1],proxy[2],proxy[3],timeused))
else:
continue
except:
continue
# def sort(self):
# sorted(self.checkedProxyList,cmp=lambda x,y:cmp(x[4],y[4]))
def save(self,filename):
with open("%s.txt"%filename,'w') as f:
for proxy in self.checkedProxyList:
f.write("{}\t{}:{}\t{}\t{}\n".format(*proxy))
with open("%s.pickle"%filename,'wb') as fb:
pickle.dump(self.checkedProxyList,fb) def run(self):
self.checkProxy()
self.save("checked-50") class xiciProxy:
def __init__(self):
self.alllist = []
def grep(self,url):
# req = urllib.request.Request(url)
# req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 '
# '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36') result1 = urllib.request.urlopen(req)
result2 = result1.read().decode('utf-8') regex = r"<td>(\d+.\d+.\d+.\d+)</td>\n.*?" \
r"<td>(\d+)</td>\n.*?" \
r"\n.*?" \
r"<a href=.*?>(.*?)</a>\n.*?" \
r"\n.*?" \
r"\n.*?" \
r"<td>(HTTPS?)</td>"
get = re.findall(regex,result2)
proxylist = []
for i in get:
proxylist.append((i[3],i[0],i[1],i[2]))
return proxylist
def save(self,filename):
with open("%s.txt"%filename,'w') as f:
for proxy in self.alllist:
f.write("{}\t{}:{}\t{}\n".format(*proxy))
with open("%s.pickle"%filename,'wb') as fb:
pickle.dump(self.alllist,fb)
def run(self):
for i in range(51,1951):
url = "http://www.xicidaili.com/nn/{}".format(i)
print(url)
proxylist = self.grep(url)
self.alllist += proxylist
if i % 50 == 0:
self.save("xiciproxy-{}".format(i))
self.alllist = [] with open("xiciproxy-50.pickle","rb") as fb:
proxylist = pickle.load(fb)
ProxyCheck(proxylist).run()

用python语言编写网络爬虫的更多相关文章

  1. python3编写网络爬虫18-代理池的维护

    一.代理池的维护 上面我们利用代理可以解决目标网站封IP的问题 在网上有大量公开的免费代理 或者我们也可以购买付费的代理IP但是无论是免费的还是付费的,都不能保证都是可用的 因为可能此IP被其他人使用 ...

  2. Python语言编写BP神经网络

    Python语言编写BP神经网络 2016年10月31日 16:42:44 ldy944758217 阅读数 3135   人工神经网络是一种经典的机器学习模型,随着深度学习的发展神经网络模型日益完善 ...

  3. Python初学者之网络爬虫(二)

    声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址 本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...

  4. 使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道

    使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道 使用python/casperjs编写终极爬虫-客户端App的抓取

  5. 运用Python语言编写获取Linux基本系统信息(三):Python与数据库编程,把获取的信息存入数据库

    运用Python语言编写获取Linux基本系统信息(三):Python与数据库编程 有关前两篇的链接: 运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间 运 ...

  6. 运用Python语言编写获取Linux基本系统信息(二):文件系统使用情况获取

    本文跟着上一篇文章继续写,上一篇文章的链接 运用Python语言编写获取Linux基本系统信息(一):获得Linux版本.内核.当前时间 一.随便说说 获取文件系统使用情况的思路和上一篇获取主要系统是 ...

  7. [Python学习] 简单网络爬虫抓取博客文章及思想介绍

            前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...

  8. 利用Python编写网络爬虫下载文章

    #coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期 ...

  9. 吴裕雄--天生自然python学习笔记:编写网络爬虫代码获取指定网站的图片

    我们经常会在网上搜索井下载图片,然而一张一张地下载就太麻烦了,本案例 就是通过网络爬虫技术, 一次性下载该网站所有的图片并保存 . 网站图片下载并保存 将指定网站的 .jpg 和 .png 格式的图片 ...

随机推荐

  1. Swift数组字面量

    可以用一个数组字面量来初始化一个数组,简单地把一个或多个值放在一起就可以了.数组字面量的写法是一行用逗号隔开的值,并在行的两端用一对方括号包起来: [value , value , value ] 下 ...

  2. vue1与vue2的路由 以及vue2项目大概了解

    vue1的路由 1.设置根组件  Vue.extend() 2.设置局部组件  Vue.extend({template:"/home"}) 3.实例化路由   var route ...

  3. Ubuntu+OpenCV2.4.11+ CodeBlocks 配置

    1.OpenCV 与 CodeBlocks 的安装都比较简单,好多教程. 参考http://www.cnblogs.com/lyutian/p/4425956.html 安装opencv. Codeb ...

  4. openssl ca(签署和自建CA)

    用于签署证书请求.生成吊销列表CRL以及维护已颁发证书列表和这些证书状态的数据库.因为一般人无需管理crl,所以本文只介绍openssl ca关于证书管理方面的功能. 证书请求文件使用CA的私钥签署之 ...

  5. 不借助第三方网站四步实现手机网站转安卓APP

    今天本来是帮朋友查看是否在APP里可以点外链的一个测试,做着做来感觉了,就把这个测试优化了一下.好了我们来进入正题. 工具:Android Studio 第一步:新建项目 第二步:拖入控件(WebVi ...

  6. css加载会造成阻塞吗?

    终于考试完了,今天突然想起来前阵子找实习的时候,今日头条面试官问我,js执行会阻塞DOM树的解析和渲染,那么css加载会阻塞DOM树的解析和渲染吗?所以,接下来我就来对css加载对DOM树的解析和渲染 ...

  7. ES6的转换器

    ---恢复内容开始--- ES6代码转为ES5代码的转换器 1.Babel 2.Traceur,Google公司出品 Babel是一个广泛使用的ES6转码器,可以将ES6代码转为ES5代码,从而在现有 ...

  8. Django学习(七)---添加新文章页面

    在template中添加add_article.html页面 (form  input)请求方法使用post 这个页面涉及到了两个响应函数 1)显示页面的响应函数  2)表单提交的响应函数 add_a ...

  9. CSS预编译与PostCSS以及Webpack构建CSS综合方案

    CSS全称Cascading Style Sheets(层叠样式表),用来为HTML添加样式,本质上是一种标记类语言.CSS前期发展非常迅速,1994年哈肯·维姆·莱首次提出CSS,1996年12月W ...

  10. 最短路径之Dijkstra算法和Floyd-Warshall算法

    最短路径算法 最短路径算法通常用在寻找图中任意两个结点之间的最短路径或者是求全局最短路径,像是包括Dijkstra.A*.Bellman-Ford.SPFA(Bellman-Ford的改进版本).Fl ...