python——简单爬虫

因为要学习python，所以看到一些网站有很多文章。

如：http://python.jobbole.com/all-posts/

目标：

将某个网站脚本编程-》python模块这个分类下所有的文章标题和网址提取（就相当于一个目录索引了）

在目录中找东西总好过一页页点击网页上的下一页吧。

为什么用python来实现呢，因为实在太简单易用了。在不考虑效率的情况下是大大方便了我等小白

我感觉我用爬虫得几个原因：

自从百度的site、intitle、inurl等这类搜索命令失效之后搜索关键内容的灵活度降低了，找不到想要的内容

技术博客里面有很多文章分类，可是一个分类下的文章遗憾的就是没有目录，难道要一页一页地打开网页查找么

不过不试不知道，一个简单的爬虫也牵扯了挺多东西的，总结一下

1、正则表达式，为了一行代码，把正则表达式的东西又加深学习了一遍了，无分组捕获、命名捕获、零宽断言、贪婪模式等等以前没有听过的东东。具体自己去了解吧！

2、urllib的使用，简单的使用也会有问题，看错误如下

　 IOError: ('http protocol error', 0, 'got a bad status line', None)

http://blog.csdn.net/yueguanghaidao/article/details/11994229 中有解释是因为http://www.website.com/需要在域名后加"/"，不然会报"IOError: ('http protocol error', 0, 'got a bad status line', None)”。我第一次抓取的网页有这个错误，加了“/”访问网页直接返回404。我换成urllib2就有错误“httplib.BadStatusLine”

后来发现IOERROR是因为那个坑爹的网页本来就有问题，前一刻访问好好的，程序没写完就变成了足彩网站了。我可以理解为网站管理员休假了么。

3、中文编码问题，成功抓取了可是显示了一片看不明白的东东。看了下encode(),decode()毫无头绪，我怎么知道用什么来解码啊

>>> print fi
['python chardet\xc4\xa3\xbf\xe9\xc5\xd0\xb6\xcf\xd7\xd6\xb7\xfb\xb1\xe0\xc2\xeb'

引用一段：出自http://www.linuxidc.com/Linux/2014-11/109853.htm

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode(‘gb2312’)，表示将gb2312编码的字符串str1转换成unicode编码，因此，如果str1本身不是gb2312编码，就会报错。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘gb2312’)，表示将unicode编码的字符串str2转换成gb2312编码，因此，需要str2本身的编码是unicode。

总结一下,

u.encode(‘…’)基本上总是能成功的，只要你填写了正确的目标编码。这就像任何文件都可以压缩成zip文件，是一个道理。

s.decode(‘…’)经常会出错，因为s是什么“编码”取决于上下文，当你解码的时候需要确保s是用什编码。就像打开zip文件的时候，你要确保它确实是zip文件，而不仅仅是伪造了扩展名的zip文件。

可以发现C4A3的编码是GBK，哈哈，别介意我作弊，然后成功解码。

#coding=utf-8
import urllib2
import re
import time
pattern_site_title=re.compile(r'(?<=<a class="archive-title" target="_blank" href=")(.*)(?="\stitle="(.*)">)')
for page in range(1,10):
        url='http://python.jobbole.com/all-posts/page/%d/'%page
        try:
            url_open=urllib2.urlopen(url)
        except:
            exit()
            print "urlopen error!"
 
        result=pattern_site_title.findall(url_open.read())
        print "--------------------------------------------------------------"
        for i in range(0,len(result)):
                print "%s    %s"%result[i]
        time.sleep(3)
        url_open.close()

正则表达式是个值得研究的地方，怎样才能匹配到自己需要的内容。简单的几行程序，实现了需要的功能。有更多的需要还可以在这基础上扩展。噢~~python真是个好东西

python——简单爬虫的更多相关文章

Python简单爬虫入门三
我们继续研究BeautifulSoup分类打印输出 Python简单爬虫入门一 Python简单爬虫入门二前两部主要讲述我们如何用BeautifulSoup怎去抓取网页信息以及获取相应的图片标题等信 ...
Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
Python 简单爬虫案例
Python 简单爬虫案例 import requests url = "https://www.sogou.com/web" # 封装参数 wd = input('enter a ...
Python简单爬虫记录
为了避免自己忘了Python的爬虫相关知识和流程,下面简单的记录一下爬虫的基本要求和编程问题!! 简单了解了一下,爬虫的方法很多,我简单的使用了已经做好的库requests来获取网页信息和Beauti ...
Python简单爬虫
爬虫简介自动抓取互联网信息的程序从一个词条的URL访问到所有相关词条的URL,并提取出有价值的数据价值:互联网的数据为我所用简单爬虫架构实现爬虫,需要从以下几个方面考虑爬虫调度端:启动爬虫 ...
python简单爬虫一
简单的说,爬虫的意思就是根据url访问请求,然后对返回的数据进行提取,获取对自己有用的信息.然后我们可以将这些有用的信息保存到数据库或者保存到文件中.如果我们手工一个一个访问提取非常慢,所以我们需要编 ...
python 简单爬虫（beatifulsoup)
---恢复内容开始--- python爬虫学习从0开始第一次学习了python语法,迫不及待的来开始python的项目.首先接触了爬虫,是一个简单爬虫.个人感觉python非常简洁,相比起java或 ...
python 简单爬虫diy
简单爬虫直接diy, 复杂的用scrapy import urllib2 import re from bs4 import BeautifulSoap req = urllib2.Request(u ...
Python简单爬虫入门一
为大家介绍一个简单的爬虫工具BeautifulSoup BeautifulSoup拥有强大的解析网页及查找元素的功能本次测试环境为python3.4(由于python2.7编码格式问题) 此工具在搜索 ...

随机推荐

MATLAB 移动复制文件
copyfile('source','destination'):%复制文件 delete('fileName');%删除文件 movefile('source','destination');%移动 ...
sql 允许远程登录
grant all privileges on *.* to 'root'@'%' identified by '123456' with grant option; flush privileges ...
BASE64Encoder/BASE64Decoder（转）
eclipse中解除jdk的访问限制(以BASE64Encoder/BASE64Decoder为例) 解除访问限制前: 所以需要添加一个访问许可,步骤如下: 1.选择所在项目,右击鼠标选择Build ...
YARN 的深入简出
1.YARN的产生背景 2.YARN的执行流程 3.YARN的概述 4.YARN的环境搭建 5.YARN的架构 6.如何提交作业到YaRN上执行 YARN的产生MapReduce1.x存在多种问题单节 ...
sourceforge
sourceforge SourceForge.net,又称SF.net,是开源软件开发者进行开发管理的集中式场所. SourceForge.net由VA Software提供主机,并运行Source ...
微信小程序开发——setData的使用技巧
前言: 之前使用 setData,一直都是作为给变量赋值,感觉比起vue给data中的变量的赋值还是有点麻烦的. 最近项目不太紧张,为了提高小程序的开发效率及提升小程序开发的能力,又重新的通读了下小程 ...
[CodeForces_618C]Constellation
题目链接 http://codeforces.com/problemset/problem/618/C 题意给二维平面一些点的坐标,保证不是所有点都在一条直线上,各点不重合,输出三个点的id,满足其 ...
项目总结15：JavaScript模拟表单提交(实现window.location.href-POST提交数据效果)
JavaScript模拟表单提交(实现window.location.href-POST提交数据效果) 前沿 1-在具体项目开发中,用window.location.href方法下载文件,因windo ...
模拟点击事件在alert前不起作用
本来想在ajax提交前点击一下模态框,直到返回处理之前都显示正在保存,发现如标题的现象,几经折腾没找到解决办法,发现可能是 alert线程阻塞(冒泡)引起的,也没找到解决办法,于是借助第三方插件lay ...
Java07-java语法基础（六）面向对象
Java07-java语法基础(六)面向对象一.格式化输出 System.out.printf(“%格式字符”,输出项); 1.格式字符: d --->int.byte.short ld -- ...

python——简单爬虫

python——简单爬虫的更多相关文章

随机推荐

热门专题