Python爬虫实战（一）

今天，学习了爬虫的基础知识，尝试着写了本人的第一个小爬虫——爬取糗百上的热门段子。一开始自己做的是爬取1-35页，每页20条段子的作者、点赞数和内容，代码很简陋，贴在下面：

 #!/usr/bin/env python

 # -*- coding:utf-8 -*-

 __author__ = 'ziv·chan'

 import requests

 import re

 user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'

 headers = {

     'User-Agent' : user_agent

 }

 i = 1

 for page in range(1,36):

     url = 'http://www.qiushibaike.com/hot/page/' + str(page)

     html = requests.get(url,headers=headers)

     html.encoding = 'utf-8'

     # print html

     pattern = re.compile('div class="articl.*?" alt="(.*?)"/>.*?content">\n{2,}(.*?)\n{2,}</div>.*?number">(.*?)</i>',re.S)

     items = re.findall(pattern,html.text)

     for item in items:

         replaceBr = re.compile('<br/>')

         text = re.sub(replaceBr,'\n',item[1])

         print i

         i+=1

         print u'发布者:' + item[0].strip()

         print u'内容:' + text.strip()

         print u'点赞数:' + item[2].strip()

         print '\n'

     page+=1

后改进如下(自己对类和函数的把握还是太差，中间错了好多～～)：

 #!/usr/bin/env python

 # -*- coding:utf-8 -*-

 __author__ = 'ziv·chan'

 import requests

 import re

 class QSBK:

     def __init__(self):

         self.pageIndex = 1

         self.user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'

         self.headers = {'User-Agent' : self.user_agent}

         self.Stories = []

         self.enable = False

     def getPagecode(self,pageIndex):

         url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)

         html = requests.get(url,headers=self.headers)

         html.encoding = 'utf-8'

         pageCode = html.text

         return pageCode

     def getPageItems(self,pageIndex):

         pageCode = self.getPagecode(pageIndex)

         pattern = re.compile('div class="articl.*?" alt="(.*?)"/>.*?content">\n{2,}(.*?)\n{2,}</div>.*?number">(.*?)</i>',re.S)

         items = re.findall(pattern,pageCode)

         pageStories = []

         for item in items:

             replaceBr = re.compile('<br/>')

             text = re.sub(replaceBr,'\n',item[1])

             pageStories.append([item[0].strip(),text.strip(),item[2].strip()])

         return pageStories

     def loadPage(self):

         if self.enable == True:

             if len(self.Stories) < 2:

                 pageStories = self.getPageItems(self.pageIndex)

                 if pageStories:

                     self.Stories.append(pageStories)

                     self.pageIndex += 1

     def getOneStory(self,pageStories,page):

         for story in pageStories:

             input = raw_input()

             self.loadPage()

             if input == 'Q':

                 self.enable = False

                 return

             print u"第%d页\t发布人:%s\t赞:%s\n%s" %(page,story[0],story[2],story[1])

     def start(self):

         print u"正在读取糗事百科,按回车查看新段子，Q退出"

         self.enable = True

         self.loadPage()

         nowpage = 0

         while self.enable:

             if len(self.Stories) > 0:

                 pageStories = self.Stories[0]

                 nowpage += 1

                 del self.Stories[0]

                 self.getOneStory(pageStories,nowpage)

 spider = QSBK()

 spider.start()

学到了：

模拟浏览器请求，一定要添加‘headers’验证，正则消除空行‘ \n{2,} ’，

正则过滤多余标签：

 replaceBr = re.compile('<br/>')

 text = re.sub(replaceBr,'\n',content)

需要提高的地方：类和函数，复杂的正则，编码问题。

正则表达式的有关说明：

1）.*? 是一个固定的搭配，.和*代表可以匹配任意无限多个字符，加上？表示使用非贪婪模式进行匹配，也就是我们会尽可能短地做匹配，以后我们还会大量用到 .*? 的搭配。

2）(.*?)代表一个分组，在这个正则表达式中我们匹配了五个分组，在后面的遍历item中，item[0]就代表第一个(.*?)所指代的内容，item[1]就代表第二个(.*?)所指代的内容，以此类推。

3）re.S 标志代表在匹配时为点任意匹配模式，点 . 也可以代表换行符。

部分内容参考静觅。

本人的第一篇正式博客，才发现以前学知识学得太糙了，很多都不记得了，那就重新开始，记录下点点滴滴，fighting！

Python爬虫实战（一）的更多相关文章

【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
Python爬虫实战（4）：豆瓣小组话题数据采集—动态网页
1, 引言注释:上一篇<Python爬虫实战(3):安居客房产经纪人信息采集>,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功.本篇是针对动态网页的数据 ...
Python爬虫实战（2）：爬取京东商品列表
1,引言在上一篇<Python爬虫实战:爬取Drupal论坛帖子列表>,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容.相反 ...
Python爬虫实战四之抓取淘宝MM照片
原文:Python爬虫实战四之抓取淘宝MM照片其实还有好多,大家可以看 Python爬虫学习系列教程福利啊福利,本次为大家带来的项目是抓取淘宝MM照片并保存起来,大家有没有很激动呢? 本篇目标 1. ...
Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
Python爬虫实战七之计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点.首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的 ...
Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
Python爬虫实战六之抓取爱问知识人问题并保存至数据库
大家好,本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法,涉及的内容包括: Urllib的用法及异常处理 Beautiful Soup的简单应用 MySQLdb的基础用法正则表 ...
Python爬虫实战五之模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...
Python爬虫实战三之实现山东大学无线网络掉线自动重连
综述最近山大软件园校区QLSC_STU无线网掉线掉的厉害,连上之后平均十分钟左右掉线一次,很是让人心烦,还能不能愉快地上自习了?能忍吗?反正我是不能忍了,嗯,自己动手,丰衣足食!写个程序解决掉它! ...

随机推荐

ref传参时出错
下面是一段正确的代码: //基类A public class A { public void SomeMethod(A a) { } } //派生类B public class B:A { } //在 ...
【转】三十分钟学会STL算法
转载自: http://net.pku.edu.cn/~yhf/UsingSTL.htm 这是本小人书.原名是<using stl>,不知道是谁写的.不过我倒觉得很有趣,所以化了两个晚上把 ...
Sql 中常用日期转换Convert(Datetime)
CONVERT(data_type,expression[,style]) convert(varchar(10),字段名,转换格式) 说明:此样式一般在时间类型(datetime,smalldate ...
C# - 使用 OLEDB读取 excel(不用Excel对象).
参考: How to read from an Excel file using OLEDB 为了使用方便,我做成了工具类(OledbCommon.cs),好以后使用. 注:连接字符串中,Provid ...
OC之字符串 NSString与NSMutableString
一.NSString 不可变字符串的操作1)将字符串常量对象直接赋值给字符串引用 NSString *str1=@"hello"; 字符串对象的输出格式:NSLog(@" ...
解决Access restriction问题
今天在导入一个包时报错了
REDIS学习（1）环境搭建
1.下载稳定版本的.tar.gz 包,解压到/usr/local/src/. 2 .cd 到文件夹下,不需要 configure 直接 make编译 ,成功之后,cd /usr/local/redi ...
github 提交时候提示 org.eclipse.jgit.errors.ObjectWritingException: Unable to create new object: /usr/local/apache243/ht
只需要执行 chmod -R 777 ./* 把 .git文件权限设置为 777便可以实现.
centos 下 apache 重启启动命令
apache 启动 usr/local/apache243/bin/apachectl start apache 重启 usr/local/apache243/bin/apachectl restar ...
OpenStack虚机相关错误
OpenStack配置起来还是挺麻烦的,特别是网络那块.虽然官方文档越来越清晰,但有时还是会出各种错.排错主要是看日志.看官方文档和google 以下就一些虚机相关常见的错误做一下总结(基于Iceho ...

Python爬虫实战（一）

Python爬虫实战（一）的更多相关文章

随机推荐

热门专题