Python爬虫(二)爬百度贴吧楼主发言

爬取电影吧一个帖子里的所有楼主发言：

# python2

# -*- coding: utf-8 -*-

import urllib2

import string

import re

class Baidu_Spider:

    feature_pattern = re.compile(r'id="post_content.*?>\s+(.*?)</div>', re.S)

    replaceList = [(''', '\''), ('&quot;', '\"')]

    def __init__(self, url):

        self.url = url + '?see_lz=1'

    def crawl_tieba_lz(self):

        begin_page = urllib2.urlopen(self.url).read()

        self.print_page_title(begin_page)

        count = self.get_page_count(begin_page)

        self.handle_data(count)

    def handle_data(self, count):

        f = open('tieba_lz.txt', 'w+')

        for i in range(count):

            url = self.url + '&pn=' + str(i+1)

            hint = '第' + str(i+1) + '页'

            print '正在下载%s: %s' % (hint, url)

            page = urllib2.urlopen(url).read()

            features = re.findall(self.feature_pattern, page)

            print hint + '下载完成'

            print '共有%d条记录' % len(features)

            f.write(hint + ':\n')

            for feature in features:

                feature = self.handle_record(feature)

                print feature

                f.write(feature + '\n\n')

        f.close()

        print 'done'

    def handle_record(self, record):

        record = re.sub(r'(<|</)br>', '\n', record)

        record = re.sub(r'<.*?>', '', record)

        for item in self.replaceList:

            record = record.replace(item[0], item[1])

        return record

    def get_page_count(self, page):

        result = re.search(r'class="red">(\d+?)</span>', page, re.S)

        if result:

            count = int(result.group(1))

            print '一共%d页' % count

        else:

            count = 0;

            print '无法获取页数'

        return count

    def print_page_title(self, page):

        result = re.search(r'<h1.*?>(.*?)</h1>', page, re.S)

        if result:

            title = result.group(1)

            print '标题: %s' % title

        else:

            print '无法获取标题'

spider = Baidu_Spider('http://tieba.baidu.com/p/4082863285')

spider.crawl_tieba_lz()

Python爬虫(二)爬百度贴吧楼主发言的更多相关文章

Python爬虫(一)爬百度贴吧
简单的GET请求: # python2 import urllib2 response = urllib2.urlopen('http://www.baidu.com') html = respons ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
from appium import webdriver 使用python爬虫,批量爬取抖音app视频（requests+Fiddler+appium）
使用python爬虫,批量爬取抖音app视频(requests+Fiddler+appium) - 北平吴彦祖 - 博客园 https://www.cnblogs.com/stevenshushu/p ...
Python 爬虫实战2 百度贴吧帖子
爬取百度贴吧的帖子.与上一篇不同的是,这次我们需要用到文件的相关操作. 本篇目标对百度贴吧的任意帖子进行抓取指定是否只抓取楼主发帖内容将抓取到的内容分析并保存到文件 1.URL格式的确定首先, ...
初次尝试python爬虫，爬取小说网站的小说。
本次是小阿鹏,第一次通过python爬虫去爬一个小说网站的小说. 下面直接上菜. 1.首先我需要导入相应的包,这里我采用了第三方模块的架包,requests.requests是python实现的简单易 ...
Python爬虫之爬取慕课网课程评分
BS是什么? BeautifulSoup是一个基于标签的文本解析工具.可以根据标签提取想要的内容,很适合处理html和xml这类语言文本.如果你希望了解更多关于BS的介绍和用法,请看Beautiful ...
【Python必学】Python爬虫反爬策略你肯定不会吧？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 正文 Python爬虫反爬策略三部曲,拥有这三步曲就可以在爬虫界立足了: ...
Python爬虫之爬取站内所有图片
title date tags layut Python爬虫之爬取站内所有图片 2018-10-07 Python post 目标是 http://www.5442.com/meinv/ 如需在非li ...

随机推荐

json === dict
import requests import json ''' json.loads(json_str) json字符串转换成字典 json.dumps(dict) 字典转换成json字符串 ''' ...
Powershell如何制定属性并输出
这个标题看着有些云里雾里.... 前一阵,群里有个朋友问博主“我想把所有用户的SMTP地址全部输出到CSV文件中进行统计,但是SMTP地址似乎输出的是错误的,可在shell里看输出的内容是正确的阿” ...
使用 Python 查看局域网内存活主机
1 安装 (如果误用了 pip insatll nmap的话,要先 pip uninstall nmap) pip install python-nmap Nmap 是一款用于网络发现和安全审计的网络 ...
coding 注意事项（总结中）
Uber Go 语言代码风格指南可以参考下:https://www.cnblogs.com/ricklz/p/11670932.html 最近写代码,老是被吐槽,代码写的不好,细节处理的不好. 那么下 ...
web.xml配置参数context-param和init-param的区别
web.xml配置参数context-param和init-param的区别 (2009-04-13 10:29:01) 转载▼ 标签: 杂谈分类: JavaEE web.xml里面可以定义两种参数 ...
E - Dividing Chocolate ATcoder
题目大意:切割图形,给你一个非0即1的矩阵,将它切割成多个长方形,使每个小长方形中1的个数不得多于k个,切割的规则,要么切一整行,要么是一整列. 题解: 二进制枚举. 注意行数最大才是10.用二进制枚 ...
D - Three Integers CodeForces - 1311D
题意: a<=b<=c 输出A,B,C要求B是A的倍数,C是B的倍数,并且输出a,b,c变成A,B,C需要的最小次数. 题解:写了半天的二分,后来发现思路错了,,,暴力就能过.. 三层fo ...
关于Python+selenium 定位浏览器弹窗元素
首先要确定弹窗的类型: (1)div弹窗 (2)新标签页弹窗 (3)alert弹窗一,div弹窗div弹窗是浏览器中比较好定位的弹窗,定位的方法与普通的元素一样.不过这里会有一个坑,明明可以找到这个 ...
vue中data必须是一个函数
前端面试时经常被问到:“组建中data为什么是函数”? 答案就是:在组件中data必须是一个函数,这样的话,每个实例可以维护一份被返回对象的独立拷贝.
deepin右键发送博客
1. 概述 deepin系统上没有像样的笔记软件.为知笔记未提供deb打包的软件,很遗憾.商店提供的软件,界面停留在上个世纪了. 这个时候如果想通过笔记来分享到博客是一件非常困难的事情. 本篇博客就是 ...

Python爬虫(二)爬百度贴吧楼主发言

Python爬虫(二)爬百度贴吧楼主发言的更多相关文章

随机推荐

热门专题