python 爬虫-sohu抓小说

#coding:utf-8

import urllib2

import sys

import re

def getPage(url,offset = ''):

    realurl = "%s%s%s" %(url,offset,'.shtml')

    print realurl

    resp = urllib2.urlopen(realurl)

    content = resp.read()

    #print content

    p = re.compile('<[^>]+>')

    p1=re.compile('<[^>p]+>')

    print p

    rematch = re.compile(r'(<h1.*</h1>)')

    h1 = rematch.findall(content)

    print h1[0],'ok'

    try:

        h1content = p.sub("",h1[0])

        print h1content

    except Exception,e:

        print str(e),'error'

        return

    fp = open(r'juyudao.txt','a')

    fp.write(h1content+ '\n')

    fp.flush()

    #print content

    content = content.replace('\r','')

    content = content.replace('\n','')

    content = content.replace(' ','')

    content = content.replace('     ','')

    cont = re.search('articleBody(.*)class="pages">', content, re.S)#先获取一部分html

    #print 'cont1',cont.group()

    cont1=cont.group()

    articleBody=re.findall('</script>(.*)<divclass="pages">',cont1)

    #print articleBody

    articleBody=articleBody[0].replace('</p>','')

    articleBody=p1.sub('',articleBody)

    txt=articleBody.split('<p>')

    for i in txt:

        fp.write(i+ '\n')

        fp.flush()

    fp.close()

def getBook(url, startoffset, endOffset):

    while startoffset < endOffset:

        getPage(url, offset = str(startoffset))

        startoffset += 1

if __name__ == '__main__':

    getPage(url = 'http://book.sohu.com/20131107/n389762800',offset='')

    getBook(url = 'http://book.sohu.com/20131107/n389762800_',startoffset=1,endOffset=20)

python 爬虫-sohu抓小说的更多相关文章

Python爬虫实战---抓取图书馆借阅信息
Python爬虫实战---抓取图书馆借阅信息原创作品,引用请表明出处:Python爬虫实战---抓取图书馆借阅信息前段时间在图书馆借了很多书,借得多了就容易忘记每本书的应还日期,老是担心自己会违约 ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
Python爬虫，抓取淘宝商品评论内容!
作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡&qu ...
python爬虫之抓取小说(逆天邪神)
2022-03-06 23:05:11 申明:自我娱乐,对自我学习过程的总结. 正文: 环境: 系统:win10, python版本:python3.10.2, 工具:pycharm. 项目目标: 实 ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
python爬虫数据抓取方法汇总
概要:利用python进行web数据抓取方法和实现. 1.python进行网页数据抓取有两种方式:一种是直接依据url链接来拼接使用get方法得到内容,一种是构建post请求改变对应参数来获得web返 ...
python爬虫——论抓包的正确姿势和学好Javascript的重要性（1）
没事想爬下数据,就入了scrapy坑,跟着https://zhuanlan.zhihu.com/data-factory这篇教程走,中间被小数量的网站坑过,不过还是写出了爬虫~~ 切糕王子:毫无防御, ...

随机推荐

Android——开发环境
sdk manager——>Tools 开发的工具类 sdk manager——>Extras——>Android support Library 支持高版本应用向低版本兼容 sdk ...
Ubuntu 16.04 LTS U盘安装要点
一.UltraISO UltraISO是一款功能强大而又方便实用的光盘映像文件制作/编辑/转换工具,它可以直接编辑ISO文件和从ISO中提取文件和目录,也可以从CD-ROM制作光盘映像或者将硬盘上的文 ...
NopCommerce 3.80框架研究（一）数据访问与持久化
NopCommerce 是一个国外的开源电商系统.3.80版本使用EF6.0 和.Net Framework 4.5.1 并引入了Autofac , Autofac是一款IOC框架,比较于其他的IOC ...
Exercises - Kangaroo
Write a definition for a class named Kangaroo with the following methods: An __init__ method that in ...
EXTJS 表单提交
EXTJS框架中,在提交表单时,可有3种方式: 方法一: 普通的 Form 提交方式, 主要使用 form.submit() 方法来将表单提交到后台,在后台是根据表单的 name 属性来获取表单中元素 ...
Mac OS X Server 安装与应用
Mac OS X Server 安装与应用 Mac OS X Server是苹果电脑公司新一代服务器软件.专为OS X和iOS设备.Mac OS X提供服务,现在支持Mavericks,能够轻松共享文 ...
Linux下的多进程编程
1.进程 1.1进程的定义 <计算机操作系统>这门课对进程有这样的描述:进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统 ...
C# Socket网络编程精华篇(转)
我们在讲解Socket编程前,先看几个和Socket编程紧密相关的概念: TCP/IP层次模型当然这里我们只讨论重要的四层 01,应用层(Application):应用层是个很广泛的概念,有一些基本 ...
gulp&gulp-less
使用gulp-less插件将less文件编译成css,当有less文件发生改变自动编译less,并保证less语法错误或出现异常时能正常工作并提示错误信息. 1.本地安装gulp-less githu ...
word文档中的字号和磅的对应关系
字号磅初号 42 小初 36 一号 26 小一 24 二号 22 小二 18 三号 16 小三 15 四号 14 小四 12 五号 10.5 小五 9 六号 7.5 小六 6.5 七号 5.5

python 爬虫-sohu抓小说

python 爬虫-sohu抓小说的更多相关文章

随机推荐

热门专题