抓取biqukan

#python3.7

'''

功能：实现www.biqukan.com/1_1094/5403177.html小说下载为txt
v1.0

'''

import requests,sys,time

from lxml import etree

##0.获取所有章节url

def get_url_list(catalog_url):

    res=requests.get(catalog_url)

    #time.sleep(1)

    if res.status_code==200:

        text=res.text

        html=etree.HTML(text)

        hrefs=html.xpath('//div[@class="listmain"]/dl/dt[2]/following-sibling::*/a/@href')

        #print('hrefs')

        return hrefs

    return None

##1.获取页面

def get_one_page(url):

    res=requests.get(url)

    #time.sleep(1)

    if res.status_code==200:

        return res.text

    return None

##2.解析页面

def parse_one_page(text):

    html=etree.HTML(text)

    title=html.xpath('//div[@class="content"]/h1//text()')

    content=html.xpath('//div[@class="showtxt"]//text()') #去掉换行

    contents=''.join(content).replace('\xa0'*8,'\n'*2)#把列表转换为一整段文本，并把8个空格换为2个换行

    #print(title,contents)

    #print(title)

    return title,contents #返回多个参数，相当于返回一个元组return(title,content)

##3.保存内面

def write_to_file(title,contents):

    with open('一念永恒.txt','a',encoding='utf-8')as f:

        f.write(title[0]+'\n'+contents+'\n')

        #for content in contents:

        #    f.write(content)

##主函数

def main():

    #0.获取章节列表的网址

    catalog_url='https://www.biqukan.com/1_1094/'

    urls=get_url_list(catalog_url)

    #print(urls)

    #1.把网址传入详情抓取页面，并保存

    for i in range(len(urls)):

        rel_url='https://www.biqukan.com'+urls[i]

        print(rel_url)

        text=get_one_page(rel_url)

        #接收2步return的多个参数写法a,b=(x,y)

        title,contents=parse_one_page(text)

        #print(title,contents)

        #写入txt

        write_to_file(title[0],contents)

        #显示下载进度

        sys.stdout.write("  已下载:%.3f%%" %  float(i/len(urls)) + '\r')

        sys.stdout.flush()

##执行入口

if __name__=='__main__':

    main()

抓取biqukan的更多相关文章

【爬虫】biqukan抓取2.0版
#!python3.7 import requests,sys,time,logging,random from lxml import etree logging.basicConfig(level ...
笔趣看小说Python3爬虫抓取
笔趣看小说Python3爬虫抓取获取HTML信息解析HTML信息整合代码获取HTML信息 # -*- coding:UTF-8 -*- import requests if __name__ ...
用WebRequest +HtmlAgilityPack 从外网抓取数据到本地
相信大家对于WebRequest 并不陌生,我们在C#中发请求的方式,就是创建一个WebRequest .那么如果我们想发一个请求到外网,比如国内上不了的一些网站,那么该怎么做呢? 其实WebRequ ...
Phantomjs+Nodejs+Mysql数据抓取（2.抓取图片）
概要这篇博客是在上一篇博客Phantomjs+Nodejs+Mysql数据抓取(1.抓取数据) http://blog.csdn.net/jokerkon/article/details/50868 ...
[转]Fiddler抓取Android真机上的HTTPS包
此篇文章转载自:http://blog.csdn.net/roland_sun/article/details/30078353 工作中经常会需要对一些app进行抓包, 但是每次默认都是只抓http请 ...
爬虫技术 -- 进阶学习（十）网易新闻页面信息抓取（htmlagilitypack搭配scrapysharp）
最近在弄网页爬虫这方面的,上网看到关于htmlagilitypack搭配scrapysharp的文章,于是决定试一试~ 于是到https://www.nuget.org/packages/Scrapy ...
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
网络爬虫：使用Scrapy框架编写一个抓取书籍信息的爬虫服务
上周学习了BeautifulSoup的基础知识并用它完成了一个网络爬虫( 使用Beautiful Soup编写一个爬虫系列随笔汇总 ), BeautifulSoup是一个非常流行的Python网 ...
网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(3): 抓取amazon.com价格
通过上一篇随笔的处理,我们已经拿到了书的书名和ISBN码.(网络爬虫: 从allitebooks.com抓取书籍信息并从amazon.com抓取价格(2): 抓取allitebooks.com书籍信息 ...

随机推荐

ps命令参数
1.查看父进程ps -ef |grep <进程名>在显示的输出中,第三列就是该进程的父进程PID,然后可以再使用ps命令来查看父进程的名称ps -ef |grep <父进程PID&g ...
redis分布式锁（转）
add by zhj: 如果不考虑键的删除,而是让他过期后自动失效,那用set就可以实现锁了原文:http://www.cnblogs.com/yjf512/archive/2017/03/22/6 ...
贪吃蛇java版
主要的蛇的类 import java.awt.Color; import java.awt.Graphics; import java.awt.HeadlessException; import ja ...
Docker For Mac没有docker0网桥
在使用Docker时,要注意平台之间实现的差异性,如Docker For Mac的实现和标准Docker规范有区别,Docker For Mac的Docker Daemon是运行于虚拟机(xhyve) ...
【Mock】【接口测试】【面试】mock-server 环境搭建—加分项！
mock-server 环境搭建前言 mock 除了用在单元测试过程中,还有一个用途,当前端开发在开发页面的需要服务端提供 API 接口此时服务端没开发完成,或者说没搭建测试环境,这个时候前端开发 ...
python小练--使用正则表达式将json解析成dict
练习python语法,自己实现了一个简单的解析json字符,存为dict字典对象. { "id":12, "name":"jack", &q ...
从零开始编写操作系统——bochs
一.生成boot.bin boot sector代码: loop: jmp loop times -($-$$) db dw 0xaa55 重点就是最后的0xaa55 nasm boot.asm -f ...
记录关于vs2008 和vs2015 的报错问题
出现了 VS2008无法创建项目,无法打开项目的情况,提示这个注册表键值有问题 HKEY_LOCAL_MACHINE \ SOFTWARE \ Microsoft \ MSBuild \ ToolsV ...
虚函数后面的const=0
const 和 =0要分开理解. 成员函数后面用 const 修饰,const表示this是一个指向常量的指针,即对象成为一个常量,即它的成员不能够变化.(默认情况下,this的类型是指向类类型非常量 ...
[redis]redis常用
https://redis.io/topics/quickstart $ redis-cli ping PONG redis-server is the Redis Server itself. re ...

抓取biqukan

抓取biqukan的更多相关文章

随机推荐

热门专题