Nodejs 天涯帖子《鹿鼎记中计》 柳成萌著 下载爬虫
功能:从天涯帖子中下载楼主发言到一个文本文件中
实验对象:http://bbs.tianya.cn/post-no05-308123-1.shtml 《鹿鼎记中计》 柳成萌著
爬取效果:除第一个贴需要手动下载外,其它均可自动完成,并有断点续传功能。
爬取结果下载:https://files.cnblogs.com/files/xiandedanteng/ludingjizhongji.zip 这是篇好文章,值得一读。
代码:
//====================================================== // 天涯帖子下载爬虫1.00 // 目标:http://bbs.tianya.cn/post-no05-308123-1.shtml // 2018年3月22日 //====================================================== // 内置https模块 var https=require("https"); // 内置http模块 var http=require("http"); // 用于解析gzip网页(ungzip,https得到的网页是用gzip进行压缩的) var zlib = require('zlib'); // 内置文件处理模块,用于创建目录和图片文件 var fs=require('fs'); // 用于转码。非Utf8的网页如gb2132会有乱码问题,需要iconv将其转码 var iconv = require('iconv-lite'); // cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页 var cheerio = require("cheerio"); // 请求参数,JSON格式,http和https都有使用 var options; // request请求 var req; // 数据数组,找到的帖子时间和内容会放到这里 var datas=[]; //-------------------------------------- // 爬取网页,找帖子内容,再爬 // pageUrl sample:http://bbs.tianya.cn/post-no05-308123-1.shtml //-------------------------------------- function crawl(pageUrl){ console.log("Current page="+pageUrl); // 得到hostname和path var currUrl=pageUrl.replace("http://",""); var pos=currUrl.indexOf("/"); var hostname=currUrl.slice(0,pos); //console.log("hostname="+hostname); var path=currUrl.slice(pos); //console.log("path="+path); pos=currUrl.lastIndexOf("/"); var dir="http://"+currUrl.slice(0,pos); //console.log("dir="+dir); // 初始化options options={ hostname:hostname, port:80, path:path,// 子路径 method:'GET', }; req=http.request(options,function(resp){ var html = []; resp.on("data", function(data) { html.push(data); }) resp.on("end", function() { var buffer = Buffer.concat(html); var body = buffer.toString();// http://bbs.tianya.cn/post-no05-308123-1.shtml 无需解码 //console.log("body="+body); var $ = cheerio.load(body); var count=0; // 由于天涯帖子的特殊格式,开篇只好略过,读者请自行添加 /* $(".atl-main .atl-item .bbs-content").each(function(index,element){ var content=$(element).text(); var obj=new Object; obj.user="楼主"; obj.time="开篇"; obj.content=content; datas.push(obj); count++; }) */ // 找帖子内容放入数组 $(".atl-item").each(function(index,element){ var user=$(element).attr("js_username"); //console.log("user="+user); if(user=="柳成萌"){// 柳成荫是楼主ID var innerHtml=$(element).html(); //console.log("innerHtml="+innerHtml); // 找时间 var topicTime=null; var $1=cheerio.load(innerHtml); $1(".atl-info span").each(function(index1,element){ if(index1==1){ topicTime=$1(element).text(); //console.log("topicTime="+topicTime); } }); // 找内容 var topicContent=null; //var $1=cheerio.load(innerHtml); $1(".bbs-content").each(function(index1,element){ topicContent=$1(element).text().trim(); //console.log("topicContent="+topicContent); }); // 内容和时间都找到了再放入数组 if(topicTime!=null && topicContent!=null){ // 先看有没有 var isFound=false; for(var i=0;i<datas.length;i++){ var value=datas[i]; if(value.time==topicTime){ isFound=true; break; } } // 没有再往里放 if(isFound==false){ var obj=new Object; obj.user=user; obj.time=topicTime; obj.content=topicContent; datas.push(obj); console.log("user="+obj.user+" "+obj.time); count++; } } } }) console.log("找到帖子"+count+"条."); // 找下一页 var nextPageUrl=null; $(".js-keyboard-next").each(function(index,element){ var text=$(element).text(); if(text.indexOf('下页')!=-1){ nextPageUrl=dir+$(element).attr("href"); //console.log("找到下一页.="+nextPageUrl); } }) if(nextPageUrl==null){ console.log(pageUrl+"已经是最后一页了.\n"); saveFile(pageUrl,datas);// 保存 download(datas); }else{ console.log("继续下一页"); crawl(nextPageUrl); } }).on("error", function() { saveFile(pageUrl,datas);// 保存 console.log("crawl函数失败,请进入断点续传模式继续进行"); }) }); // 超时处理 req.setTimeout(7500,function(){ req.abort(); }); // 出错处理 req.on('error',function(err){ console.log('请求发生错误'+err); saveFile(pageUrl,datas);// 保存 console.log("crawl函数失败,请进入断点续传模式继续进行"); }); // 请求结束 req.end(); } //-------------------------------------- // 下载内容 //-------------------------------------- function download(datas){ var total=datas.length; console.log("总计有"+total+"条帖子将被下载."); // 合并内容 var space = '____'; var newLine = '\n'; var chunks = []; var length = 0; for(var i=0;i<datas.length;i++){ var data=datas[i]; var value = space+data.content+newLine;// data.time也可以加入 var buffer = new Buffer(value); chunks.push(buffer); length += buffer.length; } var resultBuffer = new Buffer(length); for(var i=0,size=chunks.length,pos=0;i<size;i++){ chunks[i].copy(resultBuffer,pos); pos += chunks[i].length; } // 写入文件 var fileName='result'+getNowFormatDate()+".txt"; fs.appendFile('./'+fileName, resultBuffer, function (err) { if(err){ console.log("不能写入文件"+fileName); console.log(err); } }); console.log("写入文件"+fileName+"完成"); } //-------------------------------------- // 取得当前时间 //-------------------------------------- function getNowFormatDate() { var date = new Date(); var seperator1 = "-"; var seperator2 = "_"; var month = date.getMonth() + 1; var strDate = date.getDate(); if (month >= 1 && month <= 9) { month = "0" + month; } if (strDate >= 0 && strDate <= 9) { strDate = "0" + strDate; } var currentdate =date.getFullYear() + seperator1 + month + seperator1 + strDate + " " + date.getHours() + seperator2 + date.getMinutes() + seperator2 + date.getSeconds(); return currentdate; } //-------------------------------------- // 程序入口 //-------------------------------------- function getInput(){ process.stdin.resume(); process.stdout.write("\033[33m 新建模式输入第一页URL,断点续传模式输入0,请输入: \033[39m");// 草黄色 process.stdin.setEncoding('utf8'); process.stdin.on('data',function(text){ var input=text.trim(); process.stdin.end();// 退出输入状态 if(text.trim()=='0'){ process.stdout.write("\033[36m 进入断点续传模式. \033[39m"); // 蓝绿色 // Read File fs.readFile('./save.dat','utf8',function(err,data){ if(err){ console.log('读取文件save.dat失败,因为'+err); }else{ //console.log(data); var obj=JSON.parse(data); datas=obj.datas; console.log('提取原有数据'+datas.length+'条'); crawl(obj.url); } }); // Resume crawl }else{ process.stdout.write("\033[35m 进入新建模式. \033[039m"); //紫色 crawl(input); } }); } //-------------------------------------- // 将爬行中信息存入数据文件 //-------------------------------------- function saveFile(url,datas){ var obj=new Object; obj.url=url; obj.datas=datas; var text=JSON.stringify(obj); fs.writeFile('./save.dat',text,function(err){ if(err){ console.log('写入文件save.dat失败,因为'+err); } }); } // 调用getInput函数,程序开始 getInput();
下载文本截图:
Nodejs 天涯帖子《鹿鼎记中计》 柳成萌著 下载爬虫的更多相关文章
- 【nodejs】理想论坛帖子下载爬虫1.06
//====================================================== // 理想论坛帖子下载爬虫1.06 // 循环改成了递归,但最多下载千余文件就崩了 / ...
- 【nodejs】理想论坛帖子下载爬虫1.08
//====================================================== // 理想论坛帖子下载爬虫1.09 // 使用断点续传模式,因为网络传输会因各种原因中 ...
- 【nodejs】理想论坛帖子下载爬虫1.07 使用request模块后稳定多了
在1.06版本时,访问网页采用的时http.request,但调用次数多以后就问题来了. 寻找别的方案时看到了https://cnodejs.org/topic/53142ef833dbcb076d0 ...
- C# 中DataTable转成模型List
C# 中DataTable转成模型List 引入using System.Reflection; 命名空间 使用注意实体类的属性名必须和DataTable的列名一致 使用: DBList<Sto ...
- 将包含经纬度点位信息的Excel表格数据导入到ArcMap中并输出成shapefile
将包含经纬信息的Excel表格数据,导入到ArcMap中并输出成shapefile,再进行后面的操作.使用这种方法可以将每一个包含经纬信息的数据在ArcMap中点出来. 一.准备数据 新建Excel表 ...
- sql 表值函数-将一个传入的字符串用2中分隔符拆分成临时表
USE [tms]GO/****** Object: UserDefinedFunction [dbo].[fn_StrToTable_Double] Script Date: 2017/4/26 9 ...
- js中时间戳转换成时间格式
js中时间戳转换成时间格式, // 时间戳转换成时间格式 var formatDate = function(date){ date = new Date(date); var y=date.getF ...
- Unity中资源打包成Assetsbundle的资料整理
最近在研究Unity中关于资源打包的东西,网上看了一堆资料,这里做个整合,说整合,其实也就是Ctrl-C + Ctrl-V,不是原创 首先为了尊重原创,先贴出原创者的文章地址: http://blog ...
- AS3中String转换成Boolean
AS3中, 对布尔值的转换, 规定所有的非空字符串都是true. 下面都不行: var f:Boolean = new Boolean(str); var f:Boolean = str as Boo ...
随机推荐
- Linux的经典shell命令整理
Linux的经典shell命令整理 1.删除0字节文件find -type f -size 0 -exec rm -rf {} \; 2.查看进程按内存从大到小排列ps -e -o “%C : %p ...
- 实验吧--隐写术--九连环--WriteUp
题目: http://ctf5.shiyanbar.com/stega/huan/123456cry.jpg 是一张图: 放到binwalk查看一下 发现存在压缩文件. 使用-e参数将文件分离 打开文 ...
- Tweet信息搜集工具tinfoleak
Tweet信息搜集工具tinfoleak 推特是国外用户常用的社交网站.通过分析用户发布的推文以及社交活动,可以获取大量的个人信息.Kali Linux新增一款Tweet信息搜索工具tinfole ...
- 【BZOJ 2054】 2054: 疯狂的馒头 (并查集特技)
Input 第一行四个正整数N,M,p,q Output 一共输出N行,第i行表示第i个馒头的最终颜色(如果最终颜色是白色就输出0). Sample Input 4 3 2 4 Sample Outp ...
- Tsinsen Palisection
建回文树. 正反建统计一种前缀和求出所有不相交的,用总数减去就是答案数. 在这里我们可以知道一个字符串中所有回文串的个数即为num数组之和(因为以一个节点为回文串结尾的字串都是唯一的) 也可以是cnt ...
- [NOI2007]货币兑换 --- DP + 斜率优化(CDQ分治)
[NOI2007]货币兑换 题目描述: 小 Y 最近在一家金券交易所工作.该金券交易所只发行交易两种金券:A 纪念券(以下简称 A 券)和 B 纪念券(以下简称 B 券). 每个持有金券的顾客都有一个 ...
- [BZOJ3598][SCOI2014]方伯伯的商场之旅(数位DP,记忆化搜索)
3598: [Scoi2014]方伯伯的商场之旅 Time Limit: 30 Sec Memory Limit: 64 MBSubmit: 449 Solved: 254[Submit][Sta ...
- [CC-ANUCBC]Cards, bags and coins
[CC-ANUCBC]Cards, bags and coins 题目大意: 给你\(n(n\le10^5)\)个数,\(q(q\le30)\)次询问,问从中选取若干个数使得这些数之和为\(m(m\l ...
- [HEOI2013]SAO
题目大意: 一个有向无环图上有n个结点, 现在告诉你n-1个条件(x,y),表示x和y的先后关系. 问原图共有几种可能的拓扑序? 思路: 树形DP. f[i][j]表示对于第i个结点,有j个点在它前面 ...
- java验证openssl生成的ssl证书和私钥是否匹配
最近有一个需求上传ssl证书和私钥,但是上传之前需要验证ssl证书和私钥是否正确,其中的业务逻辑涉及到以下几点: 一.读取ssl证书,读取ssl证书公钥 要实现该功能比较简单,java里面 ...