nodejs http小爬虫
本课程用nodejs写一个http小爬虫,首先科普一下,爬虫就是把网上的网页代码给弄下来,然后纳为己用。目前最大的爬虫:百度快照等的。
下面直接上代码
示例一:
var http = require('http');
var url = "http://www.imooc.com/learn/348";
http.get(url, function(res) {
var html = ''; //http get去请求url ,url是慕课网
res.on('data', function(data) {
html += data; //请求数据赋值给前面定义的html
});
res.on('end', function() {
console.log(html); //结束后打印出html
});
}).on('error', function() {
conslole.log('请求出错');//出错打印
});
保存imooc-crawler.js,然后运行:node imooc-crawler.js , 注意路径。
文件下载 imooc-crawler.js右击另存
最后结果可是打印了满满的窗口啊,就不上图了。
示例二:
首先要安装一下小插件,cheerio , 该插件就是node里面的jquery,api地址点击这里http://www.imlwj.com/blog/?p=39
安装cheerio,在控制台输入命令:npm install cheerio 等待一会儿。
首先来看看http://www.imooc.com/learn/348的dom结构
var http = require('http');
var cheerio=require('cheerio');//引用安装成功的cheerio
var url = "http://www.imooc.com/learn/348";
//过滤方法
function filterChapters(html){
var $=cheerio.load(html);
var chapters=$('.learnchapter');//和jquery 里面的方法一样,直接得到目录块,通过learnchapter类获取
// [{
// chapterTitle:'',
// videos:[
// title:'',
// id:''
// ]
// }]
var courseData=[];//定义一个数组,用来存储一级目录标题和二级目录标题以及二级目录的id
chapters.each(function(item){
var chapter=$(this);
var chapterTitle=chapter.find('strong').text();//一级目录表示是放在一个strong标签里面的,所以轻易的就可以拿到
var videos=chapter.find('.video').children('li');//拿到二级目录块
var chapterData={//一级目录里面包括它本身的标题,还包括二级目录的标题和二级目录id,所以二级目录也定义成数组
chapterTitle:chapterTitle,
videos:[]
};
videos.each(function(item){
var video=$(this).find('.studyvideo');//获取二级目录标题所在的a标签
var videoTitle=video.text();//得到二级目录标题
var id=video.attr('href').split('video/')[1];//获取a标签的href属性值,然后进行分割,获取id值,以‘' video/ ’分割,取第二部分,数组的下标是从0开始,所以是[1]
chapterData.videos.push({//数组push值,加入二级标题,二级id
title:videoTitle,
id:id
});
});
courseData.push(chapterData);//对我们需要的内容数组push值
});
return courseData;//把过滤结果返回
}
function printCourseInfo(courseData){
courseData.forEach(function(item){//遍历数组
var chapterTitle=item.chapterTitle;//获取一级标题
console.log(chapterTitle+'\n');//打印一级标题
item.videos.forEach(function(video){ //二级目录也是数组,同样要遍历
console.log(' ['+video.id+'] '+video.title+'\n');//打印二级标题和id
});
});
}
http.get(url, function(res) {
var html = '';
res.on('data', function(data) {
html += data;
});
res.on('end', function() {
var courseData=filterChapters(html);//对示例一的html进行过滤,过滤出我们需要的内容
printCourseInfo(courseData);//打印出过滤后的内容
});
}).on('error', function() {
console.log('请求出错');
});
保存crawler.js,然后运行:node crawler.js , 注意路径。
文件下载 crawler.js右击另存
下图是打印结果
视频是慕课网:http://www.imooc.com/learn/348
个人总结:本课程的主要还是在于对jquery的学习,这里也就是对cheerio的学习,能够熟练的操作dom,其他都没有啥问题了。
cheerio学习地址:http://www.imlwj.com/blog/?p=39
转载本站文章请注明出处:爱开发 http://www.imlwj.com/blog/?p=41
nodejs http小爬虫的更多相关文章
- NodeJs编写小爬虫
一,爬虫及Robots协议 爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. robots.txt是一个文本文件,robots是一个协 ...
- nodejs .http模块, cheerio模块 实现 小爬虫.
代码: var http = require("http"); var cheerio = require("cheerio"); var url = 'htt ...
- nodejs的简单爬虫
闲聊 好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫.所以小颖就自己试着做了个爬博客园数据的demo.嘻嘻...... 小颖最近养了条泰日天,自从养了我家 ...
- node.js 开发简易的小爬虫
node.js 开发简易的小爬虫 最近公司开发一款医药类的软件,所以需要一些药品的基础数据,所以本人就用node.js写一个简易的小爬虫,并写记录这个Demo以供大家参考. 一.开发前的准备: 1, ...
- 一次使用NodeJS实现网页爬虫记
前言 几个月之前,有同事找我要PHP CI框架写的OA系统.他跟我说,他需要学习PHP CI框架,我建议他学习大牛写的国产优秀框架QeePHP. 我上QeePHP官网,发现官方网站打不开了,GOOGL ...
- Java豆瓣电影爬虫——小爬虫成长记(附源码)
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
- 放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
- 放养的小爬虫--京东定向爬虫(AJAX获取价格数据)
放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...
- Python练习,网络小爬虫(初级)
最近还在看Python版的rcnn代码,附带练习Python编程写一个小的网络爬虫程序. 抓取网页的过程其实和读者平时使用IE浏览器浏览网页的道理是一样的.比如说你在浏览器的地址栏中输入 www ...
随机推荐
- dubbo源码—service export
在应用编写好服务并进行之后,dubbo负责将服务export出去,dubbo export服务的时候主要做了以下几件事: 将服务export到本地(根据scope的配置) 创建Invoker(启动本地 ...
- ubuntu PHP相关操作
php开启重写模块 vim /etc/apache2/apache2.conf 写入<Directory /阿帕奇的项目目录> AllowOverride All </Directo ...
- 从mysql数据库取一条记录里的某个字段的值
<?php $link = mysqli_connect("localhost","root","root","dbname ...
- Percona XtraBackup 核心文档
1. 介绍 1.1 MySQL 备份工具特性对比 Features Percona XtraBackup MySQL Enterprise backup License GPL Proprietary ...
- 采用集成的Windows验证和使用Sql Server身份验证进行数据库的登录
采用集成的Windows验证和使用Sql Server身份验证进行数据库的登录 1.集成的Windows身份验证语法范例 1 string constr = "server=.;databa ...
- 3DES加密
本文介绍了3DES加密特性,加密特点,3DES是对称加密,用一个密钥对内容进行加密,必须使用相同的密钥进行解密, 密钥必须配置,而且长度为24位,不足24位,用0位进行补全,本文也顺带介绍了其它加密算 ...
- 【jQuery】(7)---jQueryAjax同步异步区别
jQueryAjax同步异步 今天在项目开发过程中,要实现这么一个功能 <!-- 当我点击就业的时候,触发onclick时间,check()方法里通过ajax请求返回数据, 如果该用户已经毕业可 ...
- Android基础_BroadcastReceiver
一:什么是BroadcastReceiver Broadcast(广播)是一种广泛运用于在应用程序之间一步传播消息的机制系统消息Android系统发出的,电池不足.来电信息等自定义消息第三方应用发出的 ...
- 用LSTM分类 MNIST
LSTM是RNN的一种算法, 在序列分类中比较有用.常用于语音识别,文字处理(NLP)等领域. 等同于VGG等CNN模型在在图像识别领域的位置. 本篇文章是叙述LSTM 在MNIST 手写图中的使用 ...
- Quartz 代码调用Demo
一般项目中Quartz都是直接在配置文件中配置,但是一些特殊的情况需要在代码中控制,本文为代码调用的Demo,仅供参考.更多详细的Quartz配置信息,请查看: JAVA定时任务实现的几种方式 mav ...