作为费德勒的铁杆粉丝,每天早上都会在新浪体育里面的网球频道浏览费德勒新闻。由于只关注费德勒的新闻,所以每次都要在网页中大量的新闻中筛选相关信息,感觉效率好低,所以用node写了一个简单的爬虫程序通过每天定时发送邮件的方式来通知。

这个需求仔细看有3个功能点,信息爬虫,定时发送,邮件通知

信息爬虫

信息爬虫建立在对页面结构的分析,从页面内容中抽取符合我们需要的信息,所以我们在获得网页信息后,需要对dom结构进行分析,获得相关信息,组装成数据。

Axios(https://github.com/mzabriskie/axios) 是一个基于 promise 的 HTTP 库,可以用在浏览器和 node.js 中发送请求,获取数据,所以我们通过可以axios来获取html页面内容

接下来,我们需要分析html内容中,cheerio(https://github.com/cheeriojs/cheerio)这个库可以帮我们像jquery的API一样分析获取dom结构,进行数据的筛选。

所以对于网页的爬虫,我们实现思路,axios获取数据,cheerio获取整个页面的A的标签,在对A标签的内容进行正则匹配筛选,存储到数组中,具体代码如下:

  1. const KEYWORD = '费德勒';
  2. const KEYWORD_REG = new RegExp(KEYWORD, 'i');
  3.  
  4. let newsArry = [];
  5. function spider() {
  6. return axios.get('http://sports.sina.com.cn/tennis/').then(response => {
  7. if (response.status === 200) {
  8.  
  9. let $ = cheerio.load(response.data, {
  10. decodeEntities: false
  11. });
  12. let newsList = $('a[href]');
  13. newsArry = [];
  14. for (let i = 0; i < newsList.length; ++i) {
  15. let obj = $(newsList[i]);
  16. let text = $(newsList[i]).text();
  17. //收集数据
  18. if (KEYWORD_REG.test(text)) {
  19. newsArry.push({
  20. 'title': text.trim(),
  21. 'href': obj.attr('href')
  22. })
  23. }
  24. }
  25. }
  26. }).catch(e => {
  27. console.log('爬虫失败了');
  28. console.log(error);
  29. })

邮件通知

nodemailer(https://nodemailer.com/)是一个关于邮件发送的库,只要安装nodemailer模块,按照规则配置好发送信息即可,代码如下:

  1. const configData = require('./config.json');
  2. //生成发送字符串
  3. function formStr(arr) {
  4. let html = '';
  5. for (let data of arr) {
  6. html += `<p><a target="_blank" href="${data.href}">${data.title}</a></p>` // red green blue
  7. }
  8. return html;
  9. }
  10.  
  11. //邮件发送函数
  12. function sendEmail(opts) {
  13. let transporter = nodemailer.createTransport({
  14. service: 'QQ',
  15. auth: configData.auth
  16. }, {
  17. from: configData.auth.user
  18. })
  19.  
  20. var message = {
  21. //收件人用逗号间隔
  22. to: opts.to,
  23. //信息主题
  24. subject: opts.subject,
  25. //内容
  26. html: opts.html
  27.  
  28. };

auth 中的 pass,是指“邮箱第三方登录授权码”,如何获取授权码,以QQ邮箱为例,请点击:http://jingyan.baidu.com/article/fedf0737af2b4035ac8977ea.html

定时发送

定时发送我们可以通过简单的setInterval来实现,但是这样写的扩展性不高。到node社区搜了一下,发现了一个定时脚本库:node-schedule(https://www.npmjs.com/package/node-schedule

  1. const schedule = require('node-schedule');
  2. const SCHEDULE_RULE = '1 30 10 * * *'; //每天10点30分发送
  3. schedule.scheduleJob(SCHEDULE_RULE, () => {
  4. spider().then(() => {
  5. sendEmail({
  6. to: configData.recipients.join(','),
  7. subject: `${KEYWORD}新闻`,
  8. html: formStr(newsArry)
  9. })
  10. });
  11. });

这个库的使用和简单,指定匹配规则,然后添加定时执行函数就可以了。

我们这里指定规则每天10点半发送邮件,这样我们也完成了定时发送的任务

我们来看一下发送到我们邮箱数据:

大功告成,这样我们以后每天10点半直接看邮件就行了。

nodejs实现新闻爬虫的更多相关文章

  1. nodejs的简单爬虫

    闲聊       好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫.所以小颖就自己试着做了个爬博客园数据的demo.嘻嘻......      小颖最近养了条泰日天,自从养了我家 ...

  2. 基于Scrapy框架的Python新闻爬虫

    概述 该项目是基于Scrapy框架的Python新闻爬虫,能够爬取网易,搜狐,凤凰和澎湃网站上的新闻,将标题,内容,评论,时间等内容整理并保存到本地 详细 代码下载:http://www.demoda ...

  3. nodejs 快要变成爬虫界的王者

    nodejs 快要变成爬虫界的王者 爬虫这东西是很多数据采集必须要的东西. 但是现在随着网页不断发展,已经出现了出单纯的网页,到 ajax 网页, 再到 spa , 再到 websocket 应用,一 ...

  4. 一次使用NodeJS实现网页爬虫记

    前言 几个月之前,有同事找我要PHP CI框架写的OA系统.他跟我说,他需要学习PHP CI框架,我建议他学习大牛写的国产优秀框架QeePHP. 我上QeePHP官网,发现官方网站打不开了,GOOGL ...

  5. nodeJS实现简易爬虫

    nodeJS实现简易爬虫 需求:使用nodeJS爬取昵图网某个分类下的图片并存入本地 运用nodeJS自带系统模块http.fs 示例代码: var http =require('http'); va ...

  6. nodejs eggjs框架 爬虫 readhub.me

    最近做了一款 高仿ReadHub小程序  微信小程序 canvas 自动适配 自动换行,保存图片分享到朋友圈  https://gitee.com/richard1015/News 具体代码已被开源, ...

  7. NodeJS写个爬虫,把文章放到kindle中阅读

    这两天看了好几篇不错的文章,有的时候想把好的文章 down 下来放到 kindle 上看,便写了个爬虫脚本,因为最近都在搞 node,所以就很自然的选择 node 来爬咯- 本文地址:http://w ...

  8. windows定时执行百度新闻爬虫

    想要做个新闻文本识别分类的项目,就先写了个爬取百度新闻的爬虫. 环境:win7 32 bit python3.4 若干第三方库 可以实现的功能:定期按照百度新闻的分类抓取新闻的标题,所属类别及文本内容 ...

  9. NodeJs编写小爬虫

    一,爬虫及Robots协议 爬虫,是一种自动获取网页内容的程序.是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化. robots.txt是一个文本文件,robots是一个协 ...

随机推荐

  1. 实验十一 团队作业7—团队项目设计完善&编码测试

    实验十一 团队作业7—团队项目设计完善&编码测试 实验时间 2018-6-8 Deadline: 2018-6-20 10:00,以团队随笔博文提交至班级博客的时间为准. 评分标准: 按时交 ...

  2. PAT L2-015 互评成绩

    https://pintia.cn/problem-sets/994805046380707840/problems/994805062432309248 学生互评作业的简单规则是这样定的:每个人的作 ...

  3. sap 最新财报以及云业务转型情况

    SAP第四季度收入超预期 加码云转型启动重组计划 http://soft.zhiding.cn/software_zone/2019/0130/3115457.shtml 尽管第四季度超出收入预期,但 ...

  4. 智能制造(MES)四大阶段

    智能制造的发展会经历标准化.自动化.信息化.智能化四个阶段标准化,对于生产流程.业务流程.生产制造多方面的标准化.质量检测标准化.企业管理.供应链等.标准化是组织现代化生产的重要组成部分,对于生产专业 ...

  5. PHP常用工具类积累

    第一 请求第三方接口的工具类 例如,封装了get和post请求方法的工具类,代码如下: <?php class HttpClient{ /** * HttpClient * @param arr ...

  6. 创建一个规范的django项目

    1. 创建项目 2. 创建static目录及配置 1.创建放css, javascript,img的目录 2.在settings.py中将static绝对路径保存到变量STATICFILES_DIRS ...

  7. js cookies

    cookie用於識別用戶,存儲在訪問者的計算機里,當用戶首次使用瀏覽器時,會發送cookie.用戶可以創建和獲取cookie. cookie可以存儲用戶名字.用戶密碼和訪問時間等. document. ...

  8. LODOP在页面不同位置输出页眉页脚

    Lodop中的页眉页脚项的特点是:每页固定位置输出,具体该特点可查看本博客的其他博文:Lodop打印项对象类型属性区分 Lodop中有可以设置打印项次页偏移属性,但是该方法是针对单个打印项自动分页的, ...

  9. 洛谷 P4294 [WC2008]游览计划

    题目链接 不是很会呢,但似乎抄了题解后有点明白了 sol:状态DP显然,其实是要构建一棵最小生成树一样的东西,我自己的理解(可能不是很对哦希望多多指教)f[x][y][zt]就是到x,y这个点,状态为 ...

  10. 【题解】Hanoi双塔问题

    题目描述 给定A,B,C三根足够长的细柱,在A柱上放有2n个中间有空的圆盘,共有n个不同的尺寸,每个尺寸都有两个相同的圆盘,注意这两个圆盘是不加区分的(下图为n=3的情形).现要将这些圆盘移到C柱上, ...