NodeJS概述2-事件插件-简易爬虫

事件 events 模块

原生事件写法

  /*
    * 1. 事件分类
      * DOM0级 事件  - on + eventType
      * DOM2级 事件  - 事件监听
    * 2. 事件构成部分有哪些？    dom.onclick = function () {}
      * 事件源
      * 事件类型  click change ...
      * 事件处理程序
    * 3. 事件绑定形式有哪些？
      *  dom.onclick = function () {}
      * 事件监听   dom.addEventListener('click',function(){},false)
      * 元素绑定 <div onclick = "load()"></div>
  */

Node.js 事件驱动

问题： Node.js中有DOM吗？
- 没有
- 结论：原生js DOM 事件都不能用
创建了一个叫做 events 内置模块来解决这个问题

const events= require('events');
//events.EventEmitter//构造函数
console.log(events.EventEmitter.prototype)//原型链
/*
 EventEmitter {
    _events: undefined,
    _eventsCount: 0,
    _maxListeners: undefined,
    setMaxListeners: [Function: setMaxListeners],
    getMaxListeners: [Function: getMaxListeners],
    emit: [Function: emit],
    addListener: [Function: addListener],
    on: [Function: addListener],
    prependListener: [Function: prependListener],
    once: [Function: once],
    prependOnceListener: [Function: prependOnceListener],
    removeListener: [Function: removeListener],
    off: [Function: removeListener],
    removeAllListeners: [Function: removeAllListeners],
    listeners: [Function: listeners],
    rawListeners: [Function: rawListeners],
    listenerCount: [Function: listenerCount],
    eventNames: [Function: eventNames]
  }
*/
const archetype=events.EventEmitter.prototype;
// archetype.on(事件，事件处理函数)  作用发布
// archetype.emit(事件名，实际参数)     作用订阅
archetype.on('handler',(val)=>{
console.log('事件触发',val);
})
archetype.emit('handler',111)

Readline模块逐行读取文本内容

readline 模块提供了一个接口，用于一次一行地读取可读流（例如 process.stdin）中的数据。

const readline = require('readline');
const rl = readline.createInterface({
  input: process.stdin,
  output: process.stdout
});
rl.question('你如何看待 Node.js 中文网？', (answer) => {
  // TODO：将答案记录在数据库中。
  console.log(`感谢您的宝贵意见：${answer}`);
  rl.close();
});

const readline = require('readline');
const fs = require('fs');
const rl = readline.createInterface({
  input: fs.createReadStream('sample.txt')
});
rl.on('line', (line) => {
  console.log('Line from file:', line);
});

简易爬虫

/*
  * 爬虫
    * 1. 进行数据请求，获取网页内容       http
    * 2. 进行数据分析、数据清洗
    * 3. 发送给我们自己的网页
*/

const http=require('http')
//获取 JSON 的示例：
http.get('http://jsonplaceholder.typicode.com/albums', (res) => {
     /* res就是我得到的返回值 */
  const { statusCode } = res;//状态码
  const contentType = res.headers['content-type'];//得到的文件类型
// 错误代码处理
  let error;
  if (statusCode !== 200) {
    error = new Error('请求失败\n' +
                      `状态码: ${statusCode}`);
  } else if (!/^application\/json/.test(contentType)) {
    error = new Error('无效的 content-type.\n' +
                      `期望的是 application/json 但接收到的是 ${contentType}`);
  }
  if (error) {
    console.error(error.message);
    // 消费响应数据来释放内存。
    res.resume();//重新发起数据
    return;
  }
  res.setEncoding('utf8');//中文编码
  let rawData = '';//真实数据
  res.on('data', (chunk) => { rawData += chunk; });// 通过data事件将数据分片，然后逐片添加到rawData身上，好处就是当我们执行每一个分片的小任务时，至少给其他任务提供了可执行的机会
  res.on('end', () => {//结束
    try {// 高级编程 错误捕获
      const parsedData = JSON.parse(rawData);
      console.log(parsedData);
    } catch (e) {
      console.error(e.message);
    }
  });
}).on('error', (e) => {
  console.error(`出现错误: ${e.message}`);
});

const http=require('http');
const cheerio=require('cheerio')
const options={
    hostname: 'jx.1000phone.net',
  port: 80,
  path: '/teacher.php/Class/classDetail/param/rqiWlsefmajGmqJhXXWhl3ZiZ2Zn',
  method: 'GET',
  headers: {
    Accept: 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Accept-Encoding': 'gzip, deflate',
    'Accept-Language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cache-Control': 'no-cache',
    Connection: 'keep-alive',
    Cookie: 'PHPSESSID=ST-117984-IVZSfYMlr9YXvRfFRm-A1TimOeA-izm5ejd5j1npj2pjc7i3v4z',
    Host: 'jx.1000phone.net',
    Pragma: 'no-cache',
    Referer: 'http://jx.1000phone.net/teacher.php/Class/index',
    'Upgrade-Insecure-Requests': 1,
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length': 0
  }}
http.get(options, (res) => {
  const { statusCode } = res;
  const contentType = res.headers['content-type'];
  res.setEncoding('utf8');
  let rawData = '';
  res.on('data', (chunk) => { rawData += chunk; });
  res.on('end', () => {
    try {
const $=cheerio.load(rawData);
$('.student a').each(function(item,index){
    console.log($(this).text());
})
    } catch (e) {
      console.error(e.message);
    }
  });
}).on('error', (e) => {
  console.error(`出现错误: ${e.message}`);
});

NodeJS概述2-事件插件-简易爬虫的更多相关文章

nodeJS实现简易爬虫
nodeJS实现简易爬虫需求:使用nodeJS爬取昵图网某个分类下的图片并存入本地运用nodeJS自带系统模块http.fs 示例代码: var http =require('http'); va ...
python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
使用 HttpClient 和 HtmlParser 实现简易爬虫
这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用,在此基础上实现了一个简易的网络爬虫 (Crawler),来说明如何使用 HtmlParser 根据需要处理 Inte ...
php+phpquery简易爬虫抓取京东商品分类
这是一个简单的php加phpquery实现抓取京东商品分类页内容的简易爬虫.phpquery可以非常简单地帮助你抽取想要的html内容,phpquery和jquery非常类似,可以说是几乎一样:如果你 ...
[转]使用 HttpClient 和 HtmlParser 实现简易爬虫
http://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/ http://blog.csdn.net/dancen/article/d ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
项目中nodejs包高效升级插件npm-check-updates
nodejs包高效升级插件npm-check-updates 最近想升级npm的包 1.//常规的包升级方式/2.npm update (包) 到npm一搜发现了一个很好的升级工具 npm-check ...
利用简易爬虫完成一道基础CTF题
利用简易爬虫完成一道基础CTF题声明:本文主要写给新手,侧重于表现使用爬虫爬取页面并提交数据的大致过程,所以没有对一些东西解释的很详细,比如表单,post,get方法,感兴趣的可以私信或评论给我.如 ...
day17 python re模块简易爬虫
day17 python 一.re模块 1.re模块的基础方法查找findall() import re #re.findall(pattern,string,flags ...

随机推荐

Python学习day42-数据库的基本操作(1)
figure:last-child { margin-bottom: 0.5rem; } #write ol, #write ul { position: relative; } img { max- ...
Redis学习笔记01-分布式锁
1.分布式锁的定义与理解在并发任务中,当对数据执行修改和删除时为了防止多个任务同时拿到数据而产生的混乱,这时就要用到分布式锁来限制程序的并发执行. Redis分布式锁本质上要实现的目标就是在Redi ...
<每日一题>题目6:二分查找
#二分查找 ''' 1.end问题 2.44对应的end<start 找不到情况 3.返回值递归的情况 4,611,aim太大的情况 ''' l = [2,3,5,10,15,16,18,22, ...
HTML编码的用户输入------阻止向Controller的方法传入参数时用链接注入javascript代码或者HTML标记
vue 报错：Cannot read property '_wrapper' of undefined
我的情况是@click="xx" ,而xx函数未定义
At- Linux必学的60个命令
1.作用 at命令用来在指定时刻执行指定的命令序列. 2.格式 at [-V] [-q x] [-f file] [-m] time 3.主要参数 -V:显示标准错误输出. -q:许多队列输出. -f ...
简单排列习题2.5 的 2 - 6 P35
用1,2,3,...9组成3个3位数abc, def, ghi:每个数字恰好用一次,要求 abc:def :ghi = 1: 2 : 3:按照abc : def : ghi的格式输出. 通常想到的思路 ...
day45作业
利用 html + css 写一个最基本的页面 <!DOCTYPE html> <html lang="en"> <head> <meta ...
pip报错ImportError: cannot import name main
编辑pip sudo gedit /usr/bin/pip 修改pip文件: 源文件 from pip import main if __name__ == '__main__': sys.exit( ...
ACM中Java使用注意事项
1. String 类用来存储字符串,可以用charAt方法来取出其中某一字节,计数从0开始, 而不是像C/C++那样使用 []访问是每个字符. 2. 在主类中 main 方法必须是 public s ...

NodeJS概述2-事件插件-简易爬虫

NodeJS概述2-事件插件-简易爬虫的更多相关文章

随机推荐

热门专题