内容

起一个服务，爬某个网站的数据（我这里爬了个夕阳红游戏交易网站的数据），页面看到我要爬的内容

代码

 1 //引入内置的http包

 2 var http = require('http');

 3 const request = require("request");

 4 const cheerio = require("cheerio");

 5 //创建服务

 6 var server = http.createServer(function(req, res) {

 7     // res.end('111'); //注意这里 括号里不管是什么都要加上‘引号’

 8     getInfo(res)

 9 });

10

11 //端口监听

12 server.listen(8080);

13

14 /**

15  * 获取每一条的信息

16  */

17 const getInfo = (res) => {

18     res.writeHead(200, {'Content-type': 'text/html;charset=utf-8'})

19     request({

20         url: 'http://tl.cyg.changyou.com/goods/selling?world_id=0&have_chosen=&page_num=2#goodsTag',

21         method: 'get',

22         headers: {

23             'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',

24             'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

25             // 这里巨坑！这里开启了gzip的话http返回来的是Buffer。

26             // 'Accept-Encoding': 'gzip, deflate',

27             'Accept-Language': 'zh-CN,zh;q=0.9',

28             'Cache-Control': 'no-cache',

29         },

30         // 想请求回来的html不是乱码的话必须开启encoding为null

31         encoding: null

32     }, (e, r, body) => {

33         // 这样就可以直接获取请求回来html了

34         // console.log('打印HTML', body.toString()); // <html>xxxx</html>

35         const $ = cheerio.load(body);

36         const $li = $('.pg-goods-list .role-item');

37         const list = []

38         $li.map((i, index) => {

39             let obj = {};

40             obj.link =  $(index).children('dl').children('dt').children('a').attr('href');

41             list.push(obj);

42             res.write(obj.link)

43             res.write('<br/>')

44         });

45         res.write('<br/>')

46         res.end('爬完了') //注意这里 括号里不管是什么都要加上‘引号’

47     });

48 }

输出

思路

本地起一个服务，然后打开页面，相当于调了一次请求，开始调取需要爬数据的网站的html，然后用cheerio相关的获取页面元素，类似jquery。然后把信息在页面上打印出来

nodeJs 写个爬虫小玩意的更多相关文章

NodeJS写个爬虫，把文章放到kindle中阅读
这两天看了好几篇不错的文章,有的时候想把好的文章 down 下来放到 kindle 上看,便写了个爬虫脚本,因为最近都在搞 node,所以就很自然的选择 node 来爬咯- 本文地址:http://w ...
一次使用NodeJS实现网页爬虫记
前言几个月之前,有同事找我要PHP CI框架写的OA系统.他跟我说,他需要学习PHP CI框架,我建议他学习大牛写的国产优秀框架QeePHP. 我上QeePHP官网,发现官方网站打不开了,GOOGL ...
nodejs写的一个网页爬虫例子（坏链率）
因为工作需要,用nodejs写了个简单的爬虫例子,之前也没用过nodejs,连搭环境加写大概用了5天左右,so...要多简陋有多简陋,放这里给以后的自己看~~ 整体需求是:给一个有效的URL地址,返回 ...
nodejs的简单爬虫
闲聊好久没写博客了,前几天小颖在朋友的博客里看到了用nodejs的简单爬虫.所以小颖就自己试着做了个爬博客园数据的demo.嘻嘻...... 小颖最近养了条泰日天,自从养了我家 ...
nodejs http小爬虫
本课程用nodejs写一个http小爬虫,首先科普一下,爬虫就是把网上的网页代码给弄下来,然后纳为己用.目前最大的爬虫:百度快照等的. 下面直接上代码示例一: var http = require( ...
nodejs eggjs框架爬虫 readhub.me
最近做了一款高仿ReadHub小程序微信小程序 canvas 自动适配自动换行,保存图片分享到朋友圈 https://gitee.com/richard1015/News 具体代码已被开源, ...
读书笔记汇总 --- 用Python写网络爬虫
本系列记录并分享:学习利用Python写网络爬虫的过程. 书目信息 Link 书名: 用Python写网络爬虫作者: [澳]理查德劳森(Richard Lawson) 原版名称: web scra ...
[原创]手把手教你写网络爬虫（4）：Scrapy入门
手把手教你写网络爬虫(4) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 上期我们理性的分析了为什么要学习Scrapy,理由只有一个,那就是免费,一分钱都不用花! 咦?怎么有人扔西红柿 ...
[原创]手把手教你写网络爬虫（5）：PhantomJS实战
手把手教你写网络爬虫(5) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 大家好!从今天开始,我要与大家一起打造一个属于我们自己的分布式爬虫平台,同时也会对涉及到的技术进行详细介绍.大 ...
[原创]手把手教你写网络爬虫（7）：URL去重
手把手教你写网络爬虫(7) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 本期我们来聊聊URL去重那些事儿.以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的UR ...

随机推荐

Html5 canvas创意特效合集
Canvas就像一块画布,我们可以通过调用脚本在Canvas上绘制任意形状,甚至是制作动画.本文就是收集了很多非常富有创意的一些canvas动画特效例子,这些例子都非常适合大家学习.更多源码可在在这里 ...
《关于我因为flink成为spark源码贡献者这件小事》
各位读者老爷请放下手上的板砖,我可真没有标题党,且容老弟慢慢道来. spark和flink本身相信我不用做过多的介绍,后端同学不管搞没搞过大数据,应该都多多少少听过. 如果没听过,简单说,spark和 ...
Maven依赖冲突解决总结
转载请注明出处: 1.Jar包冲突的通常表现 Jar包冲突往往是很诡异的事情,也很难排查,但也会有一些共性的表现. 抛出java.lang.ClassNotFoundException:典型异常,主要 ...
视觉十四讲：第七讲_2D-2D:对极几何估计姿态
1.对极几何从2张图片中,得到若干个配对好的2d特征点,就可以运用对极几何来恢复出两帧之间的运动. 设P的空间坐标为: \(P=[X,Y,Z]^{T}\) 两个像素点\(p_{1},p_{2}\)的 ...
[SWPUCTF 2021 新生赛]jicao
CTF web安全阅读代码可知当传入一个post型的参数id与wllmNB相等并且传入一个get型的参数json: 但是这里有一个函数json_decode,上网搜索可知json_decode这个函 ...
[IOI2014]friend 朋友
题目传送门似乎是我的第一篇 IOI 题解? 思路虽然说是 IOI 题,但是其实并没有那么难. 这个题目描述比较杂乱,简单的描述就是:给你一些关系,你需要选出一些点,使这些点的权值和最大,并且这些点 ...
免杀之：Mimikatz 免杀过杀软，思路学习
免杀之:Mimikatz 免杀过杀软目录免杀之:Mimikatz 免杀过杀软 1 环境准备 2 处理过程 2.1 生成原始的Mimikatz程序 2.2 定位到代码或字符串上特征绕过 2.3 定位 ...
JVM相关知识学习
JVM的垃圾回收算法是什么? 分代回收算法:然后详细阐述年轻代有哪些算法,老年代有哪些算法垃圾收集器总结: 最初使用的是Serial + Serial Old收集垃圾,最简单,因为二者都是单线程的, ...
基于Python的OpenGL 02 之着色器
1. 概述本文基于Python语言,描述OpenGL的着色器环境搭建以及绘制流程可参考: 基于Python的OpenGL 01 之Hello Triangle - 当时明月在曾照彩云归 - 博客园 ...
腾讯云对象存储 COS搭建个人网站
腾讯云对象存储 COS搭建个人网站,简单易操作,方便快捷. 只需要将你的网站资源上传即可,然后设置上你的自定义 CDN 加速域名,一个个人网站就上线啦!当然,你也可以不用设置自定义 CDN 加速域 ...

nodeJs 写个爬虫小玩意

内容

代码

输出

思路

nodeJs 写个爬虫小玩意的更多相关文章

随机推荐

热门专题