Nodejs实现爬虫抓取数据

开始之前请先确保自己安装了Node.js环境，还没有安装的的童鞋请自行百度安装教程......

1.在项目文件夹安装两个必须的依赖包

npm install superagent --save-dev

　　superagent 是一个轻量的,渐进式的ajax api,可读性好,学习曲线低,内部依赖nodejs原生的请求api,适用于nodejs环境下

npm install cheerio --save-dev

　　cheerio是nodejs的抓取页面模块，为服务器特别定制的，快速、灵活、实施的jQuery核心实现。适合各种Web爬虫程序。相当于node.js中的jQuery

2.新建 crawler.js 文件

//导入依赖包

const http       = require("http");

const path       = require("path");

const url        = require("url");

const fs         = require("fs");

const superagent = require("superagent");

const cheerio    = require("cheerio");

3.获取 Boos直聘数据

superagent

    .get("https://www.zhipin.com/job_detail/?city=100010000&source=10&query=%E5%89%8D%E7%AB%AF")

    .end((error,response)=>{

        //获取页面文档数据

        var content = response.text;

        //cheerio也就是nodejs下的jQuery  将整个文档包装成一个集合，定义一个变量$接收

        var $ = cheerio.load(content);

        //定义一个空数组，用来接收数据

        var result=[];

        //分析文档结构  先获取每个li 再遍历里面的内容(此时每个li里面就存放着我们想要获取的数据)

        $(".job-list li .job-primary").each((index,value)=>{

            //地址和类型为一行显示，需要用到字符串截取

            //地址

            let address=$(value).find(".info-primary").children().eq(1).html();

            //类型

            let type=$(value).find(".info-company p").html();

            //解码

            address=unescape(address.replace(/&#x/g,'%u').replace(/;/g,''));

            type=unescape(type.replace(/&#x/g,'%u').replace(/;/g,''))

            //字符串截取

            let addressArr=address.split('<em class="vline"></em>');

            let typeArr=type.split('<em class="vline"></em>');

            //将获取的数据以对象的形式添加到数组中

            result.push({

                title:$(value).find(".name .job-title").text(),

                money:$(value).find(".name .red").text(),

                address:addressArr,

                company:$(value).find(".info-company a").text(),

                type:typeArr,

                position:$(value).find(".info-publis .name").text(),

                txImg:$(value).find(".info-publis img").attr("src"),

                time:$(value).find(".info-publis p").text()

            });

            // console.log(typeof $(value).find(".info-primary").children().eq(1).html());

        });

        //将数组转换成字符串

        result=JSON.stringify(result);

        //将数组输出到json文件里  刷新目录 即可看到当前文件夹多出一个boss.json文件(打开boss.json文件，ctrl+A全选之后 ctrl+K，再Ctrl+F即可将json文件自动排版)

        fs.writeFile("boss.json",result,"utf-8",(error)=>{

            //监听错误，如正常输出，则打印null

            if(error==null){

                console.log("恭喜您，数据爬取成功!请打开json文件，先Ctrl+A，再Ctrl+K,最后Ctrl+F格式化后查看json文件(仅限Visual Studio Code编辑器)");

            }

        });

    });

跟着狗尾草走完这篇nodejs爬虫相信大家又get了一个新技能，狗尾草和大家一起加油，一起努力!

鸣谢：Mrs.Zhang

转载至：https://blog.csdn.net/twodogya/article/details/80204322

Nodejs实现爬虫抓取数据的更多相关文章

基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
使用selenium爬虫抓取数据
写在前面本来这篇文章该几个月前写的,后来忙着忙着就给忘记了.ps:事多有时候反倒会耽误事.几个月前,记得群里一朋友说想用selenium去爬数据,关于爬数据,一般是模拟访问某些固定网站,将自己关注的 ...
python爬虫抓取数据
URL管理器实现方式:1. 内存python内存待爬取URL集合:set()已爬取URL集合:set() 2. 关系数据库MySQLurls(url, is_crawled) 3. 缓存数据库(高性能 ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
怎么用Python写爬虫抓取网页数据
机器学习首先面临的一个问题就是准备数据,数据的来源大概有这么几种:公司积累数据,购买,交换,政府机构及企业公开的数据,通过爬虫从网上抓取.本篇介绍怎么写一个爬虫从网上抓取公开的数据. 很多语言都可以写 ...

随机推荐

centos7 firewall开放查看关闭端口
查看所有打开的端口: firewall-cmd --zone=public --list-ports 添加 firewall-cmd --zone=public --add-port=80/tcp - ...
linux 相关使用总结
1. 在centos下安装g++,如果输入 yum install g++,那么将会提示找不到g++.因为在centos下g++安装包名字叫做:gcc-c++ 所以应该输入 yum install g ...
hadoop23---自定义rpc架构（duboo的原理）
eclipse中自动加载源码的方法
1.选中项目右键properties--java build path--Libraries--Add External class Folder 找到项目将项目添加进去 2.然后就是这样 3.OK
Cookie应用参考
内容来自imooc.
centos 7 install virtualbox
from:https://wiki.centos.org/HowTos/Virtualization/VirtualBox Installing VirtualBox cd /etc/yum.repo ...
20145219 《Java程序设计》第01周学习总结
20145219 <Java程序设计>第01周学习总结教材学习内容总结软件分类:系统软件(DOS.Windows.Linux等).应用软件(扫雷.QQ等) 人机交互方式:图形化界面.命 ...
hbase 异常
1.org.apache.hadoop.hbase.ipc.CallTimeoutException a.出现情况描述:使用java API进行hbase数据的scan操作,发现有的数据可以scan到 ...
Linux常用监控命令
A goal is a dream with a deadline. Much effort, much prosperity. 1.IOSTAT命令此命令安装包为sysstat 可用yu ...
在Linux系统下使用Github的基本教程
1. 安装git: sudo apt-get install git-core git-gui git-doc 2.到https://github.com/ 注册一个帐号,一会儿客户端登录的时候要使用 ...

Nodejs实现爬虫抓取数据

开始之前请先确保自己安装了Node.js环境，还没有安装的的童鞋请自行百度安装教程......

1.在项目文件夹安装两个必须的依赖包

Nodejs实现爬虫抓取数据的更多相关文章

随机推荐

热门专题