node初步二小爬虫

小爬拉勾网获取想要的信息；

一、分三步 1 获得数据 2 处理数据 3展示数据

二、代码 :创建文件reptile.js;写入

var http=require('http');
var cheerio = require("cheerio");
var url=require('url');
var url='http://www.lagou.com/zhaopin/Node.js/?labelWords=label';
var htmldata=[]
function filechuli(data){

    /*[
     {
          type:"",//类型
         name:'',
         Introduction:'',//简介
         requirements:'',//要求
         address:'',//地址
         time:'',
         welfare:'',//福利
         salary:''//薪水
         url:""网络地址//
     }
     ]*/
    var $ = cheerio.load(data);
    var li=$(".con_list_item");
    li.each(function(){
        var obj={};
        obj.type=$(this).find("h2").text();
        obj.name=$(this).attr('data-company');
        obj.Introduction=$(this).find('.industry').text();
        obj.requirements=$(this).find('.p_bot').find(".li_b_l").text();
        obj.address=$(this).find(".add").find("em").text();
        obj.time=$(this).find('.format-time').text();
        obj.welfare=$(this).find('.list_item_bot').find('.li_b_l').text();
        obj.salary=$(this).find('.money').text();
        obj.url=$(this).find(".position_link").attr("href");
        htmldata.push(obj);
    });
    start();

};
function start(){
    function onRequest(request,response){
        response.writeHead(,{'Content-Type':'text/plain; charset=utf-8'});
        response.write(JSON.stringify(htmldata));
        response.end();//响应结束
    }
    http.createServer(onRequest).listen();
    console.log("服务器启动完成");
}

http.get(url,function(res){
    var html='';
    res.on('data',function(data){
        html+=data;
    });
    res.on('end',function(){
        filechuli(html);
        //console.log(html);
    });
});

三分析：

1、使用cheerio模块 npm i cheerio 它是类似于JQ的服务器端的工具；

2、进入文件夹，然后node reptile.js;

3、访问 localhost:9999

node初步二小爬虫的更多相关文章

node.js 开发简易的小爬虫
node.js 开发简易的小爬虫最近公司开发一款医药类的软件,所以需要一些药品的基础数据,所以本人就用node.js写一个简易的小爬虫,并写记录这个Demo以供大家参考. 一.开发前的准备: 1, ...
Python爬虫学习：二、爬虫的初步尝试
我使用的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:二.爬虫的初步尝试 1.尝试抓取指定网页 ...
node小爬虫
这一章主利用node的http模块制作一个网页的小爬虫来爬去网页信息,其中对于后端html的节点的获取采用了cheerio模块,这 /** * Created by Administrator on ...
Java豆瓣电影爬虫——小爬虫成长记（附源码）
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
nodejs http小爬虫
本课程用nodejs写一个http小爬虫,首先科普一下,爬虫就是把网上的网页代码给弄下来,然后纳为己用.目前最大的爬虫:百度快照等的. 下面直接上代码示例一: var http = require( ...
Node.js 网页瘸腿爬虫初体验
延续上一篇,想把自己博客的文档标题利用Node.js的request全提取出来,于是有了下面的初哥爬虫,水平有限,这只爬虫目前还有点瘸腿,请看官你指正了. // 内置http模块,提供了http服务器 ...
用Node+wechaty写一个爬虫脚本每天定时给女(男)朋友发微信暖心话
wechatBot 微信每日说,每日自动发送微信消息给你心爱的人项目介绍灵感来源在掘金看到了一篇<用Node + EJS写一个爬虫脚本每天定时女朋友发一封暖心邮件>后, 在评论区偶然 ...
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~)
放养的小爬虫--豆瓣电影入门级爬虫(mongodb使用教程~) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wa ...
「拉勾网」薪资调查的小爬虫，并将抓取结果保存到excel中
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...

随机推荐

[poj 2553]The Bottom of a Graph[Tarjan强连通分量]
题意: 求出度为0的强连通分量. 思路: 缩点具体有两种实现: 1.遍历所有边, 边的两端点不在同一强连通分量的话, 将出发点所在强连通分量出度+1. #include <cstdio> ...
emacs配置详解及C/C++IDE全功能配置演示(附配置文件)
我的emacs插件下载地址: http://pan.baidu.com/share/link?shareid=4196458904&uk=3708780105 说明: 1.为什么使用emacs ...
HDOJ--4786--Fibonacci Tree【生成树】
链接:http://acm.hdu.edu.cn/showproblem.php?pid=4786 题意:给出n个点,m条边,和边的信息. 边有两种颜色,白色和黑色.现要求构造一个生成树.看是否能满足 ...
如何利用 _ViewStart.cshtml对页面添加代码？
_ViewStart.cshtml 添加的代码会出现在页面的最上面(<html> 之前) .这样就造成了我原先很多页面出现兼容性问题(经难是因为<html>之前出现了其它的代码 ...
richTextBoxFontClass
使用 private void button1_Click(object sender, EventArgs e) { RichTextBoxCtrl.richTextBoxFontClass r = ...
[Redux] Using withRouter() to Inject the Params into Connected Components
We will learn how to use withRouter() to inject params provided by React Router into connected compo ...
标准差（standard deviation）和标准误差（standard error）你能解释清楚吗？
by:ysuncn(欢迎转载,请注明原创信息) 什么是标准差(standard deviation)呢?依据国际标准化组织(ISO)的定义:标准差σ是方差σ2的正平方根:而方差是随机变量期望的二次偏差 ...
BASH内置变量
BASH内置变量 ().BASH 作用:bash的完整路径.默认为/bin/bash ().BASH_ENV 作用:仅在非交互模式中适用.在执行shell脚本时,会先检查该变量是否指定了启动脚本,若 ...
自主创建tcpdump/wireshark pcap文件
pcap文件格式是bpf保存原始数据包的格式,很多软件都在使用,比如tcpdump.wireshark等等,了解pcap格式可以加深对原始数据包的了解,自己也可以手工构造任意的数据包进行测试. p ...
checkbox复选框
改变checkbox状态所有的jquery版本都可以这样赋值:// $("#cb1").attr("checked","checked") ...

node初步二 小爬虫

node初步二 小爬虫的更多相关文章

随机推荐

热门专题

node初步二小爬虫

node初步二小爬虫的更多相关文章