nodejs抓取数据二(列表解析)

这里做得比较暴力,没有分页取出数据解析,O(∩_∩)O哈哈~,居然没有被挂机.不过解析的坑特别多...不过大部分我想要的数据都拿到了.

//解析列表数据

var http = require("http"),

    cheerio = require("cheerio"),

    mongoose = require('mongoose'),

    db = mongoose.createConnection('mongodb://127.0.0.1:27017/crawl58');

db.on('error', function (error) {

    console.log('mongodb连接错误: ' + error);

});

//列表页面数据

var mongooseSchema = new mongoose.Schema({

    url: {type: String},//抓取地址

    type: {type: String},//类型

    content: {type: String},//抓取地址

    updateTime: {type: Date, default: Date.now},//数据抓取时间

    flag: {type: String, default: 0} //用于判断是否抓取过 0表示详情没有抓取过.

});

// model

var mongooseModel = db.model('pageList', mongooseSchema);//代理记账

//存储数据

var parseListSchema = new mongoose.Schema({

    url: {type: String},//抓取地址

    detailUrl: {type: String},//详情地址

    type: {type: String},//类型

    title: {type: String},//标题

    company: {type: String},//公司名称

    contact: {type: String},//联系人

    score: {type: String},//评分

    phone: {type: String},//电话

    updateTime: {type: Date, default: Date.now},//数据解析时间

    flag: {type: String, default: 0} //用于判断是否抓取过 0表示详情没有抓取过.

});

// model

var parseListModel = db.model('parseList', parseListSchema);//代理记账

var pageNo = 0;

var data;//保存取出的数据

function queryList() {

    var condition = {

        url: 'http://cd.58.com/yanzi/pn16/?PGTID=139112794188694845657499716&ClickID=1'

    }

    mongooseModel.find(condition, function (error, result) {

        if (error) {

            console.log(error);

        } else {

            //解析数据

            data = result;

            console.log('开始解析...');

            parseList();

        }

    });//.skip(0).limit(100);//分页解析

};

//解析

function parseList() {

    //解析数据并存入数据库

    if (!data[pageNo]) {

        console.log('解析完成. 页码: ' + pageNo);

        //更新数据库,修改解析标志位  暂时不处理.

        return false;

    }

    var listItem = data[pageNo];

    var listContent = listItem.content;

    if (!listContent) {

        pageNo = pageNo + 1;

        parseList();

        return false;

    }

    var $ = cheerio.load(listContent);

    //解析页面

    var trElements = $('.small-tbimg>tr');

    var docArray = [];

    trElements.each(function (index, ele) {

        if ($(ele).find('td.dev').length > 0) {

            //已经没有这个类型的数据了.

            return false;

        }

        var contact = $(ele).find('div.tdiv .f14').first().text();

        if (contact) {

            contact = contact.replace(':', '');

        }

        var title = $(ele).find('div.tdiv>a').first().text();

        var company = $(ele).find('a.u').first().text();

        if (!company) {

            var companyBox = $(ele).find('div.tdiv');

            companyBox.find('b,a,span,i').remove();

            company = decodeUtf8(companyBox.html());

            if (company && company.indexOf('<br>') > 0) {

                company = company.replace('company', '').replace('%uA0', '');

                company = company.split('<br>')[2];

            }

        }

        var score = $(ele).find('.star00').first().attr('title');

        var detailUrl = $(ele).find('div.pjdiv a').first().attr('href');

        if (!detailUrl) {

            detailUrl = $(ele).find('div.tdiv a').first().attr('href');

            if (!detailUrl) {

                detailUrl = $(ele).find('a.t').first().attr('href');

            }

        } else {

            detailUrl = detailUrl.replace('showtype=yuyue&', '');

        }

        var phone = $(ele).find('.jumpDiv_tel').first().text();

        if (phone) {

            phone = getNumber(phone);

        }

        var item = {

            contact: contact,

            type: listItem.type,

            title: title,

            url: listItem.url,

            detailUrl: detailUrl,

            company: company,

            score: score,

            phone: phone

        };

        docArray.push(item);

    });

    //存入数据库

    parseListModel.create(docArray, function (error) {

        if (error) {

            console.log(error);

        } else {

            console.log('保存成功  页码: ' + pageNo + '  条数: ' + docArray.length);

            pageNo = pageNo + 1;

            parseList();

        }

    });

};

//解码utf-8

function decodeUtf8(str) {

    return unescape(str.replace(/&#x/g, '%u').replace(/;/g, ''))

};

//提取电话号码

function getNumber(str) {

    var reg = /[0-9][0-9]*/g;

    return str.match(reg).join('-');//带区号的电话号码

};

//这里为整个解析的开始 -- 特么这么烂的代码自己都看不下去了,唯一看得过去的是,能用  .O(∩_∩)O.

//调用...1.取出数据;2 解析数据并存入数据库

queryList();

nodejs抓取数据二(列表解析)的更多相关文章

nodejs抓取数据一(列表抓取)
纯属初学...有很多需要改进的地方,请多多指点... 目标是抓取58同城这个大分类下的列表数据: http://cd.58.com/caishui/?PGTID=14397169455980.924 ...
PHP获取cookie、Token、模拟登录、抓取数据、解析生成json
本文介绍使用PHP获取cookie,获取Token.以及模拟登录.然后抓取数据.最后解析生成json的的过程. 0. 设置Cookie路径 set_time_limit(0); //使用的cookie ...
C# 微信生活助手空气质量天气预报等效果展示数据抓取（二）
此文主要是中国天气网和中国环境监测总站的数据抓取打算开放全部数据抓取源代码已在服务器上稳定运行半个月 webapi http://api.xuzhiheng.cn/ 常量 /// <su ...
NET 5 爬虫框架/抓取数据
爬虫大家或多或少的都应该接触过的,爬虫有风险,抓数需谨慎. 爬虫有的是抓请求,有的是抓网页再解析本着研究学习的目的,记录一下在 .NET Core 下抓取数据的实际案例.爬虫代码一般具有时效性,当 ...
nodejs--实现跨域抓取数据
最近公司安排给我一个任务,抓取页面数据:http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1 ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
爬虫学习笔记（1）-- 利用Python从网页抓取数据
最近想从一个网站上下载资源,懒得一个个的点击下载了,想写一个爬虫把程序全部下载下来,在这里做一个简单的记录 Python的基础语法在这里就不多做叙述了,黑马程序员上有一个基础的视频教学,可以跟着学习一 ...
分布式爬虫：使用Scrapy抓取数据
分布式爬虫:使用Scrapy抓取数据 Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘. ...
web scraper 抓取数据并做简单数据分析
其实 web scraper 说到底就是那点儿东西,所有的网站都是大同小异,但是都还不同.这也是好多同学总是遇到问题的原因.因为没有统一的模板可用,需要理解了 web scraper 的原理并且对目标 ...

随机推荐

数据格式处理（数字，日期），java处理，jsp的fmt处理
java 格式处理 public static String formatTosepara(float data) {DecimalFormat df = new DecimalFormat(&qu ...
ormlite 多表联合查询
ormlite 多表联合查询 QueryBuilder shopBrandQueryBuilder = shopBrandDao.queryBuilder(); QueryBuilder shopQu ...
VNC轻松连接远程Linux桌面
VNC连接Linux桌面,要想连接Linux远程桌面,按照下面的步骤,非常简单.快速,Linux配置VNC(以RedHat.CentOS.Fedora系列为例). 工具/原料 Linux平台安装VNC ...
Tomcat的class加载的优先顺序
Tomcat的class加载的优先顺序一览 1.最先是$JAVA_HOME/jre/lib/ext/下的jar文件. 2.环境变量CLASSPATH中的jar和class文件. 3.$CATALINA ...
PHP使用Redis
首先确保安装了Redis扩展详细的使用方式请浏览扩展文档 https://github.com/phpredis/phpredis#connection $obj = new Redis(); $ ...
android脚步--Relativelayout设置
引自http://blog.csdn.net/lamp_zy/article/details/8035161 http://my.oschina.net/honeyming/blog/130761 以 ...
Linux Mint 17.2个性化配置
一.开启root 帐号登陆设置一个口令,使用: sudo passwd root 当你使用完毕后屏蔽root帐号使用以下命令锁定root帐号 : sudo passwd -l root 如何在终端模 ...
inotify-java linux系统监听文件发生变化，实时通知java程序
1 Overview 最近公司的一个任务需要实时监控文件系统中某个文件的内容变化.由于程序本身由Java编写,因此使用了inotify- java(http://code.google.com ...
document.createElement方法的使用
我们在使用createElemen方法t创建一个元素节点的时候,似乎在IE下面怎么写都可以,但切换到FF等其它浏览器却总是会报错. 比如我们要创建一个input元素,那么在IE下,我们可以有多种写法: ...
JS监听input框的回车事件、属性值改变事件
一.介绍在程序猿门的工作中,经常会遇见一些表单数据的提交,对于有表单的东西而言,input输入框是非常常见的,所以对于一些input的基本事件,我们需要去掌握二.input的监听enter事件比 ...

nodejs抓取数据二(列表解析)

nodejs抓取数据二(列表解析)的更多相关文章

随机推荐

热门专题