uniCloud爬虫获取网页数据
'use strict';
let request = require('request')
let cheerio = require('cheerio'); //爬虫
let iconv = require('iconv-lite'); //处理gbk编码的网页
let Entities = require('html-entities').XmlEntities;
let entities = new Entities();
const fs = require('fs')
const path = require('path')
const host = 'http://www.quanshuwang.com/shuku/' const db = uniCloud.database()
const collection = db.collection('repiles-book')
const dbCom = db.command exports.main = async (event, context) => { // 开始抓取首页链接
let indexArr = []
//发送请求获取页面内容
var body = await requestFn()
var $ = cheerio.load(body);
//兼容网页编码格式
if ($('meta[charset]').attr('charset') == 'utf-8') { //如果网页是utf-8的编码 } else { //如果网页是gbk的编码
body = iconv.decode(body, 'gbk'); //转换gbk编码的页面内容
$ = cheerio.load(body);
}
//处理网页数据 获取排行列表
let list = $('.yd-book-content .tab-item').find('.yd-book-item')
for (var i = 0; i < list.length; i++) {
let href = list.eq(i).find('a').attr("href")
//获取书的id
let index = href.indexOf('_') + 1
let index2 = href.lastIndexOf('.')
let bookId = href.slice(index, index2) //书ID
//获取书的封面
let bookImageSrc = list.eq(i).find('img').attr("src")
//获取书的标题 注意使用html-entities解码
let bookName = entities.decode(list.eq(i).find('h2').html())
//获取书的作者 注意使用html-entities解码
let bookAuthor = entities.decode(list.eq(i).find('.dl-horizontal-inline p').html()) console.log('书的封面:' + bookImageSrc);
console.log('书的标题:' + bookName);
console.log('书的作者:' + bookAuthor);
console.log('书的id:' + bookId);
let obj={
bookImageSrc,
bookName,
bookAuthor,
bookId,
}
saveContent(obj)
} console.log('新增文章数量:', indexArr.length); // 循环抓取每个新文章详情页
// if (indexArr.length > 0) {
// for (let i = 0; i < indexArr.length; i++) {
// let href = list.eq(indexArr[i]).attr("href")
// let imgSrc = list.eq(indexArr[i]).find('img').attr('src')
// let title = list.eq(indexArr[i]).find('.title').text()
// await saveArticle(href, title, imgSrc)
// }
// } //返回数据给客户端
return event
}; function saveContent(obj) {
//获取要写入文件的文件夹路径(以书名当文件夹)
let pathBook=path.join(__dirname, `../../bookData/${obj.bookName}`)
//判断书名文件夹是否存在,不存在则创建
if (!fs.existsSync(pathBook)) {
fs.mkdirSync(pathBook)
}
//写入json文件
fs.writeFile(`${pathBook}/chapter1.json`, JSON.stringify(obj), 'utf-8', err => {
if (err) throw err
})
} function requestFn() {
return new Promise((resolve, reject) => {
request({
url: host,
encoding: null //设置抓取页面时不要对数据做任何转换
}, function(err, res, body) {
if (err) {
reject(err)
} else {
resolve(body)
}
});
})
}
uniCloud爬虫获取网页数据的更多相关文章
- 爬虫获取网页数据,报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start by
https://blog.csdn.net/hj_xy_0705/article/details/85011072
- Java 网络爬虫获取网页源代码原理及实现
Java 网络爬虫获取网页源代码原理及实现 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL ...
- 【转】如何在Windows+VS2005使用最新静态libcurl 7.35.0获取网页数据,支持HTTPS
地址: http://blog.csdn.net/hujkay作者:Jekkay Hu(34538980@qq.com)关键词:Windows,curl,ssl, visual c++ 2005, ...
- 在php中分别使用curl的post提交数据的方法和get获取网页数据的方法
在php中分别使用curl的post提交数据的方法和get获取网页数据的方法整理分享一下额,具体代码如下: (1)使用php curl获取网页数据的方法: $ch=curl_init(); //设置选 ...
- UWP 使用HttpClient获取网页数据
我的App自然灾害中,为了展示地震的各种信息,就需要从网页上获取地震源数据. 如图所示,我们需要展示 地震等级.地震发生时间.经纬度.震源深度.地震位置等信息. 那么,假设给了一个地震的源,中国地震台 ...
- 使用HttpClient进行Get方式通信(使用HttpGet获取网页数据)
1.项目结构 导入jar包 jar包去官网下载解压后项目新建lib目录,将解压包中的lib目录中的zip拷入项目lib目录文件夹,然后build path-->配置到项目中 2.TestGet. ...
- C# 获取网页数据、获取本机IP 分类: C# 2014-12-16 14:59 308人阅读 评论(0) 收藏
说明: (1) http://www.3322.org/dyndns/getip 这个网址可以获取本机IP,读取的内容就是本机IP (2)方法经测试,可以实现. (3)参考:http://www.cn ...
- 20170717_python_爬虫_网页数据解析_BeautifulSoup_数据保存_pymysql
上午废了老大劲成功登陆后,下午看了下BeautifulSoup和pymysql,晚上记录一下 自己电脑装的sublime,字体颜色竟然拷贝不下来 - - 写的过程中遇到了很多问题: 1.模拟登陆部分 ...
- VB中获取网页数据
以下是在Microsoft Visual Basic 6.0 中文版下做的 VB可以抓取网页数据,所用的控件是Inet控件. 第一步:单击工程-->部件 选择Microsoft Internet ...
随机推荐
- Mybatis逆向工程简单介绍
转自:https://blog.csdn.net/yerenyuan_pku/article/details/71909325 什么是逆向工程 MyBatis的一个主要的特点就是需要程序员自己编写sq ...
- Tomcat中的Server.xml配置详解
Tomcat中的Server.xml配置详解 Tomcat Server的结构图如下: 该文件描述了如何启动Tomcat Server <Server> <Listener /> ...
- 4.1 python中调用rust程序
概述 使用rust-cpython将rust程序做为python模块调用: 通常为了提高python的性能: 参考 https://github.com/dgrunwald/rust-cpython ...
- 【Java 泛型】之 <? super T> 和<? extends T> 中 super ,extends如何理解?有何异同?
Java 泛型 <? super T> 和<? extendsT>中 super ,extends怎么 理解?有何不同? 简介 前两篇文章介绍了泛型的基本用法.类型擦除以及泛型 ...
- Hibernate 错误的问题
配了好几次的Hibernate,老是在create BeanFactory的时候fail.我是用MyEclipse自带的HIbernate,直接加进去的. private static final T ...
- NSMutableArray-->NSString
1.如何把NSMutableArray 转化为NSString//用字符将NSArray中的元素拼接起来 NSArray *array = [NSArray arrayWithObjects:@&qu ...
- Java线程安全性-原子性工具对比
synchronized 不可中断锁,适合竞争不激烈的场景,可读性好,竞争激烈时性能下降很快 Lock 可中断锁,多样化同步,竞争激烈时能维持常态 Atomic 竞争激烈时能维持常态,比Lock性能还 ...
- pipeline 共享库
目录 一.简介 二.共享库扩展 共享库使用 共享库结构 pipeline模板 一些小问题 三.共享库例子 使用公共变量 使用共享库的src方法 使用共享库的vars方法 四.插件实现pipeline ...
- 追踪工具strace
目录 一.简介 二.例子 找出程序读取的文件 查看现在程序在做什么 查看程序中哪个部分消耗大量cpu 无法连接服务器查看信息 一.简介 Linux 操作系统有很多用来跟踪程序行为的工具,内核态的函数调 ...
- thinkphp or查询
$map['source'] = array(array('eq',0),array('eq',1), 'or'); $this->model->where($map)