用TypeScript开发爬虫程序

全局安装typescript：

npm install -g typescript

目前版本2.0.3，这个版本不再需要使用typings命令了。但是vscode捆绑的版本是1.8的，需要一些配置工作，看本文的处理办法。

测试tsc命令：

tsc

创建要写的程序项目文件夹：

mkdir test-typescript-spider

进入该文件夹：

cd test-typescript-spider

初始化项目：

npm init

安装superagent和cheerio模块：

npm i --save superagent cheerio

安装对应的类型声明模块：

npm i -s @types/superagent --save

npm i -s @types/cheerio --save

安装项目内的typescript（必须走这一步）：

npm i --save typescript

用vscode打开项目文件夹。在该文件夹下创建tsconfig.json文件，并复制以下配置代码进去：

{
"compilerOptions": {
"target": "ES6",
"module": "commonjs",
"noEmitOnError": true,
"noImplicitAny": true,
"experimentalDecorators": true,
"sourceMap": false,
// "sourceRoot": "./",
"outDir": "./out"
},
"exclude": [
"node_modules"
]
}

在vscode打开“文件”-“首选项”-“工作区设置”

在settings.json中加入（如果不做这个配置，vscode会在打开项目的时候提示选择哪个版本的typescript）：

{

"typescript.tsdk": "node_modules/typescript/lib"

}

创建api.ts文件，复制以下代码进去：

import superagent = require('superagent');
import cheerio = require('cheerio');

export const remote_get = function(url: string) {

创建app.ts文件，书写测试代码：

import api = require('./api');
const go = async () => {
let res = await api.remote_get('http://www.baidu.com/');
console.log(res.text);
}
go();

执行命令：

tsc

然后：

node out/app

观察输出是否正确。

现在尝试抓取http://cnodejs.org/的第一页文章链接。

修改app.ts文件，代码如下：

import api = require('./api');
import cheerio = require('cheerio');

const go = async () => {
const res = await api.remote_get('http://cnodejs.org/');
const $ = cheerio.load(res.text);
let urls: string[] = [];
let titles: string[] = [];
$('.topic_title_wrapper').each((index, element) => {
titles.push($(element).find('.topic_title').first().text().trim());
urls.push('http://cnodejs.org/' + $(element).find('.topic_title').first().attr('href'));
})
console.log(titles, urls);
}
go();

观察输出，文章的标题和链接都已获取到了。

现在尝试深入抓取文章内容

import api = require('./api');
import cheerio = require('cheerio');

const go = async () => {
const res = await api.remote_get('http://cnodejs.org/');
const $ = cheerio.load(res.text);
$('.topic_title_wrapper').each(async (index, element) => {
let url = ('http://cnodejs.org' + $(element).find('.topic_title').first().attr('href'));
const res_content = await api.remote_get(url);
const $_content = cheerio.load(res_content.text);
console.log($_content('.topic_content').first().text());
})

}
go();

可以发现因为访问服务器太迅猛，导致出现很多次503错误。

解决：

添加helper.ts文件：

export const wait_seconds = function (senconds: number) {
return new Promise(resolve => setTimeout(resolve, senconds * 1000));
}

修改api.ts文件为：

import superagent = require('superagent');
import cheerio = require('cheerio');

export const get_index_urls = function () {
const res = await remote_get('http://cnodejs.org/');
const $ = cheerio.load(res.text);
let urls: string[] = [];
$('.topic_title_wrapper').each(async (index, element) => {
urls.push('http://cnodejs.org' + $(element).find('.topic_title').first().attr('href'));
});
return urls;
}
export const get_content = async function (url: string) {
const res = await remote_get(url);
const $ = cheerio.load(res.text);
return $('.topic_content').first().text();
}

export const remote_get = function (url: string) {

const promise = new Promise<superagent.Response>(function (resolve, reject) {

superagent.get(url)
.end(function (err, res) {
if (!err) {
resolve(res);
} else {
console.log(err)
reject(err);
}
});
});
return promise;
}

修改app.ts文件为：

import api = require('./api');
import helper = require('./helper');
import cheerio = require('cheerio');

const go = async () => {
const res = await api.remote_get('http://cnodejs.org/');
const $ = cheerio.load(res.text);
let urls = await api.get_index_urls();
for (let i = 0; i < urls.length; i++) {
await helper.wait_seconds(1);
let text = await api.get_content(urls[i]);
console.log(text);
}
}
go();

观察输出可以看到，程序实现了隔一秒再请求下一个内容页。

现在尝试把抓取到的东西存到数据库中。

安装mongoose模块：

npm i mongoose --save

npm i -s @types/mongoose --save

然后建立Scheme。先创建models文件夹：

mkdir models

在models文件夹下创建index.ts：

import * as mongoose from 'mongoose';

mongoose.connect('mongodb://127.0.0.1/cnodejs_data', {
server: { poolSize: 20 }
}, function (err) {
if (err) {
process.exit(1);
}
});

// models
export const Article = require('./article');

在models文件夹下创建IArticle.ts:

interface IArticle {
title: String;
url: String;
text: String;
}
export = IArticle;

在models文件夹下创建Article.ts:

import mongoose = require('mongoose');
import IArticle = require('./IArticle');
interface IArticleModel extends IArticle, mongoose.Document { }

const ArticleSchema = new mongoose.Schema({
title: { type: String },
url: { type: String },
text: { type: String },
});

const Article = mongoose.model<IArticleModel>("Article", ArticleSchema);
export = Article;

修改api.ts为：

import superagent = require('superagent');
import cheerio = require('cheerio');
import models = require('./models');
const Article = models.Article;

export const get_index_urls = async function () {
const res = await remote_get('http://cnodejs.org/');

const $ = cheerio.load(res.text);
let urls: string[] = [];
$('.topic_title_wrapper').each((index, element) => {
urls.push('http://cnodejs.org' + $(element).find('.topic_title').first().attr('href'));
});
return urls;

}
export const fetch_content = async function (url: string) {
const res = await remote_get(url);

const $ = cheerio.load(res.text);
let article = new Article();
article.text = $('.topic_content').first().text();
article.title = $('.topic_full_title').first().text().replace('置顶', '').replace('精华', '').trim();
article.url = url;
console.log('获取成功：' + article.title);
article.save();

}
export const remote_get = function (url: string) {

return new Promise<superagent.Response>((resolve, reject) => {
superagent.get(url)
.end(function (err, res) {
if (!err) {
resolve(res);
} else {
reject(err);
}
});
});
}

修改app.ts为：

import api = require('./api');
import helper = require('./helper');
import cheerio = require('cheerio');

(async () => {

try {
let urls = await api.get_index_urls();
for (let i = 0; i < urls.length; i++) {
await helper.wait_seconds(1);
await api.fetch_content(urls[i]);
}
} catch (err) {
console.log(err);
}

console.log('完毕！');

})();

执行tsc

node out/app

观察输出，并去数据库检查一下

可以发现入库成功了！

用TypeScript开发爬虫程序的更多相关文章

爬虫浅谈一：一个简单c#爬虫程序
这篇文章只是简单展示一个基于HTTP请求如何抓取数据的文章,如觉得简单的朋友,后续我们再慢慢深入研究探讨. 图1: 如图1,我们工作过程中,无论平台网站还是企业官网,总少不了新闻展示.如某天产品经理跟 ...
Scrapy：运行爬虫程序的方式
Windows 10家庭中文版,Python 3.6.4,Scrapy 1.5.0, 在创建了爬虫程序后,就可以运行爬虫程序了.Scrapy中介绍了几种运行爬虫程序的方式,列举如下: -命令行工具之s ...
c# 获取网页的爬虫程序
转载于:https://www.cnblogs.com/wzk153/p/9145684.html HtmlAgilityPack相关详解: https://www.cnblogs.com/asxin ...
如何用TypeScript开发微信小程序
微信小程序来了!这个号称干掉传统app的玩意儿虽然目前处于内测阶段,不过目前在应用号的官方文档里已经放出了没有内测号也能使用的模拟器了. 工具和文档可以参考官方文档:https://mp.weixin ...
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
TypeScript开发程序
使用TypeScript开发程序简介 TypeScript一直发展不错,我们公司在开发新功能时,考虑到程序的可维护性,使用了TypeScript编写浏览器上的程序,我们是从零开始使用TypeScri ...
ASP.NET 5系列教程 (五)：在Visual Studio 2015中使用Grunt、Bower开发Web程序
基于Visual Studio 2015,你可以: 方便的管理前端包,如jQuery, Bootstrap, 或Angular. 自动运行任务,如LESS.JavaScript压缩.JSLint.Ja ...
使用Visual Studio Code搭建TypeScript开发环境
使用Visual Studio Code搭建TypeScript开发环境 1.TypeScript是干什么的 ? TypeScript是由微软Anders Hejlsberg(安德斯·海尔斯伯格,也是 ...
python爬虫__第一个爬虫程序
前言机缘巧合,最近在学习机器学习实战, 本来要用python来做实验和开发环境得到一个需求,要爬取大众点评中的一些商户信息, 于是开启了我的第一个爬虫的编写,里面有好多心酸,主要是第一次. 我的文 ...

随机推荐

WCF 编程实验室
最近由于项目需要,简单研究了一下.NET WCF编程. 首先,简单说下WCF是什么,WCF 本质上,是一种开发框架.它用来开发类似COM+ .WEB SERVICE 这样“远程方法调用” 功能. 普通 ...
HTTP权威协议笔记-5.Web服务器
5.1 Web服务器工作内容建立连接--接受一个客户端的连接,或者将其拒绝接受请求--从网络中读取一条HTTP报文处理请求--对请求报文进行解释,并采取行动访问资源--访问报文中指定的资源构 ...
mysql5.7忘记密码
注意:mysql5.7 user表密码字段由password改为authentication_string 1.service mysql stop 2.mysqld_safe --skip-gran ...
iOS开发中获取文本的宽高的方式
/** 计算单行文字的size @parms 文本 @parms 字体 @return 字体的CGSize */ + (CGSize)sizeWithText:(NSString *)text ...
javascript对象引用与赋值
avascript对象引用与赋值 <script type="text/javascript"> //例子一: 引用 var myArrayRef = new Arra ...
很不错的sql练习题（select）
创建表和输入数据 CREATE TABLE STUDENT (SNO VARCHAR(3) NOT NULL, SNAME VARCHAR(4) NOT NULL, SSEX VARC ...
Canvas画图在360浏览器中跑偏的问题
问题描述,canvas画图的js代码中编写的是画正方形的代码,结果在360浏览器上变成了长方形,不知道怎么回事,请问各位大神是否遇到过此类问题? <!DOCTYPE html> <h ...
Acadia Lab 6 轮盘游戏机
WRTnode 肯定不是亲生的... 果断转投Acadia —.— 不是国军不给力,奈何共军有高达为啥不转树莓派?因为选做实验肯定有很多人用树莓派做...我抢不过他们,只能挑点冷门的蹭分_(:з」 ...
copy（python中的引用，浅拷贝，深拷贝）
#直接赋值 list = [1,2,['a','b'],'python'] #现将a等于list a = list print a [1,2,['a','b'],'python'] list.appe ...
cell嵌套UIWebView遇到的几个问题
一.防止死循环问题方法一:使用动画块 [self.myTableView beginUpdates];[self.myTableView endUpdates]; 在下面的代 ...

用TypeScript开发爬虫程序

用TypeScript开发爬虫程序的更多相关文章

随机推荐

热门专题