CrawlScript脚本语言实现网络爬虫

前段时间我们学习了几种爬虫技术，我们来回顾一下，webCollector，htmlParser，Jsoup，各有优劣，但是如果能灵活运用，其实都是很不错的。那么，今天呢，我们来学习一种脚本语言，这是一种专门为爬虫技术设计的脚本语言，叫做CrawlScript。话不多说，我们先来了解一下CrawlScript.

CrawlScript是一种具有爬虫功能的javascript：CrawlScript是一种具有爬虫功能的javascript,CrawlScript是在ECMA标准的基础上设计的语言，是一种javascript,在语法上和网页开发中使用的javascript完全相同，但是并不支持网页开发中所特有的函数和对象，如document、alert()在CrawlScript中会失效。CrawlScript有自己的一套特有的函数和对象。
CrawlScript是跨平台的：CrawlScript在任何有JDK环境的电脑上都可以运CrawlScript是跨平台的行，无论是windows、linux还是unix。
在JAVA程序中调用CrawlScript：CrawlScript完全由JAVA编写,可在JAVA程序中被方便调用。
为什么选择CrawlScript：

CrawlScript是脚本语言，大大简化了编程，用一两行代码可以实现用几十行JAVA代码才能实现的功能。
CrawlScript可以直接单独作为爬虫使用，只需要JDK的环境即可，不需要复杂的配置过程。
CrawlScript可以嵌入任何其他JAVA程序中。

详细文档可以参考CrawlScript的API帮助文档，http://crawlscript.github.io/index.html。

首先，我们需要先下载CrawlScript的压缩包下来，进入CrawlScript的github主页,右下方的Download Zip按钮下载。

下载完后解压到指定文件夹，如下图：

我们发现这里面有一个Jar包，还有一个demo.js，这个js是一个可以运行的案例，我们先不管它。

接下来，我们需要运行CrawlScript Shell，CrawlScript Shell是编写和运行CrawlScript最常用的方式之一。具体可参考文档。我们先来获取一下百度首页的内容：

接下来，我们利用CrawlScript爬取搜狐新闻的网页内容。

OK，今天的内容就到这里了，至于CrawlScript更深入的内容我们就不再赘述了，有兴趣的同学们可以查找资料进一步的去研究。

如果您对本文观点有什么异议，欢迎您的留言，我们一起交流！

CrawlScript脚本语言实现网络爬虫的更多相关文章

用python语言编写网络爬虫
本文主要用到python3自带的urllib模块编写轻量级的简单爬虫.至于怎么定位一个网页中具体元素的url可自行百度火狐浏览器的firebug插件或者谷歌浏览器的自带方法. 1.访问一个网址 re= ...
JAVA平台上的网络爬虫脚本语言 CrawlScript
JAVA平台上的网络爬虫脚本语言 CrawlScript 网络爬虫即自动获取网页信息的一种程序,有很多JAVA.C++的网络爬虫类库,但是在这些类库的基础上开发十分繁琐,需要大量的代码才可以完成一个 ...
R语言rvest包网络爬虫
R语言网络爬虫初学者指南(使用rvest包) 钱亦欣发表于今年 06-04 14:50 5228 阅读作者 SAURAV KAUSHIK 译者钱亦欣引言网上的数据和信息无穷无尽,如 ...
iOS—网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
iOS开发——网络实用技术OC篇&网络爬虫－使用java语言抓取网络数据
网络爬虫-使用java语言抓取网络数据前提:熟悉java语法(能看懂就行) 准备阶段:从网页中获取html代码实战阶段:将对应的html代码使用java语言解析出来,最后保存到plist文件上一 ...
C语言Linix服务器网络爬虫项目（一）项目初衷和网络爬虫概述
一.项目初衷和爬虫概述 1.项目初衷本人的大学毕设就是linux上用c写的一个爬虫,现在我想把它完善起来,让他像一个企业级别的项目.为了重复发明轮子来学习轮子的原理,我们不使用第三方框架(这里是说的 ...
Webharvest网络爬虫应用总结，web-harvest 编写脚本读取百度博客实例
Webharvest网络爬虫应用总结 Web-Harvest是一个Java开源Web数据抽取工具.它能够收集指定的Web页面并从这些页面中提取有用的数据.其实现原理是,根据预先定义的配置文件用ht ...
R语言网络爬虫学习基于rvest包
R语言网络爬虫学习基于rvest包龙君蛋君:2015年3月26日 1.背景介绍: 前几天看到有人写了一篇用R爬虫的文章,感兴趣,于是自己学习了.好吧,其实我和那篇文章R语言爬虫初尝试-基于RVES ...
13. Go 语言网络爬虫
Go 语言网络爬虫本章将完整地展示一个应用程序的设计.编写和简单试用的全过程,从而把前面讲到的所有 Go 知识贯穿起来.在这个过程中,加深对这些知识的记忆和理解,以及再次说明怎样把它们用到实处.由本 ...

随机推荐

关于js的parseInt方式在不同浏览器下的表现
今天开发期间遇到个需求要把日期格式转换成毫秒数日期为:2015-08-10 split之后使用parseInt将2015,08,10分别转化为数字格式. 但是使用parseInt('08')的时候却 ...
纯js实现html转pdf
项目开发中遇到了一个变态需求,需要把一整个页面导出为pdf格式,而且要保留页面上的所有的表格.svg图片和样式.简而言之,就是希望像截图一样,把整个页面截下来,然后保存成pdf.咋不上天呢--查了一下 ...
安装msdn出现的问题及解决
安装msdn出现的问题及解决用xx.iso 镜象文件安装运行第一个镜象文件的setup.exe安装到一部分提示:安装程序无法打开文件 C:\Documents and Settings\empty ...
nodejs中异步
nodejs中的异步 1 nodejs 中的异步存在吗? 现在有点 javascript 基础的人都在听说过 nodejs ,而只要与 javascript 打交到人都会用或者是将要使用 nodejs ...
storm 1.0版本滑动窗口的实现及原理
滑动窗口在监控和统计应用的场景比较广泛,比如每隔一段时间(10s)统计最近30s的请求量或者异常次数,根据请求或者异常次数采取相应措施.在storm1.0版本之前,没有提供关于滑动窗口的实现,需要开发 ...
Linux Tomcat安装，Linux配置Tomcat，Linux Tomcat修改内存，Linux tomcat修改端口
Linux Tomcat安装,Linux配置Tomcat,Linux Tomcat修改内存,Linux tomcat修改端口 >>>>>>>>>& ...
0CSS样式表与HTML结合的方法
从此王子和公主幸福的生活在了一起:) 层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文 ...
Linux 重启命令
一.Linux 的五个重启命令 1.shutdown 2.poweroff 3.init 4.reboot 5.halt 二.五个重启命令的具体说明 shutdown reboot 在linux下一些 ...
打造“黑客“手机--Kali Nethunter
从三月份开始,继续更新技术文章.一个月没有更新技术文章了,这一个月有一部分时间是在休息,另一部分时间是在学习汇编和操作系统,沉淀底层和逆向方面的技术. 今年年初,为了玩一下 kali NetHunte ...
每天一个Linux命令（10）--cat命令
--首先,恭喜你,这是第十个命令啦. --为啥第十个就要恭喜?没啥特别呀? --因为逢十进一啊! cat命令的用途是连接文件或标准输入并打印.这个命令常用来显示文件内容,或者将几个文件连接起来显示,或 ...

CrawlScript脚本语言实现网络爬虫

CrawlScript脚本语言实现网络爬虫的更多相关文章

随机推荐

热门专题