j网络爬虫之WebMagic

WebMagic官网：http://webmagic.io/

注意：

1、在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new myPageProcessor()).start()爬虫启动后，console并不会输出

spider.addPipeline(new ConsolePipeline())//在控制台上输出

webMagic之post请求

请求参数为form

	@Test

	public void webMagicTest1() {

		String str = "一人之下";

		Map<String,Object> map  = new HashMap<String,Object>();

		map.put("keyword", str);

		Request request = new Request("https://www.80s.tw/search");

		request.setMethod(HttpConstant.Method.POST);

		request.setRequestBody(HttpRequestBody.form(map, "utf-8"));

		Spider.create(new webMagic1())

				.addRequest(request)

				.addPipeline(new JsonFilePipeline("D:\\webmagic\\"))

				.addPipeline(new ConsolePipeline())

				.run();

	}

　　请求参数为json

	@Test

	public void webMagicTest1() {

		String name = "一人之下";

		JSONObject json = new JSONObject();

		json.put("keyword", name);

		Request request = new Request("https://www.80s.tw/search");

		request.setMethod(HttpConstant.Method.POST);

		request.setRequestBody(HttpRequestBody.json(json.toString(), "utf-8"));

		Spider.create(new webMagic1())

				.addRequest(request)

				.addPipeline(new JsonFilePipeline("D:\\webmagic\\"))

				.addPipeline(new ConsolePipeline())

				.run();

	}

j网络爬虫之WebMagic的更多相关文章

网络爬虫框架Webmagic
1 谈谈网络爬虫 1.1 什么是网络爬虫在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高.如何自动高效地获取互联网中我 ...
WebMagic写的网络爬虫
一.前言最近因为有爬一些招聘网站的招聘信息的需要,而我之前也只是知道有“网络爬虫”这个神奇的名词,具体是什么.用什么实现.什么原理.如何实现比较好都不清楚,因此最近大致研究了一下,当然,研究的并不是 ...
java 之webmagic 网络爬虫
webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. http://webmagic.io/ 准备工作: Maven依赖(我这里用的Mav ...
Day02_WebCrawler(网络爬虫)
学于黑马和传智播客联合做的教学项目感谢黑马官网传智播客官网微信搜索"艺术行者",关注并回复关键词"webcrawler"获取视频和教程资料! b站在线视 ...
python之网络爬虫
一.演绎自已的北爱踏上北漂的航班,开始演奏了我自已的北京爱情故事二.爬虫1 1.网络爬虫的思路首先:指定一个url,然后打开这个url地址,读其中的内容. 其次:从读取的内容中过滤关键字:这一步 ...
开源的49款Java 网络爬虫软件
参考地址搜索引擎 Nutch Nutch 是一个开源Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具.包括全文搜索和Web爬虫. Nutch的创始人是Doug Cutting, ...
基于Heritrix的特定主题的网络爬虫配置与实现
建议在了解了一定网络爬虫的基本原理和Heritrix的架构知识后进行配置和扩展.相关博文:http://www.cnblogs.com/hustfly/p/3441747.html 摘要随着网络时代 ...
网络爬虫系统Heritrix的结构分析（个人读书报告）
摘要随着网络时代的日新月异,人们对搜索引擎,网页的内容,大数据处理等问题有了更多的要求.如何从海量的互联网信息中选取最符合要求的信息成为了新的热点.在这种情况下,网络爬虫框架heritrix出现 ...
Linux企业级项目实践之网络爬虫（29）——遵守robots.txt
Robots协议(也称为爬虫协议.机器人协议等)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以 ...

随机推荐

配置文件：mainfest.xml
AndroidManifest.xml 是每个android程序中必须的文件. 它位于整个项目的根目录,描述了package中暴露的组件(activities,services, 等等),他们各自 ...
51nod 1228 序列求和（伯努利数)
1228 序列求和题目来源: HackerRank 基准时间限制:3 秒空间限制:131072 KB 分值: 160 难度:6级算法题收藏关注 T(n) = n^k,S(n) = T(1 ...
[POJ]P3126 Prime Path[BFS]
[POJ]P3126 Prime Path Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 35230 Accepted: ...
springboot(六) Maven打包引入本地jar包
springboot Maven打包引入本地jar包最近在做项目的时候,有一些jar包不存在maven的依赖库中,所以需要自己引入本地jar包来达到需求,那么我们该如何去将本地的jar包引入s ...
新年第一发--HDU1848--Fibonacci again and again（SG函数）
Problem Description 任何一个大学生对菲波那契数列(Fibonacci numbers)应该都不会陌生,它是这样定义的:F(1)=1;F(2)=2;F(n)=F(n-1)+F(n-2 ...
SPFA算法的判负环问题（BFS与DFS实现）
经过笔者的多次实践(失败),在此温馨提示:用SPFA判负环时一定要特别小心! 首先SPFA有BFS和DFS两种实现方式,两者的判负环方式也是不同的. BFS是用一个num数组,num[x] ...
How do I add a simple onClick event handler to a canvas element?
How do I add a simple onClick event handler to a canvas element? When you draw to a canvas element, ...
十一、RF操作滚动条
两种方式: 方式一:window.scrollBy(0, document.body.scrollHeight) 方式二:window.scrollTo(0, document.body.scroll ...
细数EDM营销中存在的两大盲点
国庆节了,祝大家国庆快乐,转眼博客至今已有三年了.下面博主为大家介绍EDM营销中存在的两大盲点,供大家参考. 一是忽略用户友好.用户友好策略是Email营销成功的关键要素,具体包括内容友好策略.方式友 ...
HTTP学习记录：四、头信息（请求和响应）
学习资源主要为:@小坦克HTTP相关博客一.请求头信息(Request Header) 请求头信息包含比较多,如下: 1.Cache头域 if-modified-Since 作用:把浏览器端缓存页面 ...

j网络爬虫之WebMagic

j网络爬虫之WebMagic的更多相关文章

随机推荐

热门专题