java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)

这是老师所布置的作业

说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来（而是它分享链接的一个主要内容概括...）（他的主要内容我爬不到也不想去研究大家有好办法可以call me）

例如 互联网+这个词汇我这里爬的解释为

中文【互联网+_百度百科】“互联网+”是创新2.0下的互联网发展的新业态，是知识社会创新2.0推动下的互联网形态演进及其催生的经济社会发展新形态。“互联网+”是互联网思维的进一步实践成果，推动经济形态不断地发生演变，从而带动社会经济实体的生命力，为改革、创新、发展提供广阔的网络平台。通俗的说，“互联网+”就是“互联网+各个传统行业”，但这并不是简单的两者相加，而是利用信息通信技术以及互联网平台，让互联网与传统行业进行深度融合，创造新的发展生态。它代表一种新的社会形态，即充分发挥互联网在社会资源配置中的优化和集成作用，将互联网的创新成果深度融合于经济、社会各域之中，提升全社会的创新力和生产力，形成更广泛的以互联网为基础设施和实现工具的经济发展新形态。2015年7月4日，国务院印发《国务院关于积极推进“互联网+”行动的指导意见》。2016年5月31日，教育部、国家语委在京发布《中国语言生活状况报告（2016）》。“互联.....（分享自

而不同于百度词条的长篇大论

webmagic 使用不再赘述导入包实现PageProcessor接口

代码如下

 package com.test;

 import java.util.regex.Matcher;

 import java.util.regex.Pattern;

 import us.codecraft.webmagic.Page;

 import us.codecraft.webmagic.Site;

 import us.codecraft.webmagic.Spider;

 import us.codecraft.webmagic.pipeline.ConsolePipeline;

 import us.codecraft.webmagic.processor.PageProcessor;

 /**

  * @author 信1605-1 hjj

  *

  */

 public class PaChong2 implements PageProcessor{

     private Site site = Site.me()

             .setUserAgent("Mozilla/5.0 (Windows NT 10.0; WOW64; rv:56.0) Gecko/20100101 Firefox/56.0")

             .setRetryTimes(3)

             .setSleepTime(1000);

     @Override

     public Site getSite() {

         // TODO Auto-generated method stub

         return site;

     }

     public static void main(String[] args) {

         Spider.create(new PaChong2())

         .addUrl("https://baike.baidu.com/item/互联网+")//这里填写你第一次要爬的网址（后面直接跟你要查的词汇名称把互联网改了就行）

         .addPipeline(new ConsolePipeline())

         .thread(15)

         .run();

 }

     @Override

     public void process(Page page) {

     //这段代码重复获取

         System.out.println(mySplitBaiDu(page));

         System.out.println("中文"+unicodeToString(mySplitBaiDu(page)));

     }

     //爬取百度解释  为unicode文本

         public static String mySplitBaiDu(Page page)

         {

            String wordname=page.getUrl().toString().split("item/")[1];

             String basehtml=page.getJson().toString();

             String content =basehtml.split("bdText: \"")[1].split("@")[0];

             return content;

         }

         //unicode 转中文

         public static String unicodeToString(String str) {

             Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");

             Matcher matcher = pattern.matcher(str);

             char ch;

             while (matcher.find()) {

                 //group 6728

                 String group = matcher.group(2);

                 //ch:'木' 26408

                 ch = (char) Integer.parseInt(group, 16);

                 //group1 \u6728

                 String group1 = matcher.group(1);

                 str = str.replace(group1, ch + "");

             }

             return str;

         }

 }

结果

java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)的更多相关文章

爬虫实战(一) 用Python爬取百度百科
最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果但是自己又没有心思做这样一个数 ...
python简单爬虫用beautifulsoup爬取百度百科词条
目标:爬取“湖南大学”百科词条并处理数据需要获取的数据: 源代码: <div class="basic-info cmn-clearfix"> <dl clas ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
R语言爬虫：爬取百度百科词条
抓取目标:抓取花儿与少年的百度百科中成员信息 url <- "http://baike.baidu.com/item/%E8%8A%B1%E5%84%BF%E4%B8%8E%E5%B0 ...
Python3爬取百度百科（配合PHP）
用PHP写了一个网页,可以获取百度百科词条.源代码已分享至github:https://github.com/1049451037/xiaobaike/tree/master 那么通过Python来爬 ...
Python 爬虫实例(爬百度百科词条)
爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成.爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入 ...
python爬虫—爬取百度百科数据
爬虫框架:开发平台 centos6.7 根据慕课网爬虫教程编写代码片区百度百科url,标题,内容分为4个模块:html_downloader.py 下载器 html_outputer.py 爬取数 ...
python_爬百度百科词条
如何爬取? 明确目标:爬取百度百科,定初始百度词条:python,初始URL:http://baike.baidu.com/item/Python,爬取数据量为1000条,值爬取简介,标题,和简介中u ...
Python开发简单爬虫（二）---爬取百度百科页面数据
一.开发爬虫的步骤 1.确定目标抓取策略: 打开目标页面,通过右键审查元素确定网页的url格式.数据格式.和网页编码形式. ①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格 ...

随机推荐

Caffe2 创建你的专属数据集（Create Your Own Dataset）[9]
这一节尝试把你的数据转换成caffe2能够使用的形式.这个教程使用Iris的数据集.你可以点击这里查看Ipython Notebook教程. DB数据格式 Caffe2使用二进制的DB格式来保存数据. ...
孤荷凌寒自学python第103天认识区块链017
[主要内容] 今天继续分析从github上获取的开源代码怎么实现简单区块链的入门知识,共用时间25分钟. (此外整理作笔记花费了约34分钟) 详细学习过程见文末学习过程屏幕录像. 今天所作的工作是进一 ...
Windows驱动开发-IRP超时处理
IRP被送到底层驱动程序以后,由于硬件设备的问题,IRP不能得到及时处理,甚至有可能永远不会被处理,这时候需要对IRP超时情况进行处理,一旦在规定时间内,IRP没有被处理,操作系统就会进入到IRP的处 ...
c++对象初始化（翁恺c++公开课[10]）
c++对象初始化就是去调用构造函数来完成初始化操作: 构造函数有无参数的构造函数.有参数构造函数.默认构造函数(编译器给我们实现的)...(拷贝构造函数之后说) 注意:默认构造函数只有在我们自己没有 ...
Ansible ssh-key密钥认证配置
对于被管理服务器做免密码登录设置 1.在管理服务器生成ssh-key密钥 #ssh-keygen //生成秘钥 root@hsz:/etc/ansible# ssh-keygen Generatin ...
JPG加入RAR文件原理详解
在水木看到有人上传了一张图片,说如果将其后缀改为rar,解压后会有别的文件,试了一下,果然如此.用十六进制的编辑器看了看,发现的确有理. 先是,文件头部是以JPG格式起始的,如下: ......JFI ...
Java单例模式：为什么我强烈推荐你用枚举来实现单例模式
单例模式简介单例模式是 Java 中最简单,也是最基础,最常用的设计模式之一.在运行期间,保证某个类只创建一个实例,保证一个类仅有一个实例,并提供一个访问它的全局访问点.下面就来讲讲Java中的N种 ...
【快学springboot】2.Restful简介，SpringBoot构建Restful接口
Restful简介 Restful一种软件架构风格.设计风格,而不是标准,只是提供了一组设计原则和约束条件.它主要用于客户端和服务器交互类的软件.基于这个风格设计的软件可以更简洁,更有层次,更易于实现 ...
Hadoop基准测试（二）
Hadoop Examples 除了<Hadoop基准测试(一)>提到的测试,Hadoop还自带了一些例子,比如WordCount和TeraSort,这些例子在hadoop-example ...
第3节 storm高级应用：2、storm与hdfs的整合工程环境准备；3、整合代码开发
======================================== 3. storm与hdfs的整合使用 3.1.功能需求: 实现随机发送订单数据,从计算订单的总金额,然后将订单中的数 ...

java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)

java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)的更多相关文章

随机推荐

热门专题