【网络爬虫】【java】微博爬虫（三）：庖丁解牛—

在上一篇文章中已经通过请求的url地址把html页面爬取下来了，这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。

一、网易微博解析

相比新浪微博的html结构，网易微博的比较容易明显地看出来，也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”，那里的微博正文是以html标签形式显示的，而程序实际请求返回得到的html的微博正文是以json格式，这个在控制台里输出看的很清楚。

<script id=”data_searchTweet” type=”application/json”>

…

{

   "searchTag":"",

   "list": [

      {

         "id": "-6794651520897765848",

   "content": "#数码精选#【苹果称iPad屏幕进灰因中国空气差，你怎么看？】 近日，国内出现了一个由300名苹果用户组成的维权小组，控告苹果iPad、iMac等产品屏幕太容易进灰。如果你认为iPad屏幕易进灰是最让人郁闷的事，那就真是小巫见大巫了，苹果公司的回应简直让人泪奔，“中国空气质量太差，环境因素导致屏幕进灰”。http://163.fm/OOexvkh",

   "albumContent": "#数码精选#【苹果称iPad屏幕进灰因中国空气差，你怎么看？】 近日，国内出现了一个由300名苹果用户组成的维权小组，…

…

其实解析就是关键把要解析对应位置找到，总之对网易微博的解析是个json串解析，这里可以正则匹配回json，甚至可以直接用正则匹配相应字段，可以匹配userid、content、prettyTime等，最后写入到txt文件里。便于项目后期的处理，这里直接爬取微博正文content，其它像userid、prettyTime等直接在程序里用Vector<String>处理，这个在系列的第一篇文章里写的了，代码也给出了，此处不再赘述。

最后解析出来正文的txt形式的微博数据：（已用字符串替换的方式去除”content”字段名称，直接保留正文）

二、新浪微博解析

相比之下新浪的html就要复杂得多，这个在第一篇文章里谈到过，其微博不是以json格式展现而是以javascript形式，每条微博包含在<em>…</em>元素里。依据关键字标红快速定位：color:red。

首先把em元素及其中间的文本都匹配出来，匹配的正则表达式：<em>.+?color:red.+?</em>，然后再去掉所有<…>的标签得到utf8，最后用.parseInt(utf8CodeStr, 16)把所有utf8的十六进制换成char。

private Vector<String> getTweet(String htmlPath) throws IOException {

		File f = new File(htmlPath);

		FileReader fr = new FileReader(f);

		BufferedReader br = new BufferedReader(fr);

		Vector<String> tweets = new Vector<String>();

		String html = "";

		Pattern p = Pattern.compile("<em>.+?color:red.+?</em>");

		String tweetTemp = "";

		while(br.readLine() != null) {

			html += br.readLine();

		}

		br.close();

		Matcher m = p.matcher(html);

		while(m.find()) {

			tweetTemp = m.group();

			tweets.add(tweetTemp);

		}

		Vector<String> realTweets = new Vector<String>();

		for(int i=0; i<tweets.size(); i++) {

			//filt the <...> labels

			Pattern pdel = Pattern.compile("<.+?>");

			Matcher mdel = pdel.matcher(tweetTemp);

			Vector<String> del = new Vector<String>();

			while(mdel.find()) {

				if(!del.contains(mdel.group())) {

					del.add(mdel.group());

				}

			}

			for(int j=0; j<del.size(); j++) {

				tweetTemp = tweetTemp.replace(del.get(j), "");

			}

			StringBuilder sb = new StringBuilder();

			Pattern utf8p = Pattern.compile("\\\\u[0-9a-f]{4}"); //utf8 code

			Matcher utf8m = utf8p.matcher(tweetTemp);

			String utf8codeStr;

			while(utf8m.find()) {

				utf8codeStr = utf8m.group().substring(2);

				sb.append((char)Integer.parseInt(utf8codeStr, 16));//parse to chinese

			}

			if(!realTweets.contains(sb.toString())) {

				//only save different tweets

				realTweets.add(sb.toString());

			}

		}

		return realTweets;

	}

原创文章，转载请注明出处：http://blog.csdn.net/dianacody/article/details/39716611

【网络爬虫】【java】微博爬虫（三）：庖丁解牛——HTML结构分析与正则切分的更多相关文章

【网络爬虫】【java】微博爬虫（二）：如何抓取HTML页面及HttpClient使用
一.写在前面上篇文章以网易微博爬虫为例,给出了一个很简单的微博爬虫的爬取过程,大概说明了网络爬虫其实也就这么回事,或许初次看到这个例子觉得有些复杂,不过没有关系,上篇文章给的例子只是让大家对爬虫过程 ...
微博爬虫，python微博用户主页小姐姐图片内容采集爬虫
python爬虫,微博爬虫,需要知晓微博用户id号,能够通过抓取微博用户主页内容来获取用户发表的内容,时间,点赞数,转发数等数据,当然以上都是本渣渣结合网上代码抄抄改改获取的! 要抓取的微博地址:ht ...
【网络爬虫】【java】微博爬虫（五）：防止爬虫被墙的几个技巧（总结篇）
爬虫的目的就是大规模地.长时间地获取数据,跟我们正常浏览器获取数据相比,虽然机理相差不大,但总是一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝.关于爬虫长时间爬取数据,可能会要求验证 ...
【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
【网络爬虫】【java】微博爬虫（四）：数据处理——jsoup工具解析html、dom4j读写xml
之前提到过,对于简单的网页结构解析,可以直接通过观察法.手工写正则解析,可以做出来,比如网易微博.但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了. 本文介绍两个工 ...
微博爬虫“免登录”技巧详解及 Java 实现(业余草的博客)
一.微博一定要登录才能抓取? 目前,对于微博的爬虫,大部分是基于模拟微博账号登录的方式实现的,这种方式如果真的运营起来,实际上是一件非常头疼痛苦的事,你可能每天都过得提心吊胆,生怕新浪爸爸把你的那些账 ...
Golang 网络爬虫框架gocolly/colly 三
Golang 网络爬虫框架gocolly/colly 三熟悉了<Golang 网络爬虫框架gocolly/colly一>和<Golang 网络爬虫框架gocolly/colly二& ...
【网络爬虫】【python】网络爬虫（二）：网易微博爬虫软件开发实例（附软件源码）
对于urllib2的学习,这里先推荐一个教程<IronPython In Action>,上面有很多简明例子,并且也有很详尽的原理解释:http://www.voidspace.org.u ...
老李分享：网页爬虫java实现
老李分享:网页爬虫java实现 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821 ...

随机推荐

显示和隐藏Mac隐藏文件的命令
显示Mac隐藏文件的命令:defaults write com.apple.finder AppleShowAllFiles -bool true 隐藏Mac隐藏文件的命令:defaults writ ...
Something about cache
http://www.tyut.edu.cn/kecheng1/2008/site04/courseware/chapter5/5.5.htm 5.5 高速缓冲存储器cache 随着CPU时钟速率的不 ...
Ubuntu14下Hadoop开发<2> 编译64位Hadoop2.4
Hadoop官方站点仅仅提供了32位的Hadoop包.我装的是64位的系统.自然无法使用,会报错误,导致的结果是无法启动hadoop libhadoop.so.1.0.0 which might ha ...
系统安全-Man in the middleattack
窃听VS加密(解决数据机密性) 加密由两部分组成:算法&秘钥(算法要够复杂,秘钥要够安全) 对称加密:(Symmetric encryption) 采用单秘钥密码系统的加密方法,同一个秘钥可以 ...
OcelotAPI 简单使用—服务发现、流控
我这人比较懒直接上配置文件的图其中serviceName是服务名称, LoadBalancer是负载均衡策略. 对于流控我为了做测试写的1s 限制5次请求. 剩下的看名字就OK了. 要使用服务发现 ...
将txt文件数据存入excel表格
前言最近使用Appium自动化在测试设备配网的情况,需要记录每次成功与否和耗时时间. 由于App不是很稳定,执行一段时间会奔溃,因此数据只能通过追加的形式写入到txt文件. 实现过程存储在txt文 ...
理解c/c++指针和引用
1 指针的指针比如int* a,那么a是指向一个int型的对象的.也就是说,*前面的类型是该指针指向的对象的类型. 同理int** a的话,a指向一个int*型的对象,也就是说,它指向的对象也是一个 ...
Java类加载器( 死磕9)
[正文]Java类加载器( CLassLoader ) 死磕9: 上下文加载器原理和案例本小节目录 9.1. 父加载器不能访问子加载器的类 9.2. 一个宠物工厂接口 9.3. 一个宠物工厂管理 ...
ORACLE函数之单行转换函数
1 ASCIISTR 格式:ASCIISTR(C) 说明:将字符串C转换为ASCII字符串,即将C中的ASCII字符保留不变,但非ASCII字符则以ASCII表示返回举例: ...
HDU4848 Wow! Such Conquering! —— dfs + 剪枝
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4848 题解: 一开始读错题目.以为每个点只能访问一遍.其实只要每个点都有被访问就可以了. 首先是用弗洛 ...

【网络爬虫】【java】微博爬虫（三）：庖丁解牛——HTML结构分析与正则切分

一、网易微博解析

二、新浪微博解析

【网络爬虫】【java】微博爬虫（三）：庖丁解牛——HTML结构分析与正则切分的更多相关文章

随机推荐

热门专题