Java课程设计——博客作业教学数据分析系统(201521123082 黄华林)
Java课程设计——博客作业教学数据分析系统(201521123082 黄华林)
一、团队课程设计博客链接
二、个人负责模块或任务说明
1.网络爬虫
首先,一个博客作业教学数据分析系统的基础就是相关的数据。
其次,系统是通过网络爬虫技术抓取博客网页源码上的数据。
最后,将抓取的数据存入设计好的数据库以供提取分析。
三、自己的代码提交记录截图

四、自己负责模块或任务详细说明
1.负责模块
(1)抓取每位同学每次博客作业网页的浏览量、阅读量、篇幅、图片数量;
(2)把每位同学的学号和分数、每次博客作业地址、图片数量、篇幅、浏览量、阅读数量存入数据库。
2.任务详细说明
(1)图片数量抓取
利用Jsoup获取网页源码,然后利用getElementsByTag()筛选img标签,统计图片数量。
(2)文章篇幅抓取
直接利用size()方法统计网页源码篇幅。
(3)浏览量和阅读量数据抓取
<1>一开始就直接想从作业博客原始链接的元素源码:

想直接用Jsoup方法抓取,如下部分测试代码段:
// 获取目标HTML代码
Elements elements1 = doc.select("[class=postDesc]");
// 获取浏览数量
Elements elements2 = elements1.select("#post_view_count");
String browse = elements2.get(0).text();
System.out.println(browse);
// 获得评论数量
Elements elements3 = elements1.select("#post_comment_count");
String comment = elements3.get(0).text();
System.out.println(comment);
然后两个的抓取的结果都是“...”。
<2>查看网页源码后如下:

<3>然后利用FireBug调试,获得浏览量的url
然后寻找到浏览量页面的url的规律:"http://www.cnblogs.com/mvc/blog/ViewCountCommentCout.aspx?postId="+"每个学生的博客链接的postId"
以我的作业为例子查看网页源码:

然后利用select("body").text()获取浏览量。
<4>同样获得阅读量的url
拼装办法:"http://www.cnblogs.com/mvc/blog/GetComments.aspx?postId="+postId+"&blogApp="+name+"&pageIndex=0&anchorCommentId=0";
查看网页如下:

网页源码如下:

首先利用HttpClient获取网页html,然后利用json的方法获得commentCount的值。
(4)以上功能的关键代码
抓取图片数量、文章幅度、浏览量、阅读量:

获得评论量的实现:

(5)建立一个WebCrawler类,连接数据库,利用多线程读取garde表的url、学号、分数,并且利用每个学生的博客作业地址,抓取四个数据后存入数据库以供数据分析。
采用多线程实现网页数据抓取的关键代码:

运行情况:


数据库:


五、课程设计感想
这次java课程设计,我们组一共五个人。我们组提前一周,就每天晚上7点集合敲代码。组长给每位同学都安排好工作,然后每个人都努力地完成工作。在集合敲代码的时候,我对于数据库和多线程的知识并不牢固,经常遇到瓶颈,这时候我会请教daiker,他对爬虫的使用很了解。我们采用导入库的方法,利用jsoup、HttpEntity,抓取网页上需要的数据。在使用这些库的时候,很多方法都是实时百度,以网上代码为例,自己通过学习,学以致用,提升了自己解决问题的能力。最后,我们的课程设计完成了,感谢组长和daiker的带领。我们通过课程设计,相互了解,相互促进,是一次很好的体验。
Java课程设计——博客作业教学数据分析系统(201521123082 黄华林)的更多相关文章
- Java课程设计——博客作业教学数据分析系统(201521123084 林正晟)
#课程设计--博客作业教学数据分析系统(201521123084 林正晟) 1.团队课程设计博客链接 博客作业教学数据分析系统 2.个人负责模块或任务说明 学生登陆界面的前端实现和与数据库的连接 学生 ...
- Java课程设计——博客作业教学数据分析系统(201521123091 李嘉廉)
#课程设计--博客作业教学数据分析系统(201521123084 李嘉廉) 1.团队课程设计博客链接 博客作业教学数据分析系统 2.个人负责模块或任务说明 數據分析 Kmeans聚類算法實現 多元綫性 ...
- java课程设计——博客作业教学数据分析系统(201521123083 戴志斌)
目录 一.团队课程设计博客链接 二.个人负责模块或任务说明 三.自己的代码提交记录截图 四.自己负责模块或任务详细说明 五.课程设计感想 (题外话,终于可以用markdown建目录) 一.团队课程设计 ...
- Java语言课程设计——博客作业教学数据分析系统(201521123107 张翔)
#Java语言课程设计--博客作业教学数据分析系统(个人博客) 1.团队课程设计博客链接 [博客作业教学数据分析系统(From:网络五条狗)](http://www.cnblogs.com/fanta ...
- Java课程设计博客(个人)
Java课程设计博客(个人) 1. 团队课程设计博客链接 http://www.cnblogs.com/wkfg/p/7063081.html 2. 个人负责模块或任务说明 负责模块/任务:编写doG ...
- Java课程设计博客(团队)
Java课程设计博客(团队) 1. 团队/项目名称 使用JAVA实现简易HTTP服务器 2. 团队成员 组长:林一心 组员:张杭镖 3. 项目git地址 https://github.com/oran ...
- Java第二次博客作业
Java第二次博客作业 时间过的很快啊,在不知不觉中这门课程的学习也就快要过去一半了,现在就来总结一下在这个第二个月的学习当中存在的问题以及得到的心得. 1.前言 第四次题目集和第五次题目集给我的感觉 ...
- OO--第三单元规格化设计 博客作业
OO--第三单元规格化设计 博客作业 前言 第三单元,我们以JML为基础,先后完成了 PathContainer -> Graph -> RailwaySystem 这是一个递进的过程,代 ...
- 团队作业1——团队展示&博客作业查重系统
团队展示: 1.队名:六个核桃 2.队员学号: 王婧(201421123065).柯怡芳(201421123067组长).陈艺菡(201421123068). 钱惠(201421123071).尼玛( ...
随机推荐
- python--DenyHttp项目(2)--ACM监考客户端测试版☞需求分析
写脚本之前,先写个需求分析 以后会多写一些脚本,会注意这方面的 禁止HTTP请求☞需求分析 核心功能: 通过修改Hosts文件,禁止用户访问百度等搜索引擎 实现方法: 通过CMD控制台命令COPY覆盖 ...
- PAT (Basic Level) Practise (中文)-1021. 个位数统计 (15)
1021. 个位数统计 (15) 时间限制 100 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者 CHEN, Yue 给定一个k位整数N = dk-1 ...
- 身在魔都的她,该不该继续"坚持"前端开发?
一 这个女孩儿,是我很好很好很好的一位朋友,也是中学的同学,去年从她的本科大学毕业,毕业后由于没找到合适的工作而选择去培训机构培训了比较火爆的前端开发,之后去了上海找工作,但是由于一些原因在从上一家公 ...
- linux 两个查找工具 locate,find详解
linux 中有很多查找工具,今天主要讲解locate,find两个工具. 1.locate (1)查询系统上预建的文件索引数据库 /var/lib/mlocate/mlocate.db 注意:如果这 ...
- JDK问题--linux下java unrecognized class file version错误的解决
linux下java unrecognized class file version错误的解决 环境:RedHat Linux Enterprise 5.4 问题:java.sun.com下载jdk1 ...
- javascript面向对象属性函数用法(defineProperty与getOwnPropertyDescriptor)
defineProperty用于设置一个对象的属性描述符,属性描述符有4个:[[Configurable]], [[Enumerable]], [[Writable]],[[Value]] 当一个属性 ...
- win7(iis7)localhost可以访问127.0.0.1不可以访问的问题解决办法
在C:\Windows\System32\drivers\etc文件夹下有hosts文件,用编辑器打开,看看有没有配置127.0.0.1 localhost 把前面的#去掉保存即可!
- error MSB8008: 指定的平台工具集(v110)未安装或无效。请确保选择受支持的 PlatformToolset 值
如果你的电脑上有两个不同版本的VS,或者你的程序拷贝到别人的电脑上去运行,或者你是从别人那里拷贝来的项目,而你们俩用的VS版本不一样,就会在运行的时候出现这个问题,这个错误中的v110是VS2012使 ...
- HTML5中的DOM新特性
元素下的classList属性 classList属性下面有四个方法: add(value): 添加,已存在的属性不添加 remove(value):删除属性 contain(value):检测属性是 ...
- SQL中多条件查询括号的用途
界面: 代码 0 posted @ 2009-12-15 13:28 唔愛吃蘋果 阅读(8640) 评论(0) 编辑 收藏