爬虫(Java实现)
说明:
使用了htmlparser库。
运行过程:
从某个网址开始,摘取网页中的链接,并通过广度搜索,对这些链接递归执行上述操作。
在以上过程中把网址存入数据库中。以防止搜索中出现环路。
但是,程序经常进入某个网站后,会一直扫描其中的二级域名。
于是数据库中会出现这种情况:
jack.art.com
han.art.com
bob.art.com
alice.art.com
rose.art.com
...
...
代码:
//Robot.java 1 package robot; import java.net.*; import java.sql.SQLException; import java.util.Random; import javax.swing.JOptionPane; import org.htmlparser.*; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.LinkTag; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; import mydb.DB; public class Robot { int ff=0; int num=0; //DB db; Robot() throws MalformedURLException, SQLException{ DB.getConnect("localhost","3306","robot","root","142365"); DB.getSta(); String url0="http://www.youku.com";//"http://localhost"; /* DB.rs= DB.s.executeQuery("select count(*) from urls"); if(DB.rs.next()) {int n=DB.rs.getInt(1); System.out.println(n ); Random random = new Random(); int ran = random.nextInt(); ran%=n; ran=ran>0?ran:-ran; System.out.println(ran ); DB.rs= DB.s.executeQuery("select * from urls"); int x=0; while(DB.rs.next()&&x<ran){ System.out.println(DB.rs.getString(1)+"000" ); url0=DB.rs.getString(1); x++; } }*/ //catchHref("http://localhost",num); catchHref(url0,num); } boolean isEndLegal(String str){ if(str.endsWith("php")||str.endsWith("net/")||str.endsWith("com/")||str.endsWith("cn/")||str.endsWith("gov/")||str.endsWith("edu/")||str.endsWith("org/")||str.endsWith("net")||str.endsWith("com")||str.endsWith("cn")||str.endsWith("gov")||str.endsWith("edu")||str.endsWith("org")){ return true; } return false; } boolean catchHref(String hreft ,int num) throws MalformedURLException { Parser parser =null; NodeList nodelist=null; String href = "http://www.baidu.com"; //db=new DB(); if(ff!=0) if (!(hreft.startsWith("http")&&isEndLegal(hreft)&&!isInDatabase(hreft))) { return false; } ff=1; add(hreft); System.out.println(num); try { parser = new Parser(hreft); if(parser==null)return false; } catch (ParserException e) { return false; //e.printStackTrace(); } try { nodelist = parser.parse(null); } catch (ParserException e1) { e1.printStackTrace(); } if(nodelist==null)return false; NodeFilter filter = new TagNameFilter("A"); if(filter==null)return false; nodelist = nodelist.extractAllNodesThatMatch(filter, true); if(nodelist==null)return false; for (int i = 0; i < nodelist.size(); i++) { LinkTag link = (LinkTag) nodelist.elementAt(i); href = link.getAttribute("href"); if(href==null)return false; System.out.println(href ); catchHref(href,num); } num++; return true; } void add(String str){ try { DB.s.execute("insert into urls2(url)values('"+str+"');"); DB.commit(); System.out.println("add"); } catch (SQLException e) { //e.printStackTrace();return ; //JOptionPane.showMessageDialog(null, "数据库添加失败"); //System.exit(-1); } return ; } boolean isInDatabase(String str){ try { DB.rs= DB.s.executeQuery("select * from urls where url like'"+str+"%';"); if(DB.rs.next()){System.out.println(DB.rs);return true;} } catch (SQLException e) { e.printStackTrace(); JOptionPane.showMessageDialog(null, "数据库查找失败"); System.exit(-1); } return false; } public static void main(String[] args) throws MalformedURLException, ParserException, SQLException { Robot robot = new Robot(); } }
//DB.java 1 package mydb; import java.sql.*; import java.util.ArrayList; import javax.swing.*; //import com.mysql.jdbc.Driver; public class DB { public static Connection conn = null; public static ResultSet rs = null; public static Statement s = null; public DB() { conn = null; s = null; rs=null; } /* String getResult(ResultSet rs) { String str = "Book\t\tOwnerID\tOwnerName\n"; // System.out.println("\nno\tname\tsex\tsalary"); try { while (rs.next()) { StringBuilder builder = new StringBuilder(rs.getString(1)); builder.append("\t\t"); builder.append(rs.getString(2)); builder.append("\t"); builder.append(rs.getString(3)); builder.append("\n"); str += builder.toString(); } } catch (Throwable e) { } // System.out.println(); return str; }*/ public static Connection getConnect(String IP,String port,String database,String user,String password){ try { // Class.forName("org.gjt.mm.mysql.Driver").newInstance(); Class.forName("com.mysql.jdbc.Driver"); } catch (ClassNotFoundException e1) { e1.printStackTrace(); JOptionPane.showMessageDialog(null, "数据库包未找到"); System.exit(-1); } // .newInstance(); try { conn = DriverManager.getConnection( "jdbc:mysql://"+IP+":"+port+"/"+database+"?useUnicode=true&characterEncoding=utf8", user, password);//autoReconnect=true&useUnicode=true&characterEncoding=utf8 } catch (SQLException e1) { e1.printStackTrace(); JOptionPane.showMessageDialog(null, "数据库无法连接"); System.exit(-1); } try { conn.setAutoCommit(false); } catch (SQLException e1) { e1.printStackTrace(); } return conn; } public static Statement getSta(){ try { s = conn.createStatement(); } catch (SQLException e1) { e1.printStackTrace(); JOptionPane.showMessageDialog(null, "无法建立数据库语句"); System.exit(-1); } return s; } public static int commit(){ try { conn.commit(); } catch (SQLException e) { e.printStackTrace(); JOptionPane.showMessageDialog(null, "对数据库更改无法应用"); } return 0; } public static void closeConnect() { try { rs.close(); } catch (SQLException e) { e.printStackTrace(); JOptionPane.showMessageDialog(null, "数据库结果集无法关闭"); } try { s.close(); } catch (SQLException e) { e.printStackTrace(); JOptionPane.showMessageDialog(null, "数据库语句无法关闭"); } try { conn.close(); } catch (SQLException e) { e.printStackTrace(); JOptionPane.showMessageDialog(null, "与数据库的连接无法关闭"); } /* try { // perform a clean shutdown DriverManager.getConnection("jdbc:derby:;shutdown=true"); } catch (SQLException se) { if (((se.getErrorCode() == 50000) && ("XJ015".equals(se.getSQLState())))) { // we got the expected exception System.out.println("Derby shut down normally"); // Note that for single database shutdown, the expected // SQL state is "08006", and the error code is 45000. } else { System.err.println("Derby did not shut down normally"); // JOptionPane.showMessageDialog(null, "数据库关闭错误"); se.printStackTrace(); } }*/ } }
程序写于大三上学期。
2016.4.12更新博客。
END
爬虫(Java实现)的更多相关文章
- 老李分享:网页爬虫java实现
老李分享:网页爬虫java实现 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:908821 ...
- CVE漏洞爬虫java代码依赖-TestNG
TestNG是Java中的一个测试框架,而该CVE漏洞爬虫示例中所涉及到的java代码中, \Crawler\src\com\***\ThreaderRun.java文件在导入import org.t ...
- 初入爬虫(java)
public class CrawlerUtil { public static void main(String [] args) throws IOException { // 创建默认的http ...
- 多线程爬虫Java调用wget下载文件,独立线程读取输出缓冲区
写了个抓取appstore的,要抓取大量的app,本来是用httpclient,但是效果不理想,于是直接调用wget下载,但是由于标准输出.错误输出的原因会导致卡住,另外wget也会莫名的卡住. 所以 ...
- 网络爬虫Java实现抓取网页内容
package 抓取网页; import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream; ...
- SuperSpider(简书爬虫JAVA版)
* 建站数据SuperSpider(简书)* 本项目目的:* 为练习web开发提供相关的数据:* 主要数据包括:* 简书热门专题模块信息.对应模块下的热门文章.* 文章的详细信息.作者信息.* 评论区 ...
- 201521123081《java程序设计》 第13周学习总结
本次作业参考文件 正则表达式参考资料 1. 本周学习总结 以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 参考资料:XMind 2. 书面作业 Q1. 网络基础 1.1 比较 ...
- 201521123006 《java程序设计》 第13周学习总结
1. 本周学习总结 1.以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.j ...
- 201521123010 《Java程序设计》第13周学习总结
1. 本周学习总结 以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu ...
- 201521123037 《Java程序设计》第13周学习总结
1. 本周学习总结 以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu ...
随机推荐
- asp.net教程:编译错误同时存在于不同dll中
asp.net 编译错误类型“同时存在于”不同的dll中. 出现这种错误大概有三种情况: 1.ASPX页面,一个*.ASPX,对应着一个*.cs文件,两者其实是一个文件,通过两者实现代码分离,每个*. ...
- HTTP协议详解
Author :Jeffrey 引言 HTTP 是一个属于应用层的面向对象的协议,由于其简捷.快速的方式,适用于分布式超媒体信息系统.它于1990年提出,经过几年的使用与发展,得到不断地完善和 扩展. ...
- Class.forName("com.mysql.jdbc.Driver") ;
try { Class.forName("com.mysql.jdbc.Driver") ; } catch(ClassNotFoundException e) { System. ...
- 几款开源的hybird移动app框架分析
几款开源的Hybrid移动app框架分析 Ionic Onsen UI 与 ionic 相比 jQuery Mobile Mobile Angular UI 结论 很多移动开发者喜欢使用原生代码开发, ...
- React入门最好的学习实例-TodoList
前言 React 的核心思想是:封装组件,各个组件维护自己的状态和 UI,当状态变更,自动重新渲染整个组件. 最近前端界闹的沸沸扬扬的技术当属react了,加上项目需要等等原因,自己也决定花些时间来好 ...
- JavaScript时间处理之几个月前或几个月后的指定日期
在平常项目开发过程中,经常会遇到需要在JavaScript中处理时间的情况,无非两种(1,逻辑处理 2,格式转换处理).当然要说相关技术博,园子里闭着眼睛都能抓一把,但是我要做的是:既然有幸被我碰到 ...
- iOS开发---有用的网址(持续更新)
http://ios.jobbole.com/88403/ iOS开发之OCR光学识别储蓄卡以及信用卡 http://ios.jobbole.com/87649/ iOS中常用的第三 ...
- ViewPager+GridView实现横向滑动 仿大众点评
先看演示效果: 1 ViewPager类提供了多界面切换的新效果. 新效果有如下特征: [1] 当前显示一组界面中的其中一个界面. [2] 当用户通过左右滑动界面时,当前的屏幕显示当前界面和下一个界 ...
- Android开发--异步加载
因为移动端软件开发思维模式或者说是开发的架构其实是不分平台和编程语言的,就拿安卓和IOS来说,他们都是移动前端app开发展示数据和用户交互数据的数据终端,移动架构的几个大模块:UI界面展示.本地数据可 ...
- Socket.IO聊天室~简单实用
小编心语:大家过完圣诞准备迎元旦吧~小编在这里预祝大家元旦快乐!!这一次要分享的东西小编也不是很懂啊,总之小编把它拿出来是觉地比较稀奇,而且程序也没有那么难,是一个比较简单的程序,大家可以多多试试~ ...