在上一篇文章《基于Java的数据采集(一)》http://www.cnblogs.com/lichenwei/p/3904715.html

提到了如何如何读取网页源代码,并通过group正则 动态抓取我们所需要的网页数据

现在来写下关于数据的存储,思路很简单,只需要在我们每次读取一个数据的时候,把数据存放在临时变量,然后插入数据库即可。

《基于Java数据采集入库(三)》:http://www.cnblogs.com/lichenwei/p/3907007.html

《基于Java数据采集入库(终结篇)》:http://www.cnblogs.com/lichenwei/p/3910492.html

先来建一个表:

DoMysql.java(数据库连接类,并提供插入数据的方法)

 package com.lcw.curl;

 import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;
import java.sql.Statement; public class DoMySql { //定义MySql驱动,数据库地址,数据库用户名 密码, 执行语句和数据库连接
public String driver = "com.mysql.jdbc.Driver";
public String url = "jdbc:mysql://127.0.0.1:3306/football";
public String user = "root";
public String password = "";
public Statement stmt = null;
public Connection conn = null; //创建一个插入数据的方法
public void datatoMySql(String insertSQl) { try {
try {
Class.forName(driver).newInstance();
} catch (Exception e) {
e.printStackTrace();
}
//创建连接
conn = DriverManager.getConnection(url, user, password);
//创建一个 Statement 对象来将 SQL 语句发送到数据库
stmt = conn.createStatement();
} catch (SQLException e) {
e.printStackTrace();
}
try {
//执行SQL 插入语句
stmt.executeUpdate(insertSQl);
} catch (SQLException e) {
e.printStackTrace();
}
try {
stmt.close();
conn.close();
} catch (SQLException e) {
e.printStackTrace();
}
} }

GetData.java(过滤数据类)

 package com.lcw.curl;

 import java.util.regex.Matcher;
import java.util.regex.Pattern; public class GetData { /**
*
* @param regex 正则表达式
* @param content 所要匹配的内容
* @return
*/
public String getData(String regex,String content){
Pattern pattern=Pattern.compile(regex, Pattern.CASE_INSENSITIVE);//设定正则表达式,不区分大小写
Matcher matcher=pattern.matcher(content);
if(matcher.find()){
return matcher.group();
}else{
return "";
}
} }

CurlMain.java主程序类:

 package com.lcw.curl;

 import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL; public class CurlMain { /**
* @param args
*/
public static void main(String[] args) { try {
String address = "http://www.footballresults.org/league.php?league=EngDiv1";
URL url = new URL(address);
InputStreamReader inputStreamReader = new InputStreamReader(url
.openStream(), "utf-8");// 打开地址,以UTF-8编码的形式返回字节并转为字符
BufferedReader bufferedReader = new BufferedReader(
inputStreamReader);// 从字符输入流中读取文本,缓冲各个字符,从而提供字符、数组和行的高效读取。 GetData data = new GetData();
DoMySql mySql = new DoMySql();
String content = "";// 用来接受每次读取的行字符
int flag = 0;// 标志,队伍信息刚好在日期信息后面,则正则相同,用于分离数据
String dateRegex = "\\d{1,2}\\.\\d{1,2}\\.\\d{4}";// 日期匹配正则表达式
String teamRegex = ">[^<>]*</a>";// 队伍匹配正则表达式
String scoreRegex = ">(\\d{1,2}-\\d{1,2})</TD>";// 比分正则表达式
String tempDate="";
String teama="";
String teamb="";
String score="";
int i = 0;// 记录信息条数
String sql = ""; while ((content = bufferedReader.readLine()) != null) {// 每次读取一行数据
// 获取比赛日期信息
String dateInfo = data.getData(dateRegex, content);
if (!dateInfo.equals("")) {
System.out.println("日期:" + dateInfo);
tempDate=dateInfo;
flag++;
}
// 获取队伍信息,需先读到日期信息让标志符自增
String teamInfo = data.getData(teamRegex, content);
if (!teamInfo.equals("") && flag == 1) {
teama = teamInfo.substring(1, teamInfo
.indexOf("</a>"));
System.out.println("主队:" + teama);
flag++;
} else if (!teamInfo.equals("") && flag == 2) {
teamb = teamInfo.substring(1, teamInfo
.indexOf("</a>"));
System.out.println("客队:" + teamb);
flag = 0;
}
// 获取比分信息
String scoreInfo = data.getData(scoreRegex, content);
if (!scoreInfo.equals("")) {
score = scoreInfo.substring(1, scoreInfo
.indexOf("</TD>"));
System.out.println("比分:" + score);
System.out.println();
i++;
sql = "insert into football(`date`,`teama`,`teamb`,`score`) values('"
+ tempDate
+ "','"
+ teama
+ "','"
+ teamb
+ "','"
+ score + "')";
System.out.println(sql);
mySql.datatoMySql(sql);
} }
bufferedReader.close();
System.out.println("一共收集到了" + i + "条信息");
} catch (Exception e) {
e.printStackTrace();
} } }

看下运行效果图:

下一篇文章:《基于Java的数据采集(三)》:http://www.cnblogs.com/lichenwei/p/3905370.html

基于Java的数据采集(二)的更多相关文章

  1. 基于Java的数据采集(一)

    之前写过2篇关于PHP数据采集入库的文章: 基于PHP数据采集入库(一):http://www.cnblogs.com/lichenwei/p/3872307.html 基于PHP数据采集入库(二): ...

  2. 基于Java的数据采集(三)

    <基于Java的数据采集(一)>:http://www.cnblogs.com/lichenwei/p/3904715.html <基于Java的数据采集(二)>:http:/ ...

  3. 基于Java的数据采集(终结篇)

    关于写过关于JAVA采集入库的三篇文章: 基于Java数据采集入库(一):http://www.cnblogs.com/lichenwei/p/3904715.html 基于Java数据采集入库(二) ...

  4. 基于Java的简易表达式解析工具(二)

    之前简单的介绍了这个基于Java表达式解析工具,现在把代码分享给大家,希望帮助到有需要的人们,这个分享代码中依赖了一些其他的类,这些类大家可以根据自己的情况进行导入,无非就是写字符串处理工具类,日期处 ...

  5. 移动开发首页业界资讯移动应用平台技术专题 输入您要搜索的内容 基于Java Socket的自定义协议,实现Android与服务器的长连接(二)

    在阅读本文前需要对socket以及自定义协议有一个基本的了解,可以先查看上一篇文章<基于Java Socket的自定义协议,实现Android与服务器的长连接(一)>学习相关的基础知识点. ...

  6. memcached学习——常用命令+基于java客户端的3种简单实现(二)

    常用命令: memcached设计的原则就是简单,所以支持的命令也不是特别多~ 1.查看memcached的状态,主要用于分析内存的使用状况.优化内存分配等 stats 查看memcached的运行状 ...

  7. Spring核心技术(十二)——基于Java的容器配置(二)

    使用@Configuration注解 @Configuration注解是一个类级别的注解,表明该对象是用来指定Bean的定义的.@Configuration注解的类通过@Bean注解的方法来声明Bea ...

  8. Java设计模式(二) 工厂方法模式

    本文介绍了工厂方法模式的概念,优缺点,实现方式,UML类图,并介绍了工厂方法(未)遵循的OOP原则 原创文章.同步自作者个人博客 http://www.jasongj.com/design_patte ...

  9. Java 验证码、二维码

    Java 验证码.二维码 资源 需要:   jelly-core-1.7.0.GA.jar网站:   http://lychie.github.io/products.html将下载下来的 jelly ...

随机推荐

  1. 最小生成树之克鲁斯卡尔(kruskal)算法

    #include <iostream> #include <string> using namespace std; typedef struct MGraph{ string ...

  2. C++ new

    //#include "stdafx.h" #include <iostream> using namespace std; int main() { , n = , ...

  3. EasyUI学习总结(三)——easyloader源码分析(转载)

    声明:这一篇文章是转载过来的,转载地址忘记了,原作者如果看到了,希望能够告知一声,我好加上去! easyloader模块是用来加载jquery easyui的js和css文件的,而且它可以分析模块的依 ...

  4. python的匿名函数lambda解释及用法

    lambda函数的语法只包含一个语句,如下:    lambda arg1,arg2,.....argn:expression(主要是看下面的例子)代码示例: #-*- coding:utf-8 -* ...

  5. DHCP服务原理与搭建(Linux系统+路由器,二选一方案)

    大家都知道上网的最基本前提是要在终端上设置IP.子网掩码.网关.DNS等地址信息,在家里或者在办公室很多时候打开电脑后发现就可以上网,并没有手动设置IP.掩码.DNS地址也能上网,这是什么原因呢?其实 ...

  6. [C++] const与重载

    下面的两个函数构成重载吗? void M(int a){} //(1) void M(const int a){} //(2) 下面的呢? void M(int& a){} //(3) voi ...

  7. Android 里的数据储存

    数据持久化 关于数据储存,这个话题已经被反复讨论过很多次了,我是不建议把网络存储这种方式纳入到数据储存的范围的,因为这个和Android没多少关系,因此就有如下的分类: 本地储存(也称之为数据持久化, ...

  8. GDAL对TIF创建内建金字塔一个问题

    gdalwarp输出tif图像的时候,默认如果没有使用BIGTIFF=YES选项,则会根据输出影像的大小进行判断,低于4G则不适用bigtiff格式. 对于非bigtiff图像,如果这时候使用gdal ...

  9. Retrofit 2.0 使用详细教程

    文章来自:https://blog.csdn.net/carson_ho/article/details/73732076 前言 在Andrroid开发中,网络请求十分常用 而在Android网络请求 ...

  10. 【Sqlserver】SqlServer中EXEC 与 SP_EXECUTESQL的 区别

    MSSQL为我们提供了两种动态执行SQL语句的命令,分别是 EXEC 和 SP_EXECUTESQL ,我们先来看一下两种方式的用法. 先建立一个表,并添加一些数据来进行演示: CREATE TABL ...