目的:解析xml文件,并存入mysql,并且要解析的字段能一一对应.这里解析的是微博的文件,想要利用里面的article和person_id字段.

思路:

为了能得到person_id和article能一一对应.因此对两个字段分别解析,并且定义一个私有变量ct,在重载的函数startElement中自动加1.这个ct作为插入mysql中的article和person_id的主键即(ct,article)和(ct,person_id),在分别插入两张不同的表a和b之后,两个表做连接操作,实现article和person_id的一一对应(曲线救国啊!!!)

import javax.xml.parsers.SAXParser;   
import javax.xml.parsers.SAXParserFactory;   
import org.xml.sax.Attributes;   
import org.xml.sax.InputSource;   
import org.xml.sax.SAXException;   
import org.xml.sax.helpers.DefaultHandler;   
 
import java.io.File;  
import java.io.FileInputStream;  
import java.io.FileNotFoundException;  
import java.io.FileOutputStream;  
import java.io.IOException;  
import java.io.InputStreamReader;  
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.FileWriter;

public class sax_parse_xml extends DefaultHandler {   
 
java.util.Stack tags = new java.util.Stack();   
  private long ct=0;
public static boolean isLegalXMLCharacter(int ch) {  
    if (ch <= 0xD7FF) {  
        if(ch<=0x0){return false;}
        if (ch >= 0x20) {  
            return true;  
        } else {  
            return ch == '\n' || ch == '\r' || ch == '\t';  
        }  
    }
    else{  
        return (ch >= 0xE000 && ch <= 0xFFFD) || (ch >= 0x10000 && ch <= 0x10FFFF);  
    }  
    
    
    
}  

public sax_parse_xml() {   
  super();   
}   
 
public static void main(String args[]) {   
  long lasting = System.currentTimeMillis();   
  try {   
    SAXParserFactory sf = SAXParserFactory.newInstance();   
    SAXParser sp = sf.newSAXParser();   
    sax_parse_xml reader = new sax_parse_xml();   
    sp.parse(new InputSource("/home/hadoop/weibo_content_corpus/nlpir_weibo_content"), reader);   
   } catch (Exception e) {   
    e.printStackTrace();   
   }   
 
  System.out.println((int)'运');
   System.out.println("运行时间:" + (System.currentTimeMillis() - lasting)   
     + "毫秒");   
}   
 
public void characters(char ch[], int start, int length)   
   throws SAXException {   
   String tag = (String) tags.peek();   
   String ch1 = "";
   String ch2="";
   //System.out.print(ch.length);
   //long ct=0;
   
 //下面的程序向文件写入解析的xml的结果
   File file = new File("/home/hadoop/weibo_content_corpus", "addfile.txt");  
   if(!file.exists())
   {
       try {  
       file.createNewFile(); // 创建文件  
   } catch (IOException e) {  
       // TODO Auto-generated catch block  
       e.printStackTrace();  
   }  
   }
   
   File file1 = new File("/home/hadoop/weibo_content_corpus", "add_id.txt");  
   if(!file1.exists())
   {
       try {  
       file1.createNewFile(); // 创建文件  
   } catch (IOException e) {  
       // TODO Auto-generated catch block  
       e.printStackTrace();  
   }  
   }
   // 向文件写入内容(输出流)  
   String str = "java外挖出1\n";  
   byte bt[] = new byte[1024];  
   bt = str.getBytes();
  /* try {  
       // 打开一个写文件器,构造函数中的第二个参数true表示以追加形式写文件  
       FileWriter writer = new FileWriter("/home/hadoop/weibo_content_corpus/addfile.txt", true);  
       writer.write(str);  
       writer.close();  
   } catch (IOException e) {  
       e.printStackTrace();  
   }*/  
   //上面的程序向文件写入解析的xml的结果
   
   if (tag.equals("article")) {   
       System.out.println("article:");
       String tmpStr=new String(ch, start, length);
       if(tmpStr.trim().length()>0)
       {
       //System.out.println(new String(ch, start, length));
       ch1="insert into tb_xml_article_hd1 values ("+ct+","+"\""+tmpStr+"\""+");";//生成导入mysql的脚本
       bt = ch1.getBytes();
       try {  
           // 打开一个写文件器,构造函数中的第二个参数true表示以追加形式写文件  
           FileWriter writer = new FileWriter("/home/hadoop/weibo_content_corpus/addfile.txt", true);  
           writer.write(ch1+"\n"+"commit;"+"\n");  
           writer.close();  
       } catch (IOException e) {  
           e.printStackTrace();  
       }  
       System.out.println(ch1);
      // ct++;
       //StringBuffer sb = new StringBuffer();
       //sb.delete(0, sb.length());
       /*
       for (int i=start;i<length;i++)
       {
           
           if(Character.isDefined(ch[i]))//(isLegalXMLCharacter(ch[i]))
           {
              //System.out.println(ch[i]);
           }
       }*/
      // System.out.println(start);
       //System.out.println(length);
       //sb.append(ch, start, length);
          //System.out.println(ch1);
       }
   }
   if (tag.equals("person_id")) {   
       //ch1=ct+":"+new String(ch, start, length);
       String tmpStr=new String(ch, start, length);
       if(tmpStr.trim().length()>0)
       {
       /*ch1="insert into tb_xml_person_hd values ("+(ct-4)+","+"\""+tmpStr+"\""+");";
       bt = ch1.getBytes();
       try {  
           // 打开一个写文件器,构造函数中的第二个参数true表示以追加形式写文件  
           FileWriter writer = new FileWriter("/home/hadoop/weibo_content_corpus/add_id.txt", true);  
           writer.write(ch1+"\n"+"commit;"+"\n");  
           writer.close();  
       } catch (IOException e) {  
           e.printStackTrace();  
       }  
       System.out.println(ch1);
       */
       }
    //System.out.println("personid:");
    //System.out.println( new String(ch, start, length));
  //  ch1=ch1+new String(ch, start, length);
       //ch1=new String(ch, start, length);
      // ch2=new String(ch, start, length);
      // System.out.println(ch1);
   }   
 
 
  if (tag.equals("time")) {   
     // System.out.println("time:");
     // System.out.println(new String(ch, start, length));
     // ch1=ch1+new String(ch, start, length);
      //ch1.concat(new String(ch, start, length));
      //System.out.println(ch1);
   }   
//  System.out.println(ch1);
  //ch1="";
 
 
}   
 
public void startElement(String uri, String localName, String qName,   
    Attributes attrs) {   
   tags.push(qName);  
   ct=ct+1;
   //System.out.println(ct);
}   
}

java使用sax解析xml的更多相关文章

  1. Java用SAX解析XML

    要解析的XML文件:myClass.xml <?xml version="1.0" encoding="utf-8"?> <class> ...

  2. JAVA使用SAX解析XML文件

    在我的另一篇文章(http://www.cnblogs.com/anivia/p/5849712.html)中,通过一个例子介绍了使用DOM来解析XML文件,那么本篇文章通过相同的XML文件介绍如何使 ...

  3. Java中Sax解析XML

    SAX基于事件的解析,解析器在一次读取XML文件中根据读取的数据产生相应的事件,由应用程序实现相应的事件处理逻辑,即它是一种“推”的解析方式:这种解析方法速度快.占用内存少,但是它需要应用程序自己处理 ...

  4. 简单的java使用SAX解析xml

    1.新建一个SAXTest类,继承import org.xml.sax.helpers.DefaultHandler类 package com.qiao.SrpingSource; import or ...

  5. java 使用SAX解析xml 文件

    http://www.cnblogs.com/allenzheng/archive/2012/12/01/2797196.html 为了学习方便,忘博主勿究

  6. SAX解析XML笔记

    关于基本操作,请参考:Java用SAX解析XML,这里不重复造轮子了,以下是个人笔记:

  7. 用SAX解析xml文件,java

    (此文为(https://www.imooc.com/video/4482)之随笔) 1.用SAX解析xml文件大致分为三步 写了一个XML文件作为例子 (1)main方法代码如下: import j ...

  8. Android之SAX解析XML

    一.SAX解析方法介绍 SAX(Simple API for XML)是一个解析速度快并且占用内存少的XML解析器,非常适合用于Android等移动设备. SAX解析器是一种基于事件的解析器,事件驱动 ...

  9. DOM&SAX解析XML

    在上一篇随笔中分析了xml以及它的两种验证方式.我们有了xml,但是里面的内容要怎么才能得到呢?如果得不到的话,那么还是没用的,解析xml的方式主要有DOM跟SAX,其中DOM是W3C官方的解析方式, ...

随机推荐

  1. Intellij 常用技巧-持续更新

    1.快速输入 System.out.println(); sout [TAB] 2.删除Module ctrl+alt+shift+s 调出  Project Structure ,也可点击菜单Fil ...

  2. TCP协议学习笔记(一)首部以及TCP的三次握手连接四次挥手断开

    TCP协议是一种面向连接的.可靠的流协议. 流即不间断的数据结构.这样能够保证接收到数据顺序与发送相同.但是犹如数据间没有间隔,因此在TCP通信中,发送端应用可以在自己所要发送的消息中设置一个标示长度 ...

  3. (Java) 2014年1月1日减一个月涉及时间与字符的转换

    import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Calendar; impor ...

  4. 在Mac OS X 下快速安装Nginx

    p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px Helvetica; color: #8e68ff } p.p2 { margin: 0.0p ...

  5. javascript类型与类型检测

    1.javascript类型: 注:包装对象:如"hello".length实际为js为我们隐式创建了一个String临时对象,去调用该对象的length属性,调用过后再将该临时对 ...

  6. 接入WebSocket记录

    为什么用 WebSocket 因为APP里面有个聊天功能,需要服务器主动推数据到APP.HTTP 通信方式只能由客户端主动拉取,服务器不能主动推给客户端,如果有实时的消息,要立刻通知客户端就麻烦了,要 ...

  7. [转]word2vec使用指导

    word2vec是一个将单词转换成向量形式的工具.可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. 一.理论概述 (主要来源于http://lic ...

  8. Linux selinux iptables

    关闭SELINUX – 使用getenforce命令检查SELINUX状态,若结果不是”Disabled”,可使用setenforce 0命令临时关闭SELINUX.要永久关闭SELINUX,需修改/ ...

  9. Ubuntu下安装Docker

    1. 安装前先检查系统对docker的支持,尽可能安装高版本的系统,比如Ubuntu14.04等,安装前可以先检查系统信息. Docker需要64位机器,需要运行在3.8以上的内核上,需要操作系统支持 ...

  10. .net post的参数如果出现乱码如何解决!

    可以在webConfig里面添加 <system.web> <globalization requestEncoding="gb2312" responseEnc ...