java读utf8 的txt文件，第一个字符为空或问号问题

参考：https://blog.csdn.net/yangzhichao888/article/details/79529756

https://blog.csdn.net/wangzhi291/article/details/41485403

1.新建一个类，叫“UnicodeReader”，复制粘贴如下内容;



/**

 version: 1.1 / 2007-01-25

 - changed BOM recognition ordering (longer boms first)

 Original pseudocode   : Thomas Weidenfeller

 Implementation tweaked: Aki Nieminen

 http://www.unicode.org/unicode/faq/utf_bom.html

 BOMs:

   00 00 FE FF    = UTF-32, big-endian

   FF FE 00 00    = UTF-32, little-endian

   EF BB BF       = UTF-8,

   FE FF          = UTF-16, big-endian

   FF FE          = UTF-16, little-endian

 Win2k Notepad:

   Unicode format = UTF-16LE

***/

import java.io.*;

/**

 * Generic unicode textreader, which will use BOM mark

 * to identify the encoding to be used. If BOM is not found

 * then use a given default or system encoding.

 */

public class UnicodeReader extends Reader {

   PushbackInputStream internalIn;

   InputStreamReader   internalIn2 = null;

   String              defaultEnc;

   private static final int BOM_SIZE = 4;

   /**

    *

    * @param in  inputstream to be read

    * @param defaultEnc default encoding if stream does not have

    *                   BOM marker. Give NULL to use system-level default.

    */

   UnicodeReader(InputStream in, String defaultEnc) {

      internalIn = new PushbackInputStream(in, BOM_SIZE);

      this.defaultEnc = defaultEnc;

   }

   public String getDefaultEncoding() {

      return defaultEnc;

   }

   /**

    * Get stream encoding or NULL if stream is uninitialized.

    * Call init() or read() method to initialize it.

    */

   public String getEncoding() {

      if (internalIn2 == null) return null;

      return internalIn2.getEncoding();

   }

   /**

    * Read-ahead four bytes and check for BOM marks. Extra bytes are

    * unread back to the stream, only BOM bytes are skipped.

    */

   protected void init() throws IOException {

      if (internalIn2 != null) return;

      String encoding;

      byte bom[] = new byte[BOM_SIZE];

      int n, unread;

      n = internalIn.read(bom, 0, bom.length);

      if ( (bom[0] == (byte)0x00) && (bom[1] == (byte)0x00) &&

                  (bom[2] == (byte)0xFE) && (bom[3] == (byte)0xFF) ) {

         encoding = "UTF-32BE";

         unread = n - 4;

      } else if ( (bom[0] == (byte)0xFF) && (bom[1] == (byte)0xFE) &&

                  (bom[2] == (byte)0x00) && (bom[3] == (byte)0x00) ) {

         encoding = "UTF-32LE";

         unread = n - 4;

      } else if (  (bom[0] == (byte)0xEF) && (bom[1] == (byte)0xBB) &&

            (bom[2] == (byte)0xBF) ) {

         encoding = "UTF-8";

         unread = n - 3;

      } else if ( (bom[0] == (byte)0xFE) && (bom[1] == (byte)0xFF) ) {

         encoding = "UTF-16BE";

         unread = n - 2;

      } else if ( (bom[0] == (byte)0xFF) && (bom[1] == (byte)0xFE) ) {

         encoding = "UTF-16LE";

         unread = n - 2;

      } else {

         // Unicode BOM mark not found, unread all bytes

         encoding = defaultEnc;

         unread = n;

      }

      //System.out.println("read=" + n + ", unread=" + unread);

      if (unread > 0) internalIn.unread(bom, (n - unread), unread);

      // Use given encoding

      if (encoding == null) {

         internalIn2 = new InputStreamReader(internalIn);

      } else {

         internalIn2 = new InputStreamReader(internalIn, encoding);

      }

   }

   public void close() throws IOException {

      init();

      internalIn2.close();

   }

   public int read(char[] cbuf, int off, int len) throws IOException {

      init();

      return internalIn2.read(cbuf, off, len);

   }

}

写入文件时：

    	 PrintWriter out=null;

        try {

        	File filename = new File(savefile);

            filename.createNewFile();

            out = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream(filename),"UTF-8")));

            System.out.println("打开fwriter");

            String []ss = content.split(",");

            out.write("["+"\r\n");

            out.write(s+","+"\r\n");

        } catch (IOException ex)

        {

            ex.printStackTrace();

        }

        finally {

            out.flush();

	out.close();

	System.out.println("关闭fwriter");

        }

    }

java读utf8 的txt文件，第一个字符为空或问号问题的更多相关文章

java读取UTF-8的txt文件发现开头的一个字符问题
今天遇到一个奇葩问题,在读取一个TXT文件时,出现开头多了一个问号(?).如下图: 莫名奇妙的多了一个.最后通过网上资料,知道在Java中,class文件采用utf8的编码方式,JVM运行时采用utf ...
Java代码输出到txt文件(申请专利贴源码的必备利器)
最近公司在申请专利,编写不少文档,项目的代码量实在是过于庞大.如果一个一个的复制粘贴虽然能够完成,但是对于程序员而言实在没有这个必要.shell或者python就能解决这个问题.由于我个人对于shel ...
matlab 中txt文件（含字符及数值）处理
matlab 中txt文件(含字符及数值)处理 (2008-08-02 09:45:12) 转载▼ 标签: 杂谈分类: matlab及C学习 Matlab文件操作及读txt文件ZZ 2008-07- ...
Java笔记13：统计文件中每个字符出现的次数
一.代码实现 import java.io.*; import java.util.*; /** 功能:统计文件中每个字符出现的次数思路: 1.定义字符读取(缓冲)流 2.循环读取文件里的字符,用一 ...
java读取数据写入txt文件并将读取txt文件写入另外一个表
package com.xsw.test; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.F ...
java读取记事本文件第一个字符遇到的一个坑
记事本数据是这样的: Faq_faqTitle=常见问题_标题Faq_faqKeyword=关键字Faq_faqDescription=FAQ描述...... 文件编码:utf-8有签名然后用jav ...
Java——读取和写入txt文件
package com.java.test.a; import java.io.BufferedReader; import java.io.BufferedWriter; import java.i ...
Java中读取txt文件中中文字符时，出现乱码的解决办法
这是我写的一个Java课程作业时,遇到的问题. 问题描述: 我要实现的就是将txt文件中的内容按一定格式读取出来后,存放在相应的数组. 我刚开始运行时发现,英文可以实现,但是中文字符就是各种乱码. 最 ...
UTF-8格式txt文件读取字节前三位问题
今天试着读取一份UTF-8格式的txt文件,内容如下 12345 但是每次读取之后转为String类型,输出字符串长度总是为6,并且第一位打印在控制台后不占任何空间. 经过debug查看字节码后发现, ...

随机推荐

html 测试
斯蒂芬斯蒂芬 20:23你过来吧,我们好好谈一谈好好学习 21:22这是一个无法避免的错误作为一个新手,我在学习HTML文件的格式,我觉得博客园的编辑器很棒, 查看这些源代码让我学习到了许多知识. ...
【LeetCode 33】Search in Rotated Sorted Array
Search in Rotated Sorted Array 分段有序的数组,二分查找返回下标,没有返回-1 数组有序之后经过 rotated, 比如:6 1 2 3 4 5 or 5 6 7 8 ...
git ---查看工作状态和历史提交
1.git查看状态 -git status 2.版权声明版权声明:新建一个 LICENSE.txt 文件开源协议:MIT //开源许可里面的最宽松的一个协议,别人可以随便用你的代码,但 ...
iOS Programming Dynamic Type 1
iOS Programming Dynamic Type 1 Dynamic Type is a technology introduced in iOS 7 that helps realize ...
Context namespace element 'annotation-config' and its parser class [org.springframework.context.annotation.AnnotationConfigBeanDefinitionParser]
严重: Exception sending context initialized event to listener instance of class org.springframework.we ...
xamarin 学习笔记01-环境配置
1.安装AndroidSDK 参考 2.安装NDK NDK下载地址:http://dl.google.com/android/ndk/android-ndk-r10e-windows-x86_64.e ...
Codeforces_B.Maximum Sum of Digits
http://codeforces.com/contest/1060/problem/B 题意:将n拆为a和b,让a+b=n且S(a)+S(b)最大,求最大的S(a)+S(b). 思路:考虑任意一个数 ...
理解 call, apply 的用法
callcall() 方法使用一个指定的 this 值和单独给出的一个或多个参数来调用一个函数. function list() { return Array.prototype.slice.call ...
python学习第三次
while循环表示当条件成立的时候就循环适用于不知道具体循环次数,但是确定在某个条件成立的情况下就循环while语法:while 条件表达式:语句块#另一种表达方式while 条件表达式:语句块1e ...
PHP 中 echo 和 print 的区别
一般来说,PHP中动态输出HTML内容,是通过print 和 echo 语句来实现的,在实际使用中, print 和 echo 两者的功能几乎是完全一样.可以这么说,凡是有一个可以使用的地方,另一个也 ...

java读utf8 的txt文件，第一个字符为空或问号问题

java读utf8 的txt文件，第一个字符为空或问号问题的更多相关文章

随机推荐

热门专题