JAVA输出带BOM的UTF-8编码的文件
bom的,可是windows的Excel是使用bom来确认utf8编码的,全部须要把bom写到文件的开头。
微软在 UTF-8 中使用 BOM 是由于这样能够把 UTF-8 和 ASCII 等编码明白区分开。
否则用Excel打开CSV文件有可能是乱码的
演示样例代码例如以下:
response.setContentType("text/csv");
response.setHeader("Content-Disposition", "attachment;filename=" + fileName);
response.setCharacterEncoding("UTF-8");
byte[] uft8bom={(byte)0xef,(byte)0xbb,(byte)0xbf};
OutputStream out = response.getOutputStream();
out.write(uft8bom);
OutputStreamWriter writer = new OutputStreamWriter(out,"UTF-8");
//write other content ...
什么是BOM:
BOM(byte-order mark),即字节顺序标记,它是插入到以UTF-8、UTF16或UTF-32编码Unicode文件开头的特殊标记,用来识别Unicode文件的编码类型。对于UTF-8来说,BOM并非必须的。由于BOM是用来标记多字节编码文件的编码类型和字节顺序(big-endian或little- endian)。
而UTF8中,每一个字符的编码有多少位是通过第一个字节来表述的。并且没有big-endian和little-endian的区分,见后述。
BOMs 文件头:
00 00 FE FF = UTF-32, big-endian
FF FE 00 00 = UTF-32, little-endian
EF BB BF = UTF-8,
FE FF = UTF-16, big-endian
FF FE = UTF-16, little-endian
另一个要注意的是:UTF-8 的网页代码不应使用 BOM。否则经常会出错:
在网页上使用BOM是个错误。
BOM设计出来不是用来支持HTML和XML的。要识别文本编码,HTML有charset属性,XML有encoding属性,不是必需拉BOM撑场面。尽管理论上BOM能够用来识别UTF-16编码的HTML页面,但实际project上非常少有人这么干。毕竟UTF-16这样的编码连ASCII都双字节,实在不适用于做网页。
Windows使用BOM的历史原因:
通常BOM是用来标示Unicode纯文本字节流的,用来提供一种方便的方法让文本处理程序识别读入的.txt文件是哪个Unicode编码(UTF-8。UTF-16BE,UTF-16LE)。
Windows相对对BOM处理比較好,是由于Windows把Unicode识别代码集成进了API里。主要是CreateFile()。打开文本文件时它会自己主动识别并剔除BOM。
Windows用这个有历史原因,由于它最初脱胎于多代码页的环境。而引入Unicode时Windows的设计者又希望能在用户不注意的情况下同一时候兼容Unicode和非Unicode(Multiple byte)文本文件,就仅仅能借助这样的小trick了。
带BOM的文本文件在Linux/unix环境又经常会遇到问题:
知乎介绍的非常具体:
http://www.zhihu.com/question/20167122
文本文件解析:
文本文件相应于人类能够阅读的文本,怎样从2进制转换为文本文件呢?起初由于计算机在美国发明。自然大家考虑的是英语怎样表示,英语字母总共26个。加上特殊字符,128个字符,7位既一个byte就可以表示出来。这个就是大家所熟知的ascill编码。
相应关系非常easy,一个字符相应一一个byte。
但非常快发现。其它非英语国家的文字远远超过ascill码,这时候大家当然想统一一下。不同国家出了自己不同的编码方式。中国的gb2312就是自己做出来的编码方式,这样下去每一个国家都有自己的编码方式,来回转换太麻烦了。这时候出现了新的编码方式,unicode编码方式,想将编码统一,所以规定了每一个字符相应的unicode码。 1、非常多文件都是ascii编码,假设用unicode 太浪费。
2、没有标志位说明该几个字节来解析为一个符号。 这时候解救世界的utf出现了。utf是unicode的一种实现,仅仅只是更聪明了。utf16是占用两字节,或者四字节。utf32是占用四字节。
utf8是非常聪明的一种表示方式。
1、对于单字节符号,字节第一位为0,后面7位表示字节编码。
2、对于n字节符号,第一字节的前n位都设为1,第n+1位为0。其余位用于编码。
对于不同的编码,在文本的最前方有不同的标志,unicode 通常有两位来表示各自是ff fe, 或者feff, fffe表示litte-endian 编码feff表示big-endian编码。
utf8是efbbbf来开头的。
能够看出来utf-8是自解释的。所以不用带这个标志文件,大多数程序是能够识别的。
但有些程序不能识别这个标志,比方php就会直接把这个标志当文本解析,不会忽略。
JAVA输出带BOM的UTF-8编码的文件的更多相关文章
- Java以UTF-8编码读写文件
java中文件操作体现了设计模式中的装饰者模式 . 以utf-8编码写入文件: FileOutputStream fos = new FileOutputStream("test.txt&q ...
- utf 8无bom和utf 8什么区别
今天在上传CSV文件的时候,Windows下调试一切正常.妈的一到Linux下面,就出现问题,第一行数据总是读取不出来, 利用print_r()打印出读取文件的内容,发现有一个很奇怪的字符在作怪.为什 ...
- Java NIO之Charset类字符编码对象
介绍 java中使用Charset来表示编码对象 This class defines methods for creating decoders and encoders and for retri ...
- java.net.URLEncoder对中文的编码和解码
// java.net.URLEncoder对中文的编码和解码String str = URLEncoder.encode("测试字符串", "utf-8"); ...
- JAVA支持字符编码读取文件
文件操作,在java中很常用,对于存在特定编码的文件,则需要根据字符编码进行读取,要不容易出现乱码 /** * 读取文件 * @param filePath 文件路径 */ public static ...
- 015 01 Android 零基础入门 01 Java基础语法 02 Java常量与变量 09 Unicode编码
015 01 Android 零基础入门 01 Java基础语法 02 Java常量与变量 09 Unicode编码 本文知识点:Unicode编码以及字符如何表示? ASCII码是美国提出的标准信息 ...
- 在Vim中查看文件编码和文件编码转换
在Vim中查看文件编码和文件编码转换 风亡小窝 关注 0.2 2016.09.26 22:43* 字数 244 阅读 5663评论 0喜欢 2 在Vim中查看文件编码 :set fileencodi ...
- day 10 字符编码和文件处理 细节整理
pycharm是文本编辑器. 大概理解为: 输出到屏幕上的时候,是解码过的字符串,用 decode 处理的时候要编码成相应的流, encode 成你要用的格式就可以了 1 .字符编码: 字符==== ...
- Python全栈开发之路 【第三篇】:Python基础之字符编码和文件操作
本节内容 一.三元运算 三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件语句: if 条件成立: val = 1 else: val = 2 改成三元运算: val = 1 if 条件成 ...
随机推荐
- LaTeX 图片色偏解决方法
本系列文章由 @YhL_Leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50327113 在LaTeX的编辑模式中 ...
- Ubuntu 15.10 安装Qt5.5.1
本系列文章由 @YhL_Leo 出品,转载请注明出处. 文章链接: http://blog.csdn.net/yhl_leo/article/details/50300447 本人使用的ubuntu系 ...
- 混合高斯模型的EM求解(Mixtures of Gaussians)及Python实现源代码
今天为大家带来混合高斯模型的EM推导求解过程. watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQveHVhbnl1YW5zZW4=/font/5a6L5L2T/ ...
- JUnit4.8.2源码分析-4 RunNotifier与RunListener
JUnit4运行过程中,org.junit.runner.notification. RunListener和RunNotifier运用了观察者模式. 1.观察者 观察者Observer/Listen ...
- xBIM 基础04 日志操作
系列目录 [已更新最新开发文章,点击查看详细] xBIM使用Log4Net来记录异常不适合的处理错误和警告.它在xBIM几何引擎中被大量使用来记录所有几何错误.如果您的文件看起来不太正确,则应 ...
- HD-ACM算法专攻系列(5)——N!
题目描述: 源码: #include"iostream" using namespace std; int main() { int n, digit, carry, tmp; i ...
- (转载)Mac系统下利用ADB命令连接android手机并进行文件操作
Mac系统下利用ADB命令连接android手机并进行文件操作 标签: Mac adb android 2016-03-14 10:09 5470人阅读 评论(1) 收藏 举报 分类: Androi ...
- HDU 1312 Red and Black【DFS】
搜索虐我千万遍@_@-----一道搜索的水题,WA了好多好多次@_@发现是n,m搞反了-_- 题意-- 给出m行 n列的矩形,其中从@出发,不能跳到#,只能跳到'.'问最多能够跳到多少块'.' 直接搜 ...
- oc语言的特点
oc语言的特点分为以下几个方面: 1.运行时: 2.block闭包: 3.内存管理: 4.大中枢派发: 一.运行时的基础是isa 类结构:由clang编译前端支撑. 从它衍生出以下几个特征: 1.消息 ...
- 虚拟机创建后该如何获取IP地址并访问互联网实用教程
之前在做项目的时候主机IP地址.网关.DNS.子网掩码等都是公司或者对方直接给提供的,但是如果我们自己想搭建一台虚拟机或者一台集群的话,手头又没有IP地址,该肿么办呢? 白慌,这里介绍一个小技巧, ...