C# 获取文件编码

using System;

using System.Collections.Generic;

using System.IO;

using System.Linq;

using System.Text;

using System.Threading.Tasks;

/// <summary>

    /// 用于取得一个文本文件的编码方式(Encoding)。

    /// </summary>

    public class TxtFileEncoder

    {

        public TxtFileEncoder()

        {

            //

            // TODO: 在此处添加构造函数逻辑

            //

        }

        /// <summary>

        /// 取得一个文本文件的编码方式。如果无法在文件头部找到有效的前导符，Encoding.Default将被返回。

        /// </summary>

        /// <param name="fileName">文件名。</param>

        /// <returns></returns>

        public static Encoding GetEncoding(string fileName)

        {

            return GetEncoding(fileName, Encoding.Default);

        }

        /// <summary>

        /// 取得一个文本文件流的编码方式。

        /// </summary>

        /// <param name="stream">文本文件流。</param>

        /// <returns></returns>

        public static Encoding GetEncoding(FileStream stream)

        {

            return GetEncoding(stream, Encoding.Default);

        }

        /// <summary>

        /// 取得一个文本文件的编码方式。

        /// </summary>

        /// <param name="fileName">文件名。</param>

        /// <param name="defaultEncoding">默认编码方式。当该方法无法从文件的头部取得有效的前导符时，将返回该编码方式。</param>

        /// <returns></returns>

        public static Encoding GetEncoding(string fileName, Encoding defaultEncoding)

        {

            FileStream fs = new FileStream(fileName, FileMode.Open);

            Encoding targetEncoding = GetEncoding(fs, defaultEncoding);

            fs.Close();

            return targetEncoding;

        }

        /// <summary>

        /// 取得一个文本文件流的编码方式。

        /// </summary>

        /// <param name="stream">文本文件流。</param>

        /// <param name="defaultEncoding">默认编码方式。当该方法无法从文件的头部取得有效的前导符时，将返回该编码方式。</param>

        /// <returns></returns>

        public static Encoding GetEncoding(FileStream stream, Encoding defaultEncoding)

        {

            Encoding targetEncoding = defaultEncoding;

            if (stream != null && stream.Length >= )

            {

                //保存文件流的前4个字节

                byte byte1 = ;

                byte byte2 = ;

                byte byte3 = ;

                byte byte4 = ;

                //保存当前Seek位置

                long origPos = stream.Seek(, SeekOrigin.Begin);

                stream.Seek(, SeekOrigin.Begin);

                int nByte = stream.ReadByte();

                byte1 = Convert.ToByte(nByte);

                byte2 = Convert.ToByte(stream.ReadByte());

                if (stream.Length >= )

                {

                    byte3 = Convert.ToByte(stream.ReadByte());

                }

                if (stream.Length >= )

                {

                    byte4 = Convert.ToByte(stream.ReadByte());

                }

                //根据文件流的前4个字节判断Encoding

                //Unicode {0xFF, 0xFE};

                //BE-Unicode {0xFE, 0xFF};

                //UTF8 = {0xEF, 0xBB, 0xBF};

                if (byte1 == 0xFE && byte2 == 0xFF)//UnicodeBe

                {

                    targetEncoding = Encoding.BigEndianUnicode;

                }

                if (byte1 == 0xFF && byte2 == 0xFE && byte3 != 0xFF)//Unicode

                {

                    targetEncoding = Encoding.Unicode;

                }

                if (byte1 == 0xEF && byte2 == 0xBB && byte3 == 0xBF)//UTF8

                {

                    targetEncoding = Encoding.UTF8;

                }

                //恢复Seek位置

                stream.Seek(origPos, SeekOrigin.Begin);

            }

            return targetEncoding;

        }

        // 新增加一个方法，解决了不带BOM的 UTF8 编码问题   

        /// <summary>

        /// 通过给定的文件流，判断文件的编码类型

        /// </summary>

        /// <param name="fs">文件流</param>

        /// <returns>文件的编码类型</returns>

        public static System.Text.Encoding GetEncoding(Stream fs)

        {

            byte[] Unicode = new byte[] { 0xFF, 0xFE, 0x41 };

            byte[] UnicodeBIG = new byte[] { 0xFE, 0xFF, 0x00 };

            byte[] UTF8 = new byte[] { 0xEF, 0xBB, 0xBF }; //带BOM

            Encoding reVal = Encoding.Default;

            BinaryReader r = new BinaryReader(fs, System.Text.Encoding.Default);

            byte[] ss = r.ReadBytes();

            if (ss[] == 0xFE && ss[] == 0xFF && ss[] == 0x00)

            {

                reVal = Encoding.BigEndianUnicode;

            }

            else if (ss[] == 0xFF && ss[] == 0xFE && ss[] == 0x41)

            {

                reVal = Encoding.Unicode;

            }

            else

            {

                if (ss[] == 0xEF && ss[] == 0xBB && ss[] == 0xBF)

                {

                    reVal = Encoding.UTF8;

                }

                else

                {

                    int i;

                    int.TryParse(fs.Length.ToString(), out i);

                    ss = r.ReadBytes(i);

                    if (IsUTF8Bytes(ss))

                        reVal = Encoding.UTF8;

                }

            }

            r.Close();

            return reVal;

        }

        /// <summary>

        /// 判断是否是不带 BOM 的 UTF8 格式

        /// </summary>

        /// <param name="data"></param>

        /// <returns></returns>

        private static bool IsUTF8Bytes(byte[] data)

        {

            int charByteCounter = ;　 //计算当前正分析的字符应还有的字节数

            byte curByte; //当前分析的字节.

            for (int i = ; i < data.Length; i++)

            {

                curByte = data[i];

                if (charByteCounter == )

                {

                    if (curByte >= 0x80)

                    {

                        //判断当前

                        while (((curByte <<= ) & 0x80) != )

                        {

                            charByteCounter++;

                        }

                        //标记位首位若为非0 则至少以2个1开始 如:110XXXXX...........1111110X　

                        if (charByteCounter ==  || charByteCounter > )

                        {

                            return false;

                        }

                    }

                }

                else

                {

                    //若是UTF-8 此时第一位必须为1

                    if ((curByte & 0xC0) != 0x80)

                    {

                        return false;

                    }

                    charByteCounter--;

                }

            }

            if (charByteCounter > )

            {

                throw new Exception("非预期的byte格式!");

            }

            return true;

        }

    }

}

C# 获取文件编码的更多相关文章

Python学习笔记八：文件操作（续），文件编码与解码，函数，递归，函数式编程介绍，高阶函数
文件操作(续) 获得文件句柄位置,f.tell(),从0开始,按字符数计数 f.read(5),读取5个字符返回文件句柄到某位置,f.seek(0) 文件在编辑过程中改变编码,f.detech() ...
nodejs 获取文件的编码方式
使用nodejs获取文件夹内文件的编码方式:使用jschardet模块. 下面的代码还有问题,没有添加结束的语句,没有判断应该在哪执行res.send(). res.send()不能放在forEach ...
Atitit.检测文本文件的编码自动获取文件的中文编码
Atitit.检测文本文件的编码自动获取文件的中文编码 1 不能使用load来检测编码..1 2 使用convert来检测编码1 3 程序检测文本编码2 3.1 根据utf bom头2 3.2 检测 ...
paip.enhes efis 自动获取文件的中文编码
paip.enhes efis 自动获取文件的中文编码 ##为什么需要自动获取文件的中文编码提高开发效率,自动获取文件的中文编码 .不需要手动设置编码...轻松的.. ##cpdetector 可 ...
Java如何获取文件编码格式
1:简单判断是UTF-8或不是UTF-8,因为一般除了UTF-8之外就是GBK,所以就设置默认为GBK. 按照给定的字符集存储文件时,在文件的最开头的三个字节中就有可能存储着编码信息,所以,基本的原 ...
java实现文件编码监测(转)
chardet是mozilla自动字符集探测算法代码的java移植.这个算法的最初作者是frank Tang,C++源代码在http://lxr.mozilla.org/mozilla/source/ ...
java实现文件编码监测
java实现文件编码监测最近在做一个文档的翻译项目,可文档的编码不知道,听头疼的.尝试了很多方法最后发现JCharDet这个工具可以轻松解决这个问题.于是作此笔记希望日后提醒自己以及帮助又需要的人. ...
【python】中文的输出，打印，文件编码问题解决方法
直接在python中输入中文的字符串会报编译错误SyntaxError: Non-ASCII character,因为python文件默认编码方式是ASCII.如果想要打印中文字符,有两种方式: 1. ...
［译］如何定义python源文件的文件编码
简介这篇文章是为了介绍定义python源文件文件编码的方法.python解释器可以根据所指定的编码信息对当前文件进行解析.通常来说,这种方法可以提高解析器对Unicode编码的源文件的识别,并且支持 ...

随机推荐

POJ2533 Longest Ordered Subsequence —— DP 最长上升子序列（LIS）
题目链接:http://poj.org/problem?id=2533 Longest Ordered Subsequence Time Limit: 2000MS Memory Limit: 6 ...
并不对劲的bzoj3277
陈年老坑题意大概是有n个字符串,要求出每一个字符串的所有子串(不包括空串)在所有字符串(包括自身)中出现次数不少于k的有多少个.n,k,字符串总长<=100000. 如果只有一个串的话,非常好 ...
搭建gerrit服务器(apache&nginx反向代理方式)
这段时间,想搭建一个gerrit,用于代码托管,gerrit的搭建,网上有很多种教程,但是自己按照别人的教程逐步操作,一直出现诸多问题.最头痛的就是:Configuration Error Check ...
小程序-demo：快速开始
ylbtech-小程序-demo:快速开始 1.返回顶部 1.app.js //app.js App({ onLaunch: function () { // 展示本地存储能力 var logs = ...
Gym 100531D Digits (暴力)
题意:给定一个数字,问你找 n 个数,使得这 n 个数各位数字之和都相等,并且和最小. 析:暴力,去枚举和是 1 2 3...,然后去选择最小的. 代码如下: #pragma comment(link ...
bzoj 1195: [HNOI2006]最短母串【状压dp】
我有病吧--明明直接枚举是否匹配就可以非要写hash,然后果然冲突了(--我个非酋居然还敢用hash 设f[s][i]为已选串状态为s并且最后一个串是i,还有预处理出g[i][j]表示最长有长为g[i ...
洛谷P3833 [SHOI2012]魔法树（树链剖分）
传送门树剖板子…… 一个路径加和,线段树上打标记.一个子树询问,dfs的时候记录一下子树的区间就行 // luogu-judger-enable-o2 //minamoto #include< ...
java-通过反射获取目标类的属性,方法,构造器
首先定义一个urse package com.studay_fanshe; public class User { private String uname; private int age; pri ...
Ubuntu 18 安装 wps
本来有三种方法 1. 软件中心安装最简单 2. 命令行snap 安装如果没有安装snap 先安装 sudo apt install snapd 然后安装wps sudo snap install ...
依赖注入(二)Autofac简单使用
Autofac简单使用源码下载传上源码,终于学会传文件了. 首先还是那句话:“不要信我,否则你死得很惨!”. C#常见的依赖注入容器 IoC in .NET part 1: Autofac IoC ...

C# 获取文件编码

C# 获取文件编码的更多相关文章

随机推荐

热门专题