基于 BinaryReader 的高效切割TXT文件

日常工作中免不了要面对一些文件的操作..

但是如果是日志文件..动辄上G的..处理起来就不那么轻松随意了..

尤其文件还很多的时候..

这个时候就会用到大文件切割..

下边贴出的示例是实验了一个 10G 的TXT文件来做的..效果还可以..全部切割成50M的文件大概用了一分多钟..

下面是代码..具体的流程在注释里都有..自己看..

要实验嘛..先做一个大文件出来..不用找了..跑这两行代码弄一个..

StreamWriter writer=new StreamWriter (@"E:\FTPS\data.csv");

for (int i = ; i < int.MaxValue; i++)

{

    writer.WriteLine(i.ToString()+"\t    'fsdjklfjsdl','sdfsdlfjlsdjf','f123双方的dffdsfsdf','f发斯蒂芬sdjklfjsdl','sd地方fsdlfjlsdjf','f1发斯蒂芬2312dffdsfsdf'");

}

writer.Dispose();

前边有行号..方便切割之后看看数据完整性.

然后是干货..

            //源文件

            string sourceFile = @"E:\FTPS\data.csv";

            //拆分后文件输出目录

            string splitFileDirf = @"E:\FTPS\";

            //每个文件的基本大小

            long splitFileSize =  *  * ;

            //开始位置

            long readStart = ;

            //拆分的文件名称序号

            int SplitFileNum = ;

            try

            {

                FileStream stream = new FileStream(sourceFile, FileMode.Open);

                long FileTotalLength = stream.Length;

                //创建二进制读取

                using (BinaryReader reader = new BinaryReader(stream,Encoding.UTF8))

                {

                    //直接将开始读取的位置设定到基础大小的字节上

                    //下面要做的是往后找到这一行的结束

                    reader.BaseStream.Position = splitFileSize - ;

                    //判断当前位置不超过文件总大小

                    while (reader.BaseStream.Position <= FileTotalLength)

                    {

                        //往后挨个儿字符找换行

                        //这里要说明的是  reader.ReadByte() 方法执行时会自动将 reader.BaseStream.Position 的值向后+1

                        //网上有些例子执行了 ReadByte 另外还做 Position++  明显是有字符隔掉的

                        while (reader.BaseStream.Position < FileTotalLength && reader.ReadByte() != ) { }

                        //对输出的文件地址创建流

                        FileStream fileStreamOut = new FileStream(splitFileDirf + SplitFileNum + ".csv", FileMode.Create);

                        //创建二进制写入

                        using (BinaryWriter binaryWriter = new BinaryWriter(fileStreamOut, Encoding.UTF8))

                        {

                            //这里获得现在找到换行的那个字节上的位置到这次遍历开始的位置中间的字节数量

                            //+1 是为了把找到的那个换行符也带上

                            int readWrodCountNow = (int)(reader.BaseStream.Position - readStart + );

                            //把读取的起始位置重置到这次查询的开始位置

                            reader.BaseStream.Position = readStart;

                            //把这次读取的内容写入到新文件

                            binaryWriter.Write(reader.ReadBytes(readWrodCountNow));

                        }

                        //将这次读取到的位置作为下次的起始位置

                        readStart = reader.BaseStream.Position;

                        //下次的验证开始位置  从这里开始验证换行

                        reader.BaseStream.Position = readStart + splitFileSize - ;

                        //输出文件名

                        SplitFileNum++;

                    }

                }

            }

            catch (Exception ex)

            {

                Console.WriteLine(ex.Message);

            }

            Console.WriteLine("Complete");

            //Console.ReadKey();

好啦..代码都在这里了..

说明白啊..网上有的代码有问题..在注释里说过问题在哪里..

核心代码就是这样了.. 要优化的可以包装一下..

比如隔断符号自定义..文件大小自定义什么的..自己弄吧..

基于 BinaryReader 的高效切割TXT文件的更多相关文章

[大牛翻译系列]Hadoop（18）MapReduce 文件处理：基于压缩的高效存储（一）
5.2 基于压缩的高效存储 (仅包括技术25,和技术26) 数据压缩可以减小数据的大小,节约空间,提高数据传输的效率.在处理文件中,压缩很重要.在处理Hadoop的文件时,更是如此.为了让Hadoop ...
【基于WPF+OneNote+Oracle的中文图片识别系统阶段总结】之篇三：批量处理后的txt文件入库处理
篇一:WPF常用知识以及本项目设计总结:http://www.cnblogs.com/baiboy/p/wpf.html 篇二:基于OneNote难点突破和批量识别:http://www.cnblog ...
[大牛翻译系列]Hadoop（19）MapReduce 文件处理：基于压缩的高效存储（二）
5.2 基于压缩的高效存储(续) (仅包括技术27) 技术27 在MapReduce,Hive和Pig中使用可分块的LZOP 如果一个文本文件即使经过压缩后仍然比HDFS的块的大小要大,就需要考虑选择 ...
react FileReader读取TXT文件并保存 split切割字符串 map()分别渲染切割后的数组内的所有字符串
//class my_fileReader( e ) { console.log(e.target.files[0]); const reader = new File ...
Javascript写入txt和读取txt文件的方法
文章主要介绍了Javascript写入txt和读取txt文件的方法,需要的朋友可以参考下1. 写入 FileSystemObject可以将文件翻译成文件流. 第一步: 例: 复制代码代码如下: Va ...
基于哈夫曼编码的文件压缩（c++版）
本博客由Rcchio原创我了解到很多压缩文件的程序是基于哈夫曼编码来实现的,所以产生了自己用哈夫曼编码写一个压缩软件的想法,经过查阅资料和自己的思考,我用c++语言写出了该程序,并通过这篇文章来记录 ...
按行切割大文件（linux split 命令简版）
按行切割大文件(linux split 命令简版) #-*- coding:utf-8 -*- __author__ = 'KnowLifeDeath' ''' Linux上Split命令可以方便对大 ...
Python基于Python实现批量上传文件或目录到不同的Linux服务器
基于Python实现批量上传文件或目录到不同的Linux服务器 by:授客 QQ:1033553122 实现功能 1 测试环境 1 使用方法 1 1. 编辑配置文件conf/rootpath_fo ...
java读取txt文件的2中方法---并将内容（每一行以固定的字符分割切成2段）存到map中去
#java读取txt文件的第一种方法 /** * 方法:readTxt * 功能:读取txt文件并把txt文件的内容---每一行作为一个字符串加入到List中去 * 参数:txt文件的地址 * 返回: ...

随机推荐

如何快速简单上传类库到CocoaPods - 图文攻略步骤
当自己的库已经上传GitHub后,那么如何快速简单的开源自己的库呢? 这里就是介绍如何将自己的类库上传到pods管理库,以便开源所有人都能方便使用. 准备前提: - 项目已上传到GitHub (注意, ...
java自带工具-javap使用
javap是JDK自带的反汇编器,可以查看java编译器为我们生成的字节码.通过它,我们可以对照源代码和字节码,从而了解很多编译器内部的工作,有助与我们更加理解java特性. javap(反汇编命令) ...
Java基础知识笔记（三：文件与数据流）
一.输入流与输出流输入流将数据从文件.标准输入或其他外部输入设备中加载到内存.输出流的作用则刚好相反,即将在内存中的数据保存到文件中,或传输给输出设备.输入流在Java语言中对应于抽象类java.i ...
spark on yarn 提交任务出错
Application ID is application_1481285758114_422243, trackingURL: http://***:4040Exception in thread ...
HashSet和TreeSet
package com.wzy.list; import java.util.HashSet; import java.util.Iterator; import java.util.Set; imp ...
[No00007A]没有文件扩展".js"的脚本引擎解决办法
在命令行运行JScript脚本时,遇到如下的错误提示: “输入错误: 没有文件扩展“.js”的脚本引擎.” 这样的错误,原因是因为JS扩展名的文件被其他软件关联了,需要取消关联. 如系统中安装了ULT ...
sqlserver 2008R2数据库迁移oracle
x项目需要,将以前的sqlserver数据库迁移的oracle数据库中,由于以前对oracle只是在DML语句的步骤,所以总结一下这次遇到的问题以及具体步骤 1,oracle新建数据库新建Oracl ...
SeaJS入门篇一怎么使用query
研究了2个多小时,终于搞定引入jq 1.写个html页面 <h1>ddddddddd</h1> <script src='/Scripts/dist/sea.js'> ...
Struts2 token禁止重复提交表单
如果服务器响应慢的情况下,用户会重复提交多个表单,这时候有两种设计思想: 1.在客户端使用JS技术,禁止客户重复提交表单.但是这样会使一些不使用浏览器方式登陆的人比如使用底层通信来攻击你的服务器 2. ...
学习web前端学习路程
学习路程: 1.HTML和CSS基础 2.JavaScript语言 3.jQuery 4.综合网站实践 5.优化及调试

基于 BinaryReader 的高效切割TXT文件

基于 BinaryReader 的高效切割TXT文件的更多相关文章

随机推荐

热门专题