使用awk按照行数切割文件

最近在做一个事情，需要将一个文本文件按照行数进行切割，然后用了，awk的方法，感觉很好用，记录一下。

脚本如下:

#!/bin/bash

## 文件效果: 根据行数来切割文件

## 参数1为要切割的文件名

## 参数2为每个切割后文件的行数

filename=$

fileline=$

echo "filename=$filename"

echo "fileline=$fileline"

awk -v count=$fileline 'BEGIN{i=0} {  print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count) { close(sprintf("%s_%d",FILENAME,i)); i++;} }' $filename

echo "=====finish====="

简单解释一下，比较重要的就是那一行awk

-v count=$fileline ， -v 用来将变量传入

BEGIN中用来初始化一个变量 i，用来记录是否需要进行换文件，之后将每一行输入到对应的文件中，

直到 NR>=(i+1)*count ，相当于一个文件已经写完了，需要写入下一个文件。

这里需要做两件事情，先关闭之前写的文件，如果不关闭，会报错 awk: xxx makes too many open files ，这个表示awk 打开的文件太多了。

然后将计数器加1，这样就可以写入下一个文件了。

运行效果，就是将 filename 切割成 filename_0 , filename_1, filename_2 等多个文件，每个文件都是 fileline 行，最后一个文件，就是剩下的行数。

可以很简单的得到下面这个变种，就是根据想要切割的文件数量来进行按照行数切割。

#!/bin/bash

## 根据文件数来切割

## 参数1为要切割的文件名

## 参数2为期望得到的文件数

filename=$

filenum=$2
# 计算每个文件的行数

fileline=$(( `cat $filename | wc -l ` / $filenum +  ))

echo "filename=$filename"

echo "filenum=$filenum"

awk -v count=$fileline 'BEGIN{i=0} {  print $0 > sprintf("%s_%d",FILENAME,i) ; if (NR>=(i+1)*count) { close(sprintf("%s_%d",FILENAME,i)); i++;} }' $filename

echo "=====finish====="

使用awk按照行数切割文件的更多相关文章

PowerShell工具脚本---按行数切割大文本文件
我编写的PowerShell工具脚本,[按行数切割大(文本)文件],生成n个小文件. 主要目的是为了能够让excel快速处理.或用脚本并发处理文本. 注意: 1 如果有必要,你可以先用其他工具,把大文 ...
linux文件按照行数切割
公司小站的nginx服务器日志一直没有管理到发现的时候已经有50G+的logs文件查看起来十分不便只能将其切割接下来分享具体方法 split -l 5000(行数) -a 5(增加文件名上限 ...
(转)Java按指定行数读取文件
package test import java.io.File; import java.io.FileReader; import java.io.IOException; import java ...
统计行数、文件夹个数、文件个数的相关shell命令
极客君最近做项目,刚好遇到需要统计一些sql文件数量的问题,用到一些实用的shell命令,记录下来,以后万一还能用上呢? 如果在终端不打开文件看到一共多少行,则可以使用wc命令来实现: wc -l [ ...
python pandas使用chunksize异步拆分固定行数的文件
import pandas as pd import asyncio from collections import defaultdict collect = defaultdict(list) # ...
shell总结：读取文件、参数、if、分割字符串、数组长度、空文件、变量赋值、多进程、按行切割文件、查看线程
Reference: http://saiyaren.iteye.com/blog/1943207 1. Shell 读取文件和写文件 for line in $(<top30000. ...
Linux下使用split按行数进行切割
说明:一般来说split按行数切割多数用在日志文件上. 实例: 将一个大文件分成若干个小文件方法: 例如将一个BLM.txt文件分成前缀为BLM_ 的1000个小文件,后缀为系数形式,且后缀为4位数字 ...
PHP如何获取文件行数
本文实例讲述了PHP获取文件行数的方法.分享给大家供大家参考.具体分析如下:提供两种实现方法,虽然第二种简单易懂,但是第一种效率最好第一种: <?php $file_path = 'xxx.tx ...
OC获取文件(夹)的代码行数
/* 考察NSString NSArray NSFileManager */ #import <Foundation/Foundation.h> /* 计算单个文件的代码行数 path:文 ...

随机推荐

python 提取linux的硬件信息
1.代码实现目的注:代码可以直接粘贴使用为了实现对主机的整体有明确的了解,实现了下面的代码功能代码主要功能是: 提取到主机的内存.硬盘.CPU.型号等信息插入到mysql的数据库中 2.代码具 ...
echart参数设置——曲线图
{ title: { text: '请求返回码分布', subtext: '实时数据' }, tooltip: { trigger: 'axis', position: function (point ...
【js基础】js排序方法——快排+堆排+插排+选择排
快排 Array.prototype.fastSort = function(){ var arr = this; function sort(left, right, arr){ if( left ...
CRM原型
https://files.cnblogs.com/files/wcLT/CRM.zip
web service && WCF 学习小结
Web Service和WCF技术都提供了应用程序与应用程序之间的通信.它们都是基于soap消息在客户端和服务端之间进行通信,由于soap消息是一种xml格式,因此传输的数据格式为XML.每次客户端向 ...
oh-my-zsh安装与使用
使用oh-my-zsh之前确保安装过zsh 通过脚本安装: sh -c "$(curl -fsSL https://raw.githubusercontent.com/robbyrussel ...
python使用关键字爬取url
python网路爬虫 --------- 使用百度输入的关键字搜索内容然后爬取搜索内容的url 开发环境:windows7+python3.6.3 开发语言:Python 开发工具:pycharm 第 ...
Hive-1.2.1_02_简单操作与访问方式
1. Hive默认显示当前使用库 .需要用时,即时配置,在cli执行属性设置,这种配置方式,当重新打开cli时,就会生效: hive> set hive.cli.print.current.db ...
转 VMware虚拟机三种联网方式（图文详细解说）
原文地址https://blog.csdn.net/lucienduan/article/details/38233147 VMware三种网络模式联网首先说一下VMware的几个虚拟设备安装了V ...
php 请求另一个服务器接口返回数据
<?php /** * Created by PhpStorm. * User: thinkpad * Date: 2015/7/17 0017 * Time: 13:24 */ class A ...

使用awk按照行数切割文件

使用awk按照行数切割文件的更多相关文章

随机推荐

热门专题