按大小拆分超大文件的方法（本文测试了一个62G的文件）

遇到一个问题，从网络上下载了一个62G的文件（新浪微博的语料集，地址：http://itee.uq.edu.au/~dke/WISE2012.htm），之后要进行其他处理，很显然先拆分成小文件再处理比较好。

我当时用的是windows系统，貌似没有这种拆分如此大的文件的工具，我本人试着用C++的内存映射方法（在内存里建一个内存映射文件，然后把超大文件的一部分映射到内存，然后分片读文件），将文件的一部分一部分读出来，读一部分换掉一部分然后写入小文件，从而达到拆分文件的目的，然而网上找了好多文章，内存映射这块还是没搞懂，尤其是参数很是复杂，只好放弃。

最后才发现，windows下面难以解决的问题，linux早就存在了现成的方案来解决，那就是split命令。split具体的使用方法贴一下：

linux split 命令

功能说明：切割文件。

语　　法：split [--help][--version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名]

补充说明：split可将文件切成较小的文件，预设每1000行会切成一个小文件。

参　　数：

-<行数>或-l<行数> 　指定每多少行就要切成一个小文件。

-b<字节> 　指定每多少字就要切成一个小文件。支持单位:m,k

-C<字节> 　与-b参数类似，但切割时尽量维持每行的完整性。

--help 　显示帮助。

--version 　显示版本信息。

[输出文件名] 　设置切割后文件的前置文件名，split会自动在前置文件名后再加上编号。

使用例子：

　　split -b 100m filename

看过命令后，会发现其中的-C命令，会照顾到行，就是说截取的时候，不会将一行从中间截断，最终我只用了一行命令解决了问题：

split -C 1024m 62G.txt output

该命令将一个62G的文件，拆分成每个1G的小文件，并且不会将行拆开（新浪微博这个数据，每行一条，不能拆分）

按大小拆分超大文件的方法（本文测试了一个62G的文件）

相关推荐

Leave a Comment 取消回复