10G文件如何对里面单词出现排序的问题(只要文件系统支持,不限大小). 其实这个问题很简单,10G文件是很大,但是出现的字符或单词是很有限的. 单字符只有那么一百多个,单词数量满打满算,以英文单词总数65万个为例.全部,统称为单词.单词数量按65万个计算.仅仅每个单词的重复出现(频率)扩大了文件容量而已.即便是100G的文件,出现的单词也是这些. 文件绝对不需要全载入内存,只需要顺次读取扫描过滤单词即可.这样才不会占用到多大的内存. 假如我们以平均每个单词10个字节计算,65万*10字节=650