Spark笔记-gz压缩存储到HDFS【转】】的更多相关文章

参考:http://blog.csdn.net/u010454030/article/details/69291663 mergedRDD.saveAsTextFile(outputPath, classOf[GzipCodec]) 和一般的saveAsTextFile不同之处在于增加了一个参数 classOf[GzipCodec]…
1.准备jar  :log4j-1.2.17.jar,commons-logging-1.2.jar,这2个就可以了,其他关于日志的jar包就不要加进来了,在优先级上会有冲突. 2.定义一个类,继承RollingFileAppender类,这个类是按照日志大小滚动生成日志,并把日志编号.我就在这个类基础上重新写了其中的一些方法,加上日期和删除功能,稍加改动就行了. package com.hm.sage.bigdata.spark.log; import java.io.File; import…
学习笔记一:压缩 2015年2月5日 上午 10:23 压缩命令 压缩文件的扩展名大多是*.tar.*.tar.gz.*.tgz.*.gz.*.Z.*.bz2 常见的压缩命令gzip与bzip2,其中bzip2压缩比gzip要好 tar可以用来进行文件打包,并可支持gzip和bzip2的压缩 压缩 tar -jvc -f  filename.tar.bz2 /directory 查询 tar -jtv -f  filename.tar.bz2 解压 tar -jxv -f filename.ta…
本文原创,转载注明作者和原文链接! 一:总结注意点: 到现在为止学习到的角色:三个NameNode.SecondaryNameNode.DataNode 1.存储的是每一个文件分割存储之后的元数据信息.具体的信息有: 2.而且NameNode的存储是内存存储的,不会有和磁盘的数据交换的过程,这样的话提高了整体的集群的效率,但是这个数据都是需要持久化的,因为不持久化的话,数据是不安全的,加假如哪一天hadoop集群中的NameNode那台服务器挂了的话,里面的元数据如果只是存储在内存中的就全部的丢…
三元组表压缩存储稀疏矩阵实现稀疏矩阵的快速转置(Java语言描述) 用经典矩阵转置算法和普通的三元组矩阵转置在时间复杂度上都是不乐观的.快速转置算法在增加适当存储空间后实现快速转置具体原理见代码注释部分,时间复杂度为O(nu+tu):个人认为重排三元组之间的次序一步可以省略,虽然三元组数据变得杂乱无章,但是可以把时间复杂度提高到O(tu),如果是不考虑三元组,直接输出转置后的矩阵就可以采用这种方法;行逻辑链接实现稀疏矩阵相乘,十字链表实现稀疏矩阵相加正在编写中,即将更新.声明:转载,引用请以链接…
以前就用过自己搭建MySQL服务器的两种存储引擎MyISAM和InnoDB(也用过一点Memory方式),在今年初转向阿里云关系型数据库服务RDS的时候,看到可调参数中有一个TokuDB,不过不太了解也没有管. 最近同事转给我阿里云介绍TokuDB的文章,其中压缩存储的特性对我们来说很有吸引力,因为我们的数据库一般都偏大,已经转到阿里云的就有几百个GB了,加上以后要转的肯定是TB数量级的,而且目前还是用的MyISAM,如果用InnoDB的话,那还要扩大数倍,仅仅是存储的费用就让人难以承受.但My…
Python编程从入门到实践笔记——异常和存储数据 #coding=gbk #Python编程从入门到实践笔记——异常和存储数据 #10.3异常 #Python使用被称为异常的特殊对象来管理程序执行期间发生的错误.每当发生让Python不知所措的错误时,它都会创建一个异常对象. #如果编写了处理该异常的代码,程序将继续运行:如果你未对异常进行处理,程序将停止,并显示一个traceback,其中包含有关异常的报告. #异常是使用try-except代码块处理的.try-except 代码块让Pyt…
Spark基础 第一节:什么是Spark?Spark的特点和结构 1.什么是Spark? Spark是一个针对大规模数据处理的快速通用引擎. 类似MapReduce,都进行数据的处理 2.Spark的特点: (1)基于Scala语言.Spark基于内存的计算 (2)快:基于内存 (3)易用:支持Scala.Java.Python (4)通用:Spark Core.Spark SQL.Spark Streaming MLlib.Graphx (5)兼容性:完全兼容Hadoop 3.Spark体系结…
1.ZIP 压缩时排除一个文件夹下所有内容zip -r sss.zip sss/ -x "sss/222/*" 压缩时排除指定多个文件夹下所有内容zip -r sss.zip sss/ -x "sss/222/*" -x "sss/333/*" 2.tar.gz tar.gz压缩:进入www.888.com文件夹内,排除某些文件夹打包压缩其余文件cd /home/www.888.com/tar -zcvf 888.tar.gz ./* --exc…
刚刚刷java选择题,遇到的对称矩阵压缩存储问题,我们知道对称矩阵是aij=aji的矩阵,压缩存储可以采用一维数组和二维数组存储. 此处只讨论一维数组存储的形式,设数组下标从0开始,对称矩阵为n维矩阵. 此矩阵有n*n个元素,主对角线上有n个,因为aij=aji,所以只需要存储上三角或者下三角的元素即可,所以数组的容量为(n*n-n)/2+n=n(n+1)/2 (注:-n是先去除主对角线上的元素) n阶对称矩阵的压缩存储对应关系   aij=aji   1<=i<=n,1<=j<=…