脚本put数据到hdfs】的更多相关文章

1.vim putdata.sh 脚本功能: 每小时的第15分钟把上一小时的数据put到hdfs相应目录 为了避免大量的小文件,我们把文件夹下的文件cat到一个临时文件里,put成功后删除这个临时文件 #! /bin/bash#当前时间nowtime=`date +%Y%m%d%H%M%S`echo "当前时间为:$nowtime"#当前时间戳currentTime=`date +%s`echo "当时间戳为:$currentTime"#上一小时时间戳beforeH…
数据源类型:数组列表 [{field:value}, {field:value}, {field:value}, {field:value}] 1. 定义http数据源链接 package com.etl.datalink; import java.util.Map; public class LinkHttp { private String url; private Map<String,Object> params; public String getUrl() { return url…
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set("spark.app.name", "spark demo") val sc = new SparkContext(conf); // 读取hdfs数据 val textFileRdd = sc.textFil…
sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境搭建 sqoop2-1.99.3版本实现参见:Sqoop2入门之导入关系型数据库数据到HDFS上 启动sqoop2-1.99.4版本客户端: $SQOOP2_HOME/bin/sqoop.sh client set server --host hadoop000 --port --webapp sq…
HDFS介绍 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的. 什么是分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连.分布式文件系统的设计基于客户机/服务器模式. [优点] 支持超大文件 超大文件在这里指的是几百M,几百GB,甚至几TB大小的文件. 检测和快速应对硬件故障在集群的环境中,硬…
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃 通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用logstash将kafka的数据写入到elasticsearch集群,这篇文章将会介绍如何通过logstash将数据写入HDFS 本文所有演示均基于logstash 6.6.2版本 数据收集 logstash默认不支持数据直接写入HDFS,官方推荐的output插件是webhdfs,webhdfs使用…
hadoop-client依赖很乱 调试很多次cdh版本好多jar没有 用hadoop2.7.3可以 自定义输出流的池子进行流管理 public void writeLog2HDFS(String path, byte[] log) { try { //得到我们的装饰流 FSDataOutputStream out = HDFSOutputStreamPool.getInstance().takeOutputStream(path); out.write(log); out.write("\r\…
准备环境 (个人使用记录,方便下次使用查阅~~) 首先保证PAI是登陆状态: 进入GitHub项目所在地址: https://github.com/Microsoft/pai/ 然后切换分支到  具体 使用文档再这里: https://github.com/Microsoft/pai/tree/pai-0.5.y/pai-fs 将代码clone下来后执行: `python pai-fs.py --config host=xxx.xxx.234.79 port=50070 user=root`(配…
使用sqoop将oracle数据导入hdfs集群 集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubating__hadoop-1.0.0.tar 首先,当然前提是Hadoop集群环境已经搭建好了.如没有搭建好,可以参考上期日志:http://blog.csdn.NET/shatelang/article/details/7605939 将hadoop,Hbase,zookeeper以及Oracle j…
package com.zhen.mysqlToHDFS; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLException; import org.apache.hadoop.conf.Configuration; im…