脚本put数据到hdfs

1、vim putdata.sh

　　脚本功能：

　　每小时的第15分钟把上一小时的数据put到hdfs相应目录

　　为了避免大量的小文件，我们把文件夹下的文件cat到一个临时文件里，put成功后删除这个临时文件

#! /bin/bash
#当前时间
nowtime=`date +%Y%m%d%H%M%S`
echo "当前时间为：$nowtime"
#当前时间戳
currentTime=`date +%s`
echo "当时间戳为：$currentTime"
#上一小时时间戳
beforeHourTime=`expr $currentTime - 3600`
#上一小时时间
beforeHour=`date -d @$beforeHourTime +%Y%m%d%H%M%S`
echo "上一小时时间为：$beforeHour"
#截取
timeDir=${beforeHour:0:10}
echo "timeDir为：$timeDir"
#定义一个临时文件名
tmpFile=$timeDir"_tmp.ok"
#创建这个临时文件
#把/home/hadoop/testData/$timeDir/*的数据都cat到tmpFile文件里
cat /home/hadoop/testData/$timeDir/* >> /home/hadoop/testData/$tmpFile
#在hdfs上创建目录
hdfs dfs -mkdir -p /testData/$timeDir
#把数据put到$timeDir目录下
hdfs dfs -put /home/hadoop/testData/$tmpFile /testData/$timeDir
#删除这个临时文件
rm -f /home/hadoop/testData/$tmpFile

定时执行这个脚本：每小时的第15分钟执行这个脚本
15 * * * * sh -xb /home/hadoop/shellScript/putdata.sh 2>&1 >> /home/hadoop/a.log

脚本put数据到hdfs的更多相关文章

Http接口获取数据写入Hdfs
数据源类型:数组列表 [{field:value}, {field:value}, {field:value}, {field:value}] 1. 定义http数据源链接 package com.e ...
spark读取hdfs上的文件和写入数据到hdfs上面
def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master" ...
Sqoop2入门之导入关系型数据库数据到HDFS上(sqoop2-1.99.4版本)
sqoop2-1.99.4和sqoop2-1.99.3版本操作略有不同:新版本中使用link代替了老版本的connection,其他使用类似. sqoop2-1.99.4环境搭建参见:Sqoop2环境 ...
Client将数据读写HDFS流程
HDFS介绍 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统.是根据google发表的论文翻版的. 什么是分布式文件系统分布式文件系统(Dist ...
Logstash读取Kafka数据写入HDFS详解
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用lo ...
kafka消费者实时消费数据存入hdfs java scalca 代码
hadoop-client依赖很乱调试很多次cdh版本好多jar没有用hadoop2.7.3可以自定义输出流的池子进行流管理 public void writeLog2HDFS(String p ...
通过微软 pai-fs 上传数据到HDFS （Microsoft OpenPAI）
准备环境 (个人使用记录,方便下次使用查阅~~) 首先保证PAI是登陆状态: 进入GitHub项目所在地址: https://github.com/Microsoft/pai/ 然后切换分支到具体 ...
sqoop将oracle数据导入hdfs集群
使用sqoop将oracle数据导入hdfs集群集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubati ...
使用MapReduce将mysql数据导入HDFS
package com.zhen.mysqlToHDFS; import java.io.DataInput; import java.io.DataOutput; import java.io.IO ...

随机推荐

PAT(B) 1043 输出PATest（Java）统计
题目链接:1043 输出PATest (20 point(s)) 题目描述给定一个长度不超过 104 的.仅由英文字母构成的字符串.请将字符重新调整顺序,按 PATestPATest- 这样的 ...
C++标识符的作用域与可见性
一.标识符的作用域与可见性作用域讨论的是标识符的有效范围,可见性讨论的是标识符是否可以被引用. 二.作用域作用域是一个标识符在程序正文中有效的区域.C++中标识符的作用域有函数原型作用域.局部作用 ...
Python开发【第一章】：简介和入门
Python简介 Python的创始人为Guido van Rossum.1989年圣诞节期间,在阿姆斯特丹,Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为ABC 语言的一种继承. ...
react 提示消息队列（支持动态添加，删除，多实例化）
import React from 'react' import PropTypes from 'prop-types' import AnimationOperateFeedbackInfo fro ...
DotNet 使用阿里云媒体转码服务
公司项目中一部分文件放到了阿里云 OSS 上,其中有些音频文件是 amr 类型的,在后期使用的时候比较麻烦,所以需要转换成 mp3 的文件,方便以后使用.本来想使用 ffmpeg 处理,但由于文件都存 ...
Java构建器（多个构造器参数）
今天看netty权威指南,第一次听说构建器,百度了几个博客,但是并没有通俗易懂一点儿的,综合别人的博客,总结如下: 1. 构建器是什么? 当创建对象需要传入多个参数的时候我们通常会根据参数的数量写不同 ...
List<T> or IList<T>
If you are exposing your class through a library that others will use, you generally want to expos ...
ElementUI+命名视图实现复杂顶部和左侧导航栏
在了解了命名视图的用途后,发现用命名视图来实现复杂导航更加省力.更多知识请参考这里这里只说明重要配置内容,其他内容配置请参考上一篇初始版本: ElementUI 复杂顶部和左侧导航栏实现或参考文末 ...
树莓派手动设置静态IP和DNS方法
在使用树莓派的过程中,往往需要手动设置一个静态的IP地址,一来可以防止DHCP自动分配的IP变动,二来可提高树莓派的网络连接速度.查看官方文档 man dhcpcd.conf可知,需要配置静态IP的话 ...
weblogic jdbc 相关概念介绍
weblogic jdbc 是什么? 如何配置? 常见问题? 如何监控?

脚本put数据到hdfs

脚本put数据到hdfs的更多相关文章

随机推荐

热门专题