Hadoop相关日常操作

2024-10-23 01:08:38 原文

1.Hive相关

脚本导数据，并设置运行队列

bin/beeline -u 'url' --outputformat=tsv -e "set mapreduce.job.queuename=queue_1"

-e "select * from search_log where date <= 20150525 and date >= 20150523" > test.txt

将毫秒转换为日期

select from_unixtime(cast(createTime/1000 as bigint)) from video_information;

对值类型为JSON的数据进行解析，如下就是一个字段data为json类型，其中的type代表日志类型，查询搜索日志。

get_json_object(field, "$.field")

select * from video where date=20151215 and get_json_object(data, "$.type")="search" limit 1;

JSONArray类型解析

表格有3个字段（asrtext array, asraudiourl string)

asraudiourl	string	https://xxx
asrtext	array	[{"text":"我是业主","confidence":1.0,"queryvendor":"1009","querydebug":"{\"recordId\":\"92e12fe7\",\"applicationId\":\"\",\"eof\":1,\"result\":{\"rec\":\"我是业主\",\"eof\":1}}","isfinal":true}]

select asr, asraudiourl, asrvendor from aiservice.asr_info LATERAL VIEW explode(asrtext) asrTable As asr where date=20170523 and asrvendor='AiSpeech' and asr.isfinal=true and asr.text="我是业主" limit 1;

distinct误区

当distinct要求字段值不是null，当distinct x,y时，如果有null，会造成数据错误。所以我们来人工把null转换成一个值

select count(distinct requestid, CASE WHEN resid is null THEN "1" ELSE resid END)

2.Spark相关

spark任务提交，jar包后面跟的是jar包需要的参数

$SPARK_HOME/bin/spark-submit --class com.test.SimilarQuery

--master yarn-cluster --num-executors 40 --driver-memory 4g

--executor-memory 2g --executor-cores 1

similar-query-0.0.1-SNAPSHOT-jar-with-dependencies.jar 20150819 /user/similar-query

3.Hadoop

执行MapReduce Job，并设置运行队列，后面两个是主类需要的参数

hadoop jar game-query-down-0.0.1-SNAPSHOT.jar QueryDownJob

-Dmapreduce.job.queuename=sns_default arg1 arg2

4.MapReduce输入输出格式

TextInputFormat：默认格式，读取文件的行，key是行的字节偏移量(LongWritable)，value是行内容(Text)

KeyValueInputFormat:把行解析为键值对，key+\tab+value

SequenceFileInputFormat/SequenceFileOutputFormat:二进制格式，key/value都是用户自定义，input和output要保持一致

TextOutputFormat:输出纯文本，每行为key+\tab+value

NullOutputFormat:没有输出，忽略输出数据

MapFileOutputFormat：将结果写入一个MapFile中。MapFile中的键必须是排序的，所以在reducer中必须保证输出的键有序

DBInputFormat/DBOutputFormat：使用JDBC从关系数据库读文件或写文件

Hadoop相关日常操作的更多相关文章

ORACLE日常操作手册
转发自:http://blog.csdn.net/lichangzai/article/details/7955766 以前为开发人员编写的oracle基础操作手册,都基本的oracle操作和SQL语 ...
Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop
Hadoop相关项目Hive-Pig-Spark-Storm-HBase-Sqoop的相关介绍. Hive Pig和Hive的对比摘要: Pig Pig是一种编程语言,它简化了Hadoop常见的工作 ...
Oracle 11g 物理Dataguard日常操作维护（二）
Oracle 11g 物理Dataguard日常操作维护(二) 2017年8月25日 14:34 3.3 3.3.1 查看备库进程状态 SYS(125_7)@fpyj123> select pr ...
Hadoop全分布模式操作
http://blog.csdn.net/wangloveall/article/details/20767161 摘要:介绍Hadoop全分布模式操作,实现真正意义上的集群架构. 关键词:Hadoo ...
一 hadoop 相关介绍
hadoop 相关介绍 hadoop的首页有下面这样一段介绍.对hadoop是什么这个问题,做了简要的回答. The Apache™ Hadoop® project develops open-sou ...
Hadoop自学笔记（一）常见Hadoop相关项目一览
本自学笔记来自于Yutube上的视频Hadoop系列.网址: https://www.youtube.com/watch?v=-TaAVaAwZTs(当中一个) 以后不再赘述自学笔记,难免有各类错误 ...
[Linux] 安装JDK和Maven及hadoop相关环境
紧接上一篇,继续安装hadoop相关环境 JDK安装: 1. 下载,下面这两个地址在网上找的,可以直接下载: http://download.oracle.com/otn-pu ...
重新想象 Windows 8 Store Apps (70) - 其它: 文件压缩和解压缩, 与 Windows 商店相关的操作, app 与 web, 几个 Core 的应用, 页面的生命周期和程序的生命周期
[源码下载] 重新想象 Windows 8 Store Apps (70) - 其它: 文件压缩和解压缩, 与 Windows 商店相关的操作, app 与 web, 几个 Core 的应用, 页面的 ...
关于C＃和ASP.NET中对App.config和Web.config文件里的[appSettings]和[connectionStrings]节点进行新增、修改、删除和读取相关的操作
最近我做的一些项目,经常需要用到对应用程序的配置文件操作,如app.config和web.config的配置文件,特别是对配置文件中的[appSettings]和[connectionStrings] ...

随机推荐

03.SQLServer性能优化之---存储优化系列
汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 概述:http://www.cnblogs.com/dunitian/p/60413 ...
【每日一linux命令3】参数（或称选项）顺序
一般除了特殊情况,参数是没有顺序的.举例而言,输入"–a –v"与输入"–v –a"以及"–av" 的执行效果是相同的.但若该参数后指定了要 ...
Java多线程
一:进程与线程概述:几乎任何的操作系统都支持运行多个任务,通常一个任务就是一个程序,而一个程序就是一个进程.当一个进程运行时,内部可能包括多个顺序执行流,每个顺序执行流就是一个线程. 进程:进程 ...
Java基础Collection集合
1.Collection是所有集合的父类,在JDK1.5之后又加入了Iterable超级类(可以不用了解) 2.学习集合从Collection开始,所有集合都继承了他的方法集合结构如图:
Linux scp 设置nohup后台运行
Linux scp 设置nohup后台运行 1.正常执行scp命令 2.输入ctrl + z 暂停任务 3.bg将其放入后台 4.disown -h 将这个作业忽略HUP信号 5.测试会话中断,任务继 ...
Android 获取meta-data中的数据
在 Android 的 Mainfest 清单文件中,Application,Activity,Recriver,Service 的节点中都有这个的存在.很多时候我们可以通过 meta-data 来配 ...
BootStrap_02之全局样式及组件
1.BootStrap指定的四种屏幕尺寸: ①超大PC屏幕--lg(large):w>=1200px: ②中等PC屏幕--md(medium):1200px>w>=992px: ③P ...
Partition：Partiton Scheme是否指定Next Used？
在SQL Server中,为Partition Scheme多次指定Next Used,不会出错,最后一次指定的FileGroup是Partition Scheme的Next Used,建议,在执行P ...
Unity 序列化
Script Serialization http://docs.unity3d.com/Manual/script-Serialization.html 自定义序列化及例子: http://docs ...
【初学python】使用python连接mysql数据查询结果并显示
因为测试工作经常需要与后台数据库进行数据比较和统计,所以采用python编写连接数据库脚本方便测试,提高工作效率,脚本如下(python连接mysql需要引入第三方库MySQLdb,百度下载安装) # ...