最近的工作是利用Hive做数据仓库的ETL转换,大致方式是将ETL转换逻辑写在一个hsql文件中,脚本当中都是简单的SQL语句,不包含判断.循环等存储过程中才有的写法,仅仅支持一些简单的变量替换,比如当前账期等.然后通过一个通用的shell脚本来执行hsql文件.该脚本是主要是调用了hive -f <hsql文件>来执行hsql文件中的SQL语句的,当然hive命令会通过--hivevar选项定义变量将当前账期等数值传进去供SQL使用. 简单说下环境信息,目前使用的大数据平台版本是HDP 3.…
摘要:有没有更简单的办法,可以直接将SQL运行在大数据平台? 本文分享自华为云社区<Hive执行原理>,作者: JavaEdge . MapReduce简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapReduce开发大数据程序.但是对于经常需要进行大数据计算的人,比如从事研究商业智能(BI)的数据分析师来说,他们通常使用SQL进行大数据分析和统计,MapReduce编程还是有一定的门槛.而且如果每次统计和分析都开发相应的MapReduce程序,成本也确实…
hive -- 协同过滤sql语句 数据: *.3g.qq.com|腾讯应用宝|应用商店 *.91rb.com|91手机助手|应用商店 *.app.qq.com|腾讯应用宝|应用商店 *.haina.com|腾讯应用宝|应用商店 *.myapp.com|腾讯应用宝|应用商店 *.sj.91.com|91手机助手|应用商店 0img.imgo.tv|芒果TV|手机视频 1.234.61.192|爱奇艺视频|手机视频 1.234.61.215|爱奇艺视频|手机视频 10.0.0.172|优酷视频|手…
事务控制语句 在MySQL命令行的默认设置下,事务都是自动提交的,即执行SQL语句后就会马上执行COMMIT操作.因此开始一个事务,必须使用BEGIN.START TRANSACTION,或者执行SET AUTOCOMMIT=0,以禁用当前会话的自动提交.这和Microsoft SQL Server数据库的方式一致,需要显式地开始一个事务.而Oracle数据库不需要专门的语句来开始事务,事务会在修改数据的第一条语句处隐式地开始. 在具体介绍其含义之前,先来看看我们可以使用哪些事务控制语句: ST…
Hive.Spark SQL.Impala比较        Hive.Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点.前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能.架构.使用场景几个角度比较这三款产品的异同,最后附上分别由cloudera公司和SAS公司出示的关于这三款产品的性能对比报告.1. Spark SQL简介        Spark SQL是Spark的一个处理结构化数据的程序模块.与其…
此处的big sql指的是单条sql的size 超过innodb_log_file_size,通过构造这样的测试,来分析mysql的提交过程. 做这个分析的起因是我不是很明白,既然mysql需要将被执行的数据首先写入到redo log file,如果sql 的size 超过innodb_log_file_size的设定,会发生什么样的行为,mysql是否会拒绝这样的big sql? 首先将答案抛出:mysql能够吃下这样的大SQL,并顺利执行. 1 sql 提交时,mysql服务器首先通过参数m…
目录 两者的各种叫法 相关子查询MySQL解释 相关子查询Wikipedia解释 相关子查询执行步骤拆解 相关子查询和嵌套查询的区别 参考资料 两者的各种叫法 相关子查询叫做:Correlated Subqueries 非相关子查询也叫普通子查询或嵌套子查询:Nested SubQueries 相关子查询MySQL解释 相关子查询是一个子查询中引用了某张表且这张表也在子查询外部被使用到.比如: SELECT * FROM t1 WHERE column1 IN ( SELECT column1…
原文:LINQ To SQL在N层应用程序中的CUD操作.批量删除.批量更新 0. 说明 Linq to Sql,以下简称L2S.    以下文中所指的两层和三层结构,分别如下图所示: 准确的说,这里的分层并不是特别明确:(1) 生成的DataContext(Linq t0 SQL Runtime)和Entity是放在一个文件中的,物理上不能切割开来:上图只是展示逻辑上的结构.(2) 拿上图右边的三层结构来说,鉴于第(1)点,UI层就可以跨越BusinessLogic层,直接访问L2S层,这可能…
hive执行sql提交到yarn上的任务名字是被处理过的,通常只能显示sql的前边一段和最后几个字符,这样就会带来一些问题: 1)相近时间提交了几个相近的sql,相互之间无法区分: 2)一个任务有问题,想看下这个任务具体执行的是什么?是谁的任务? 通过以下方法可以查看: 1)如果任务正在running,进入yarn的ApplicationMaster页面,进入job,点击configuration,右上角过滤框输入“hive.query.string”即可,如图: 2)如果任务已经结束,进入hi…
1.Hive出现背景 Hive是Facebook开发并贡献给Hadoop开源社区的.它是建立在Hadoop体系架构上的一层SQL抽象,使得数据相关人员使用他们最为熟悉的SQL语言就可以进行海量数据的处理.分析和统计工作, 而不是必须掌握Java等编程语言和具备开发MapReduce程序的能力.Hive SQL实际上先被SQL解析器进行解析然后被Hive框架解析成一个MapReduce可执行计划,并按照该计划生成MapReduce任务后交给Hadoop集群处理. 由于Hive SQL是翻译为Map…