hive升级遇到的几个小问题】的更多相关文章

1.hiveserver2正常启动,但是beeline连不上服务. 我的服务是开在本机的,但是用主机名和127好像都不能访问服务了 jdbc:hive2://172.19.1.11:10000> !connect jdbc:127.0.0.1:10000 scan complete in 0ms scan complete in 1100ms No known driver to handle "jdbc:127.0.0.1:10000" 把127或者主机名改成真实的IP就可以了…
Hive 利用 on tez 引擎 合并小文件 标签(空格分隔): Hive \[f(N) + \sum_{i=2}^N f(N-i+1)*X_i\] SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.partitions=3000; set hive.exec.max.dynamic.partitions.pernode=…
4.大表join小表优化 和join相关的优化主要分为mapjoin可以解决的优化(即大表join小表)和mapjoin无法解决的优化(即大表join大表),前者相对容易解决,后者较难,比较麻烦. 首先介绍大表join小表优化.以销售明细表为例来说明大表join小表的场景. 假如供应商进行评级,比如(五星.四星.三星.二星.一星),此时因为人员希望能够分析各供应商星级的每天销售情况及其占比. 开发人员一般会写出如下SQL: select  seller_star, count(order_id)…
1.下载hive-1.2.1安装包 http://archive.apache.org/dist/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz 2.将安装包传到集群所有节点上 3.所有节点root用户下 cd /opt/cloudera/parcels/CDH/lib/hive mkdir lib121 4.所有节点解压 apache-hive-1.2.1-bin.tar.gz 5.所有节点将解压出来hive/lib下所有文件拷贝到lib121 6.C…
记录今天遇到的一个小问题, 写一个app访问接口涉及到通过存储过程反馈多个结果集,但是反回多个结果集的存储过程,调用之后只能反回一个了,而且奇怪的是,即使直接在mysql上同时执行两条查询语句,第一条查询的数据也不会出现,只会出现第二条数据,  开始找原因了-->,最开始怀疑是centos系统问题(接口操作的数据库都是直接连接的服务器,本地没有创建),因为这代码都是我以前写好了,在windows服务器上跑过的,是没问题的.网上找找,没发现有人这么样说.....    然后尝试下直接操作本地数据库…
1.路径布局大致就是这样,完全模拟小程序,主要是靠require来做到的 2.首先index.html是这样的(配置js和css没有用requireJs主要是方便而且载入什么组件比较清晰) <!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8"> <meta name="viewport" content="init…
 正文开始 1.首先打开终端输入以下内容下载mysql5.1的repo源(安装5.7从第二步执行) wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm  2.下载好rpm包后安装这个包 rpm -ivh mysql-community-release-el7-5.noarch.rpm  (5.1) rpm -Uvh http://repo.mysql.com/mysql-community-release-el6…
hive join 后面必须=(0.13版本后支持,不支持like,<>),on后面如需加条件语句必须放到where中不然会产生错误结果 (可以一对多,一对一,不可以多对多‘会出现数据翻倍’)…
前几天在自己的阿里云服务器安装好Python3.5.2之后,顺便删除了原有的/usr/bin/python(因为我知道系统自带的是Python2,而且也会有/usr/bin/python2这个文件,所以直接大胆的删掉了),并且为python3做了软连接,让/usr/bin/python变成的Python3(其实每次用python3运行也可以但我又强迫症必须把常用的改成python). 但是今天运行yum的时候竟然报错了,我立马想到了之前遇到过的情况. 因为yum是用python2写的,yum的默…
当Hive的输入由非常多个小文件组成时.假设不涉及文件合并的话.那么每一个小文件都会启动一个map task. 假设文件过小.以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费.甚至发生OutOfMemoryError错误. 因此,当我们启动一个任务时,假设发现输入数据量小但任务数量多时.须要注意在Map前端进行输入小文件合并操作. 同理.向一个表写数据时,注意观察reduce数量.注意输出文件大小. 1. Map输入小文件合并 #每一个Map处理的最大输入文件大小(256MB…