业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是真对几行内容完全一致的情况下才可以.现在我们要进行去重的情况是根据uid进行去重. 也就是说可能存在这种情况: 1234 老师 唱歌 1234 老师 跳舞 对于hive表格中的这两行数据我们只想要保留其中的一行. 针对这种情况,我们做的大致思路就是,取两个表格数据的时候同时人为加上一个flag,然后…
业务场景大概是这样的,这里由两个hive表格,tableA 和 tableB, 格式内容都是这样的: uid cate1 cate2 在hive QL中,我们知道union有着自动去重的功能,但是那是真对几行内容完全一致的情况下才可以.现在我们要进行去重的情况是根据uid进行去重. 也就是说可能存在这种情况: 1234 老师 唱歌 1234 老师 跳舞 对于hive表格中的这两行数据我们只想要保留其中的一行. 针对这种情况,我们做的大致思路就是,取两个表格数据的时候同时人为加上一个flag,然后…
Day40   login2(SKCTF) http://123.206.31.85:49165/ SKCTF{xxxxxxxxxxxxxxxxxxxxx} hint:union,命令执行  …
hive 求两个集合的差集 业务场景是这样的,这里由两个hive表格A和B A的形式大概是这样的:uid B的形式大概是这样的:uid 我想要得到存在A中但是不存在B中的uid 具体代码如下 select a.uid from (select uid from tmp_zidali_500wan_fullinfo_new)a left outer join (select uid from temp_zidali_uid_num_maxvalue_rate)b on a.uid=b.uid wh…
今天的业务场景大概是这样的,我想把hive表格下载到本地文件系统,然后把这个文件传送到另一个服务器上. 但是这个业务场景一个核心问题就是说我本地机器内存有限,hive表格大概是70G,我是不可能全部下载到本地的.这个时候我想到的一个方法就是依靠分区实现这个目的. 首先这个hive表格的内容大概是这样的-temp_zida_uids_bowen_content_new_zida: uid,mid,content,date 是没有分区信息. 我首先要做的就是将这个表格改为具有分区.这种情况我们使用的…
Hbase总结(一)-hbase命令 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下: 名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count  '表名称' 删除记录 delete  '表名' ,'行名称' , '列名称' 删除一张表 先要屏蔽该表,才能对…
前言 本文主要是记录下工作中可能用到的一些linux指令,当作字典查用 Crontab 基本命令 # 安装 yum -y install vixie-cron crontabs#查看状态 service crond status#启动 service crond start#关闭 service crond stop#重启 service crond restart crontab [-u user] file crontab [-u user] [ -e | -l | -r ] -e 编辑 …
一. Git 常用命令速查 git branch 查看本地所有分支git status 查看当前状态 git commit 提交 git branch -a 查看所有的分支git branch -r 查看远程所有分支git commit -am "init" 提交并且加注释 git remote add origin git@192.168.1.119:ndshowgit push origin master 将文件给推到服务器上 git remote show origin 显示远程…
1.编程时无法加载hive包,需要在编译好的spark(用spark-shell启动,用spark-sql能够直接访问hive表)的lib目录下,考出assembly包,为其创建一个maven的repository,然后添加到dependency里面.最笨的创建repository的办法就是直接创建相应路径,然后把spark-core里面的.pom修改一下target里面的名称,直接copy. 2.用yarn-cluster提交时,遇到:spark sql java.lang.RuntimeEx…
转自:http://www.jb51.net/article/55442.htm 一. Git 常用命令速查 git branch 查看本地所有分支git status 查看当前状态 git commit 提交 git branch -a 查看所有的分支git branch -r 查看远程所有分支git commit -am "init" 提交并且加注释 git remote add origin git@192.168.1.119:ndshowgit push origin mast…