文章目录 一.创建maven工程,导包 二.开发代码 一.创建maven工程,导包 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> </properties> <dependencies> <dependency> <groupId>org.scala-lang</g…
SparkSql整合Hive 需要Hive的元数据,hive的元数据存储在Mysql里,sparkSql替换了yarn,不需要启动yarn,需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) 我这里有3台节点node01,node02,node03 ps:DATEDIFF(A,B)做差集 node01 先copy hive的hive-site.xml到spark 的config cp hive-site.…
spark SQL经常需要访问Hive metastore,Spark SQL可以通过Hive metastore获取Hive表的元数据.从Spark 1.4.0开始,Spark SQL只需简单的配置,就支持各版本Hive metastore的访问.注意,涉及到metastore时Spar SQL忽略了Hive的版本.Spark SQL内部将Hive反编译至Hive 1.2.1版本,Spark SQL的内部操作(serdes, UDFs, UDAFs, etc)都调用Hive 1.2.1版本的c…
查找元素索引位置 基本查找 根据数组元素找出该元素第一次在数组中出现的索引 public class TestArray1 { public static void main(String[] args) { //定义一个数组 int[] arr={10,20,70,10,90,100,1,2}; //根据元素查找出该元素在数组中第一次出现的索引 int index=getIndexByEle(arr,2); System.out.println("该元素第一次在数组中出现的索引是:"…
整合: 1,需要将hive-site.xml文件拷贝到Spark的conf目录下,这样就可以通过这个配置文件找到Hive的元数据以及数据存放位置. 2,如果Hive的元数据存放在Mysql中,我们还需要准备好Mysql相关驱动,比如:mysql-connector-java-5.1.35.jar. 测试: 先启动hadoop集群,在启动spark集群,确保启动成功之后执行命令: spark-sql --master spark://bigdata-01:7077 --executor-memor…
spark on yarn模式下配置spark-sql访问hive元数据 目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive的效率. 软件环境: hadoop2.7.3 apache-hive-2.1.1-bin spark-2.1.0-bin-hadoop2.7 jd1.8 hadoop是伪分布式安装的,1个节点,2core,4G内存. hive是远程模式. spark的下载地址: http://spark.apach…
http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51448188 hive on spark VS SparkSQL VS hive on tez 前一篇已经弄好了SparkSQL,SparkSQL也有thriftserver服务,这里说说为啥还选择搞hive-on-spark: SparkSQL-Thriftserver所有结果全部内存,快是快,但…
相机拍的图,电脑上画的图,word里的文字,电脑屏幕,手机屏幕,相机屏幕显示大小一切的一切都搞明白了! 先说图片X×dpi=点数dotX是图片实际尺寸,简单点,我们只算图片的高吧,比如说拍了张图片144×144 72dpi,那么它的实际高就是144÷72=2吋dpi是每吋点数,在相机拍出一张图片之后它的dpi就确定了(右键属性摘要里就能看),比如最常见的72dpi,还说上面提到的144×144 72dpi的图片,72dpi的意思是说如果也按照72dpi打印图片的话打印出来还是高2吋(X)的可是我…
转自: 彻底搞明白find命令的-mtime参数的含义-goolen-ITPUB博客http://blog.itpub.net/23249684/viewspace-1156932/ 以前一直没有弄明白find的 -mtime参数的真正含义刚好今天跟一个同学聊起这个事我在写shell脚本的时候,定时删除一些文件的时候,也经常用得到-mtime这个参数,所以打算好好看看,把它弄明白一下 man find里的解释:-mtime nFile’s data was last modified n*24…
一.前述 Spark on Hive: Hive只作为储存角色,Spark负责sql解析优化,执行. 二.具体配置 1.在Spark客户端配置Hive On Spark 在Spark客户端安装包下spark-1.6.0/conf中创建文件hive-site.xml: 配置hive的metastore路径 <configuration> <property> <name>hive.metastore.uris</name> <value>thrif…