1 引入Spark引擎 Kylin v2开始引入了Spark引擎,可以在构建Cube步骤中替换MapReduce. 关于配置spark引擎的文档,下面给出官方链接以便查阅:http://kylin.apache.org/docs20/tutorial/cube_spark.html 以下是配置步骤:1.在kylin的安装目录下,新建目录hadoop_conf mkdir  $KYLIN_HOME/hadoop_conf 2.将core-site.xml,hdfs-site.xml,hbase-s…
使用spark引擎查询hive有以下几种方式:1>使用spark-sql(spark sql cli)2>使用spark-thrift提交查询sql3>使用hive on spark(即hive本身设置执行引擎为spark)针对第一种情况:1>ambari 已经支持,不需要特殊配置:2>cdh不支持spark sql cli,原因是cdh自带的spark,spark-sql和spark-R是阉割版本的,如果需要使用spark sql cli,需要下载原生的编译好的spark包…
Serverless 应用引擎(Serverless App Engine,简称 SAE)是面向应用的 Serverless PaaS 平台,能够帮助 PaaS 层用户免运维 IaaS,按需使用,按量计费,做到低门槛微服务应用上云.相对于其他 Serverless 产品,它向上抽象了应用的概念,并提供了一整套微服务解决方案.支持 Spring Cloud.Dubbo.HSF 等流行的开发框架,真正实现了 Serverless 架构和微服务架构的完美结合.除了微服务应用外,后续还会支持更多其它类型…
​引言 随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多. 腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务,支持 Spark.Hbase.Presto.Flink.Druid 等大数据框架. 近期,在支持一位 EMR 客户时,遇到典型的存储计算分离应用场景.客户使…
Innodb与Myisam引擎的区别与应用场景 http://www.cnblogs.com/changna1314/p/6878900.html https://www.cnblogs.com/hoxis/p/10117674.html 区别: (1)事务处理: MyISAM是非事务安全型的,而InnoDB是事务安全型的(支持事务处理等高级处理): (2)锁机制不同: MyISAM是表级锁,而InnoDB是行级锁: (3)select ,update ,insert ,delete 操作: M…
UPDATED: 本文仅适用 MaltReport 2.x ,3.x 版本文档还在撰写当中,目前请参考项目中的 Samples. MaltReport 是我几年前写的开源单据.报表引擎,最近进行了较大的更新,尤其是几年来在生产项目中应用取得了非常好的效果,特别写篇介绍文字给大家分享一下. 首先先介绍几个名词: OpenDocument:国际标准文档格式,开源办公软件 OpenOffice.org/LibreOffice 的 ODT/ODS 即为 OpenDocument 格式. OfficeOp…
英文原文:https://hudi.apache.org/blog/hudi-indexing-mechanisms/ Apache Hudi使用索引来定位更删操作所在的文件组.对于Copy-On-Write表,索引能加快更删的操作,因为避免了通过连接整个数据集来决定哪些文件需要重写.对于Merge-On-Read表,这个设计,对于任意给定的基文件,能限定要与其合并的记录数量.具体地,一个给定的基文件只需要和其所包含的记录的更新合并.相比之下,没有索引的设计(比如Apache Hive ACID…
1.NB-IOT多输入多输出技术 NB-IoT可以利用多天线技术抑制信道传输衰弱,获得分集增益.空间复用增益和阵列增益,在发送端和接收端均采用多天线实现信号同时发送和接收: 因此就形成了一个并行的多空间信道,充分利用空间信道传输资源,在不增加系统带宽和天线发射总功率的条件下提供空间分集增益,在多径衰落信道中提高传输的可靠性,也即是实现信息的多输入多输出. NB-IoT的多输入多输出技术还采用了预编码或波束成型技术,可以确保一个或多个指定方向上的能量形成一个阵列增益,允许在不同方向上的多个用户同时…
摘要: spark的优势:(1)图计算,迭代计算(2)交互式查询计算 spark特点:(1)分布式并行计算框架(2)内存计算,不仅数据加载到内存,中间结果也存储内存 为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用了Spark平台来支持挖掘分析类计算.交互式实时查询计算以及允许误差范围的快速查询计算,目前腾讯大数据拥有超过200台的Spark集群,并独立维护Spark和Shark分支.Spark集群已稳定运行2年,我们积累了大量的案例和运营经验能力,另外多个业务的大数据查询与分析应用,…
云原生数据库 TDSQL-C(Cloud Native Database TDSQL-C,TDSQL-C)是腾讯云自研的新一代高性能高可用的企业级分布式云数据库.融合了传统数据库.云计算与新硬件技术的优势,100%兼容 MySQL 和 PostgreSQL,实现超百万级 QPS 的高吞吐,128TB 海量分布式智能存储,保障数据安全可靠. 自2020年12月24日起腾讯云公有云的"云数据库 CynosDB"更名为"云原生数据库 TDSQL-C". TDSQL-C 产…