[VBA]去重汇总-2】的更多相关文章

代码来源Excelhome,链接:http://club.excelhome.net/thread-1360829-1-1.html 存着,以后借鉴着用^-^ Sub 去重汇总() Dim arr, brrDim dDim i As Integer, j As Integer, n As Integer, m As IntegerDim lastrow As IntegerDim str As Stringlastrow = Worksheets(1).Range("b65536").…
问题描述:汇总多个工作表的指定字段到sheet1里面,并去除重复的字段内容. Sub 去重汇总() Dim sht As Worksheet, j As Integer, x As Integer Set d = CreateObject("scripting.dictionary") For Each sht In Worksheets If sht.Name <> ActiveSheet.Name Then j = sht.Range("a65536"…
1. 简单的去重方法,利用数组的indexOf下标属性来查询 /* * 新建一新数组,遍历传入数组,值不在新数组就push进该新数组中 * IE8以下不支持数组的indexOf方法 * */ function newArr(nArr) { var arr = []; for(var i = 0; i < nArr.length; i++){ if(arr.indexOf(nArr[i]) === -1){ arr.push(nArr[i]); } } return arr; } 2.  利用双层…
上周基础班结束了数组的学习内容,这几天有时间整理了下几种比较常用的数组去重的方法供大家查阅!!!!! 话不多说,直接贴代码吧~~~~~~~ 欢迎大家指正,共同学习,一同进步!!! (php开发,web前端,ui设计,vr开发专业培训机构,v客学院版权所有,转载请注明出路,谢谢!!!)…
批量将CSV导入access alt+f11 打开access的vbe环境 Sub test() Dim SQL As String Dim MyPath As String Dim MyPathDb As String Dim MyFile As String MyPath = "D:\temp\*.CSV" MyPathDb = "D:\temp" MyFile = Dir(MyPath) Do SQL = "insert into 110 selec…
功能:遍历用户指定的文件夹,把文件夹中所有的excel文件的第一个表格的数据复制到本excel文件中.注意,每个excel文件中有效数据行的判断标准是A列的最后一个有数据的单元格的行号,比如A列到第10行结束,B列到第11行结束,那么程序将不会复制第11行. 说明:鄙人也不是大闲人,也就没有去迎合各种需求,只是根据自己的需要去写的,拿出来分享一下. 闲话少说,直接上代码,复制到宏命令代码里面,执行combine宏即可实现. Sub combine() Dim folder As String D…
使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑.但是一个”好”的Hive程序需要对Hive运行机制有深入的了解,像理解mapreduce作业一样理解Hive QL才能写出正确.高效的HQL.长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的.map reduce作业初始化的时间是比较长的. 3.对sum,cou…
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的.map reduce作业初始化的时间是比较长的. 3.对sum,count来说,不存在数据倾斜问题. 4.对count(distinct )…
1.Hadoop计算框架的特点 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业效率相对比较低,比如即使有几百万的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map reduce作业初始化的时间是比较长的. sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总并优化,使数据倾斜不成问题. count(distinct),在数据量大的情况下,效率较低,如果是多count(distinct)效率更低,因为count(distinc…
一.Hive的几种数据模型 内部表 (Table 将数据保存到Hive 自己的数据仓库目录中:/usr/hive/warehouse) 外部表 (External Table 相对于内部表,数据不在自己的数据仓库中,只保存数据的元信息) 分区表 (Partition Table将数据按照设定的条件分开存储,提高查询效率,分区----->  目录) 桶表 (Bucket Table本质上也是一种分区表,类似 hash 分区   桶 ----> 文件) 视图表 (视图表是一个虚表,不存储数据,用来…
Hive中执行SQL语句时,出现类似于“Display all 469 possibilities? (y or n)”的错误,根本原因是因为SQL语句中存在tab键导致,tab键在linux系统中是有特殊含义的. 基本查询 desc formatted stu_buck;desc stu_buck; 创建部门表 create table if not exists dept( deptno int, dname string, loc int) row format delimited fie…
一.行转列的使用 1.问题 hive如何将 a       b       1a       b       2a       b       3c       d       4c       d       5c       d       6 变为: a       b       1,2,3c       d       4,5,6 2.数据 test.txt a       b       1 a       b       2 a       b       3 c       d …
collect_set(x)   列转行函数---没有重复, 组装多列的数据的结构体collect_list(x) 列转行函数---可以有重复,组装多列的数据的结构体concat_ws 拼接函数, 用于多列转成同一行字段后,间隔符 UDF(User-Defined-Function) 用户定义(普通)函数,只对单行数值产生作用: UDAF(User- Defined Aggregation Funcation)用户定义聚合函数,可对多行数据产生作用:等同与SQL中常用的SUM(),AVG(),也…
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 1) 操作接口采用类SQL语法,提供快速开发的能力(简单.容易上…
Hive优化总结 [转自:http://sznmail.iteye.com/blog/1499789] 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本.这是这一年来,项目组所有成员宝贵的经验总结.   长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不…
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解Hadoop的核心能力,是hive优化的根本.这是这一年来,项目组所有成员宝贵的经验总结.   长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的.map reduce作业初始化的时间是比较长的. 3.对sum,count来说,不存在数据倾斜问题…
一. 空字段赋值 1. 函数说明 NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value).它的功能是如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果两个参数都为NULL ,则返回NULL. 2. 案例 -- 如果员工的comm为NULL,则用-1代替 ) from emp; -- 如果员工的comm为NULL,则用领导id代替 select comm, nvl(comm,mgr) from emp; 二…
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具. 使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维. 优化时,把hive sql当做map reduce程序来读,理解hadoop的核心能力,是hive优化的根本.   长期观察hadoop处理数据的过程,有几个显著的特征: 1. 不怕数据多,就怕数据倾斜. 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的…
行转列 原始数据: 需求: 把星座和血型一样的人归类到一起.结果如下: 射手座,A 大海|凤姐 白羊座,A 孙悟空|猪八戒 白羊座,B 宋宋 实现: vi person_info.txt 孙悟空 白羊座 A 大海 射手座 A 宋宋 白羊座 B 猪八戒 白羊座 A 凤姐 射手座 A create table person_info ( name string, constellation string, blood_type string ) row format delimited fields…
Hive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的.map reduce作业初始化的时间是比较长的. 3.对sum,count来说,不存在数据倾斜问题. 4.对count(dis…
hive的启动: 1.启动hadoop2.开启 metastore 在开启 hiveserver2服务nohup hive --service metastore >> log.out 2>&1 &nohup hive --service hiveserver2 >> log.out 2>&1 &查看进程是否起起来:tandemac:bin tanzhengqiang$ jps -ml | grep Hive 数据结构 1.视频表 字段…
1.列转行 1.1 相关函数的说明: concat(string1,string,...) //连接括号内字符串,数量不限. concat_ws(separator,string1,string2,...) //连接括号内字符串,数量不限,连接符为separator. collect_set(col) //此函数只接受基本类型,主要是将字段的值进行去重汇总,产生array类型字段. 1.2 例子: 创建表:create table person_info( name string, conste…
行转列 多行转多列 数据表 row2col col1 col2 col3 a c 1 a d 2 a e 3 b c 4 b d 5 b e 6 现在要将其转化为: col1 c d e a 1 2 3 b 4 5 6 此时需要使用到max(case … when … then … else 0 end),仅限于转化的字段为数值类型且为正值的情况 创建表: create table row2col(col1 string,col2 string,col3 int) row format deli…
本文参考:黑泽君相关博客 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取.补充了部分内容. 查询函数(Hive高级) NVL(cloumn,replace_with) 如果cloumn为NULL,则NVL函数返回 replace_with 的值: 否则返回cloumn的值: 如果两个参数都为NULL,则返回NULL. hive> select nvl(a,1) from (select null as a) as aa; 1 Time taken: 0.147 seconds, Fet…
第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 本质是:将HQL转化成MapReduce程序 )Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是MapReduce 3)执行程序运行在Yarn上 1.2 Hive的优缺点 1.2.1 优点 操作接口采用类SQL语法,提供快速开发的能力(简单.容易上手). 避免…
详细文档查看:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 一. 基本查询(SELECT …FROM) 1. 全表和特定列查询 select * from emp: select empno, ename from emp; 注意: (1)SQL 语言大小写不敏感. (2)SQL 可以写在一行或者多行 (3)关键字不能被缩写也不能分行 (4)各子句一般要分行写. (5)使用缩进提高语句的可读性 列别名…
第一章.hive入门 一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. 1.2传统数据仓库面临的挑战 (1)无法满足快速增长的海量数据存储需求 (2)无法有效处理不同类型的数据 (3)计算和处理能力不足 1.3 Hive介绍 Hbase支持快速的交互式的大数据应用 pig,Hive支持批量式的数据分析业务 1.4 Hive与传统数据库的对比 1.5 Hive在企业中的…
一.Hive的简介: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能. 优点: ) 操作接口采用类SQL语法,提供快速开发的能力(简单.容易上手). ) 避免了去写MapReduce,减少开发人员的学习成本. ) Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合. ) Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高. ) Hive支持用户自定义函数,用户可以根据自己的需求来实现…
数仓特征:面向主题,集成,非易失的,时变.数据仓库是在数据库已经大量存在的情况下,为了进一步挖掘数据资源.为了决策需要而产生的,不是所谓的"大型数据库".   数据库与数据仓库的区别(OLTP 与 OLAP 的区别) 操作型处理,叫联机事务处理 OLTP(On-Line Transaction Processing,),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询.修改.用户较为关心操作的响应时间.数据的安全性.完整性和并发支持的用户数等问…
date: 2018-11-16 19:03:08 updated: 2018-11-16 19:03:08 Hive sql函数 一.关系运算 等值比较: = select 1 from dual where 1 = 2; 等值比较:<=> a <=> b 不等值比较: <>和!= a != b || a <> b 小于比较: < a < b 小于等于比较: <= a <= b 大于比较: > a > b 大于等于比较:…