问题:我用 sqoop 把 Mysql 中的数据导入到 hive,使用了--delete-target-dir --hive-import --hive-overwrite 等参数,执行了两次. mysql 中只有 20 条记录.在 hive shell 中,查询导入到的表的记录,得到结果 20 条,是对的. 然而在 spark-shell 中,使用 spark sql 得到的结果却是 40 条. 又执行了一次 sqoop 的导入,hive 中仍然查询到 20 条,而 spark shell 中…
http://blog.csdn.net/smahorse/article/details/8156483 --SQL Server 查询表的记录数 --one: 使用系统表. SELECT object_name (i.id) TableName, rows as RowCnt FROM sysindexes i INNER JOIN sysObjects o ON (o.id = i.id AND o.xType = 'U ') WHERE indid < 2 ORDER BY TableN…
--SQL Server 查询表的记录数 --one: 使用系统表. SELECT object_name (i.id) TableName, rows as RowCnt FROM sysindexes i INNER JOIN sysObjects o ON (o.id = i.id AND o.xType = 'U ') ORDER BY TableName --****************** --two: 使用未公开的过程 "sp_MSforeachtable " ),…
1,JSON数据集 Spark SQL可以自动推断JSON数据集的模式,并将其作为一个Dataset[Row].这个转换可以SparkSession.read.json()在一个Dataset[String]或者一个JSON文件上完成. 请注意,作为json文件提供的文件不是典型的JSON文件.每行必须包含一个单独的,独立的有效JSON对象.有关更多信息,请参阅 JSON行文本格式,也称为换行符分隔的JSON. 对于常规的多行JSON文件,请将该multiLine选项设置为true.例如下面的例…
-- 所有表的记录数 SELECT a.name, b.rowsFROM sysobjects AS a INNER JOIN sysindexes AS b ON a.id = b.idWHERE (a.type = 'u') AND (b.indid IN (0, 1))ORDER BY b.rows DESC -- 查找所有表的记录数以及空间占用情况 selectobject_name(id) tablename,8*reserved/1024 reserved,rtrim(8*dpage…
select count(1) ,$PARTITION.WorkDatePFN(workdate) from imgfile group by $PARTITION.WorkDatePFN(workdate) 查看分区记录数 select workdate ,$PARTITION.WorkDatePFN(workdate) from imgfile 查看记录所在分区   dbcc shrinkfile(N'yxfile001',1) 收缩分区文件yxfile001为1M     select *…
select a.name as 表名,max(b.rows) as 记录条数 from sysobjects a ,sysindexes b where a.id=b.id and a.xtype='u' group by a.name order by max(b.rows) desc 当如果使用子查询对上面语句做求和方法时会报下面错误: 除非另外还指定了 TOP 或 FOR XML,否则,ORDER BY 子句在视图.内联函数.派生表.子查询和公用表表达式中无效. 只要我们在嵌套子查询视图…
select distinct o.name,i.rows from sysobjects o,sysindexes  i where o.id=i.id and o.Xtype= 'U' and i.indid <2 Order By i.rows Desc…
SELECT SCHEMA_NAME(t.schema_id) AS [schema] ,t.name AS tableName ,i.rows AS [rowCount] FROM sys.tables AS t , sysindexes AS i order by t.name asc…
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门 起始点: SparkSession 创建 DataFrames 无类型的Dataset操作 (aka DataFrame 操作) Running SQL Queries Programmatically 全局临时视图 创建Datasets RDD的互操作性 使用反射推断Schema 以编程的方式指定Schema Aggregatio…