步骤一: hive> add jar /setup/hive/lib/mysql-connector-java-5.1.25-bin.jar; hive> add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.jar; 步骤二: hive> CREATE TEMPORARY FUNCTION dboutput AS 'org.apache.Hadoop.hive.contrib.genericudf.example.GenericUD
使用hive查询ncdc天气数据 在hive中将ncdc天气数据导入,然后执行查询shell,可以让hive自动生成mapredjob,快速去的想要的数据结果. 1. 在hive中创建ncdc表,这个表用来存放ncdc的数据 create table ncdc ( year string, month string, data string, time string, air string, a string, b string, c string, d string, e string, f
今天下午有同事反馈她提交了了一个SQL后,hive 查询就停止响应了. 我看了下,发现hiveserver确实hug住了.听过查看日志,发现了一个牛逼的SQL, 这个SQL很简单: select a.column1, b.column2 from a left join b on a.id = b.id 这两张表都是很大的表,保存了好多年的数据,表b按照日期和类目进行了分区. 因为没有加限制,所以HiveMetaStore在获取分区的时候,会从mysql中获取这个表所有的分区信息,SQL如下:
#该脚本可以提取沪深两市上市公司股票信息,并按以下信息分类:(1)当天股价创近10个交易日新高的股票:(2)停牌的股票:(3)复牌不超过一个交易日或者新发行的股票 #将分类后的股票及其信息(股价新高.当前状态等)存入mysql数据库 from time import * import pandas as pd import tushare as ts from datetime import date import datetime import MySQLdb import sys reloa
开启Mysql慢查询来优化mysql 优化sql语句是优化数据库的一个很重要的方面,那么怎么发现那些耗时耗资源的sql语句呢,开启Mysql慢查询! 1.查看是否开启慢查询,默认情况下是关闭的.你的mysql最好在5.1版本以上 mysql> show variables like "%slow%"; +---------------------+--------------------------------------------------------- ---------
查询和修改mysql最大连接数的方法切换到mysql库里查询show variables like 'max_connections';show global status like 'Max_used_connections'; Max_used_connections / max_connections * 100% ≍ x,如果发现比例在10%以下,MySQL服务器连接上线就设置得过高了,不需要修改了. ------------------MYSQL数据库安装完成后,默认最大连接数是100