将hive查询结果存入mysql

2024-09-05

Hive 的查询结果直接导入到 MySQL 中的方法

步骤一: hive> add jar /setup/hive/lib/mysql-connector-java-5.1.25-bin.jar; hive> add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.jar; 步骤二: hive> CREATE TEMPORARY FUNCTION dboutput AS 'org.apache.Hadoop.hive.contrib.genericudf.example.GenericUD

安装Hive(独立模式使用mysql连接)

安装Hive(独立模式使用mysql连接) 1.默认安装了java+hadoop 2.下载对应hadoop版本的安装包 3.解压安装包 tar zxvf apache-hive-1.2.1-bin.tar.gz 4.安装mysql yum -y install mysql-server mysql mysqldev //需要以root身份运行另外可能需要配置yum源 mysql常用命令: service mysqld start/stop chkconfig mysqld on //加入开机

HIve体系结构，hive的安装和mysql的安装，以及hive的一些简单使用

Hive体系结构: 是建立在hadoop之上的数据仓库基础架构. 和数据库相似,只不过数据库侧重于一些事务性的一些操作,比如修改,删除,查询,在数据库这块发生的比较多.数据仓库主要侧重于查询.对于相同的数据量在数据库中查询就比较慢一些,在数据仓库中查询的效率就比较快. 数据仓库是面向于查询的,并且处理的数据量要远远高于数据库处理的数据量. 传统的数据仓库产品,依然有数据存储的瓶颈,那么在这个瓶颈下查询的速度慢了,那么就不适用了,我们的hadoop是处理海量数据的,所以我们可以在上面建立数据仓库.

JSON文件存入MySQL数据库

目标:将不同格式的JSON文件存入MySQL数据库涉及的点有: 1. java处理JSON对象,直接见源码. 2. java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x99\x8F\xE5\x8D…’ for column ‘text’ at row 1报错问题,报错原因:因为我没有对插入文本做任何处理,文本内有不同字节的utf8字符,我的处理方式就是过滤后再插入,因为特殊的字符其实也没什么用. public static Str

基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL

为了学习机器学习深度学习和文本挖掘方面的知识,需要获取一定的数据,新浪微博的大量数据可以作为此次研究历程的对象一.环境准备 python 2.7 scrapy框架的部署(可以查看上一篇博客的简要操作,传送门:点击打开链接) mysql的部署(需要的资源百度网盘链接:点击打开链接) heidiSQL数据库可视化本人的系统环境是 win 64位的所以以上环境都是需要兼容64位的二.scrapy组件和数据流介绍 1.Scrapy architecture 组件Scrapy E

python读取日志，存入mysql

1.从 http://www.almhuette-raith.at/apache-log/access.log 下载 1万条日志记录,保存为一个文件,读取文件并解析日志,从日志中提取ip, time_local, http_method, url, http_status, body_bytes_sent , http_referer, ua字段,以制表符分割.在mysql中创建表,将刚才解析后的结果存入mysql表中. 2.在mysql中,使用sql查询出现次数最多的ip,以及该ip的访问次数

hive查询ncdc天气数据

使用hive查询ncdc天气数据在hive中将ncdc天气数据导入,然后执行查询shell,可以让hive自动生成mapredjob,快速去的想要的数据结果. 1. 在hive中创建ncdc表,这个表用来存放ncdc的数据 create table ncdc ( year string, month string, data string, time string, air string, a string, b string, c string, d string, e string, f

tensorflow利用预训练模型进行目标检测（三）：将检测结果存入mysql数据库

mysql版本:5.7 : 数据库:rdshare:表captain_america3_sd用来记录某帧是否被检测.表captain_america3_d用来记录检测到的数据. python模块,包部分内容参考http://www.runoob.com/python/python-modules.html https://www.cnblogs.com/ningskyer/articles/6025964.html 一.连接数据库参考: # 将视频插入数据库 def video_insert

hive查询不加分区的一个异常

今天下午有同事反馈她提交了了一个SQL后,hive 查询就停止响应了. 我看了下,发现hiveserver确实hug住了.听过查看日志,发现了一个牛逼的SQL, 这个SQL很简单: select a.column1, b.column2 from a left join b on a.id = b.id 这两张表都是很大的表,保存了好多年的数据,表b按照日期和类目进行了分区. 因为没有加限制,所以HiveMetaStore在获取分区的时候,会从mysql中获取这个表所有的分区信息,SQL如下:

一条查询语句在MySQL中是如何执行的？

前言我们在学习一种技术的时候,首先要鸟瞰其全貌,千万不要一开始就陷入到细节中去,这样有助于我们站在高维度其理解问题 —— 丁奇. 学习MySQL也是一样,所以我们可以从一条查询语句的执行开始看起. ; 通常情况下,我们在使用MySQL的时候,只是从客户端输入一行指令,然后获取一个返回结果.但是对于一个开发人员来说,只知道这些是远远不够的,我们还需要知道这句指令背后的执行流程,便于排查问题. MySQL逻辑架构这里还是引用丁奇老师的MySQL系统结构图: mysql的逻辑架构图 MySQL

hive查询语句入门（hive DDL）

hive DDL 启动hadoop /apps/hadoop/sbin/start-all.sh 开启MySQL库,用于存放hive的元数据 sudo service mysql start 启动hive hive 在/data/hive3下下载数据库数据 mkdir /data/hive3 cd data/hive3 wget http://192.168.1.100:60000/allfiles/hive3/buyer_log wget http://192.168.1.100:60000/

用Python获取沪深两市上市公司股票信息，提取创近10天股价新高的、停牌的、复牌不超过一天或者新发行的股票，并存入mysql数据库

#该脚本可以提取沪深两市上市公司股票信息,并按以下信息分类:(1)当天股价创近10个交易日新高的股票:(2)停牌的股票:(3)复牌不超过一个交易日或者新发行的股票 #将分类后的股票及其信息(股价新高.当前状态等)存入mysql数据库 from time import * import pandas as pd import tushare as ts from datetime import date import datetime import MySQLdb import sys reloa

开启Mysql慢查询来优化mysql

开启Mysql慢查询来优化mysql 优化sql语句是优化数据库的一个很重要的方面,那么怎么发现那些耗时耗资源的sql语句呢,开启Mysql慢查询! 1.查看是否开启慢查询,默认情况下是关闭的.你的mysql最好在5.1版本以上 mysql> show variables like "%slow%"; +---------------------+--------------------------------------------------------- ---------

将主机IDS OSSEC日志文件存入MYSQL的方法

将主机IDS OSSEC日志文件存入MYSQL的方法 http://www.freebuf.com/articles/system/6139.html http://ossec-docs.readthedocs.org/en/latest/manual/output/syslog-output.html https://github.com/magenx/Logstash http://drops.wooyun.org/tips/5300 ----------------------------

使用shell+awk完成Hive查询结果格式化输出

好久不写,一方面是工作原因,有些东西没发直接发,另外的也是习惯给丢了,内因所致.今天是个好日子,走起! btw,实际上这种格式化输出应该不只限于某一种需求,差不多是通用的. 需求: --基本的:当前Hive查询结果存在数据与表头无法对齐的情况,不便于监控人员直接查看,或者导出到excel中,需要提供一个脚本,将查询结果处理下,便于后续的查看或者操作. --额外的:A.每次查询出来的结果字段数.字段长度不固定:B.每个数据文件中可能包含不只一套查询结果,即存在多个schema. 想法: 对于基本需

sqoop从hive导入数据到mysql时出现主键冲突

今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况,搞了好久才解决.使用的环境是HUE中的Oozie的workflow任何调用sqoop命令,该死的oozie的日志和异常提示功能太辣鸡了,最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导致数据同步失败. (1)众所周知hive表是没有主键与索引的,但是mysql的表一般在创建时就会指定主键,所以在把hive表中的数据导入mysql表的时候通常会使用原hive表中的多个字段构成联合主键

查询和修改mysql最大连接数的方法

查询和修改mysql最大连接数的方法切换到mysql库里查询show variables like 'max_connections';show global status like 'Max_used_connections'; Max_used_connections / max_connections * 100% ≍ x,如果发现比例在10%以下,MySQL服务器连接上线就设置得过高了,不需要修改了. ------------------MYSQL数据库安装完成后,默认最大连接数是100

使用sqlalchemy用orm方式写pipeline将scrapy item快速存入 MySQL

传统的使用scrapy爬下来的数据存入mysql,用的是在pipeline里用pymysql存入数据库, 这种方法需要写sql语句,如果item字段数量非常多的情况下,编写起来会造成很大的麻烦. 我使用的python 库:sqlalchemy来编写,用orm的方式,使代码变得非常简洁,按照数据库表的字段,编写好自己的类,在settings里面设置好pipeline即可. # -*- coding: utf-8 -*- # author:lihansen from sqlalchemy imp

hive查询遇到java.io.EOFException: Unexpected end of input stream错误

hive查询遇到java.io.EOFException: Unexpected end of input stream错误原因基本上有两个: 空文件不完整的文件解决办法: 删除对应文件- 参考看这里

web页面的时间传入servlet如何转换为可以存入MySQL的Date类型

在web页面中当使用如下语句: <input type="date" name="startTime"/> 提交到servlet中在servlet页面中: String startTime = request.getParameter("startTime"); 获取到的是字符串类型的时间日期,如下: 2019-06-30 因此需要将字符串类型的时间日期2019-06-03转换为MySQL可以识别的类型存入,如下: Date sta

Hive元数据配置到MySql

1 驱动拷贝 1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包 [root@hadoop102 mysql-libs]# tar -zxvf mysql-connector-java-5.1.27.tar.gz 2．拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connector-java-5.1.27-bin.jar到/op

将hive查询结果存入mysql

热门专题