一、进行迁移的原因

由于业务的发展，使用mysql进行建立索引进行搜索已经造成数据流的瓶颈卡在了数据库io，例如每次dump全表的时候，会造成压力过大，造成耗时很长，并且当前的数据量基本上已经达到了亿级别的数据量，如果希望mysql能更好的提供服务，下一步必须考虑分库分表才可以；基于这种情况下，考虑使用hbase用来进行数据的存储，因为hbase所能承受的数据量远大于mysql，并且对列的扩展也很方便

二、关系型数据库与Nosql的一些区别

（1）存储方式的区别

在类似mysql，sqlserver，oracle等关系型数据库，数据的存储是按照行进行存储的，如下图所示：

但是在hbase里面，所有的数据是基于列进行存储的，如下所示：

其中hbase的逻辑模型如下所示：

其中：com.cnn.ww对应的是rowkey，相当于mysql的主键的概念

contents，anchor：这两个对应的是列族的概念，在物理的存储上，同一个列族的数据存储在相同文件

cnnsi.com，mylook.ca：对应的是列族下面的列，在hbase中列是可以动态增加的

对应的方格数据表示的是单元数据，即对应rowkey，cf：column下面的具体的值

其中tn：表示的是时间戳，单元数据的不同版本

其中有一张存储结构如下：

（2）CRUD一些区别

CRUD是数据库的最基本也是最常用的操作，在hbase里面也有对应的命令，例如建表语句对于mysql的在此不详述，对于hbase shell的如下所示

create ‘table’，‘columnfamily’

即可以创建一个名为table，列族为columnfamily的表，其他的一些blocksize，version数据为默认

读取数据的时候，在hbase语句如：get ‘table’，'row',‘cf:column’即可得到对应的数据

更新数据的时候，在hbase中没有对应更新的概念，只是会有一个新的版本，从时间戳上可以体现出来，所用的语句为

put ‘table’，‘row’，‘cf：name’，‘value’

即可将value的值赋给对应cf列族，name的列

删除数据的区别，在mysql中删除数据只能是直接删除一行，或者将某一列置为空，在hbase里面可以直接删除某一列

（3）索引的区别

在mysql中可以建立索引，或者过滤查询，但是在hbase中，只支持按照rowkey进行查询速率最快

（4）从mysql到nosql的发展的思考

关系型数据库的历史已经很久，但是当数据量膨胀之后，例如对于mysql数据库，当数据量为上亿或者更多的时候，如果按照索引进行查询，可能效果也不是特别的明显，最后只能按照主键进行查询，或者逐渐发展为分库分表的模式，但是分库分表又给运维以及使用带来了很大的麻烦；于是这个时候，nosql数据库主键发展，nosql简称not only sql，是在数据量暴增的当前逐渐发展壮大起来，以nosql里面的hbase作为例子，支持TB以及PB的数据，并且列的扩展特别的灵活

（5）hbase为什么可以存储海量的数据呢

其实hbase可以看做是mysql分库分表后的结果，只是不同的是mysql分库分表后支持索引等，但是对于hbase仅仅支持rowkey作为主键索引，从书中可以知道，hbase的数据是按照列进行存储的，并且当数据过大的时候，会按照行进行分裂，如下如所示：

把不同的region放到了不同的机器，并且最后还有master进行管理，即相当于对行列进行了一个划分，从而存储大量的数据

三、数据迁移遇到的一些问题

（1）联合索引的问题

在mysql中会有一些联合索引的情况，例如存在一个商品与分类对应关系的表，需要得到某一个商品的所有分类，也希望可以得到某一个分类的所有商品，在mysql中直接按照联合索引可以达到要求，但是在hbase的时候只能按照rowkey查询如何办呢

经过阅读相关的数据得到有如下两种的解决办法

1、构建宽表

在hbase中，允许行跟行之间的列是不同的，只要有共同的列族即可，那么对于上述的情况，可以构建一个按照分类为rowkey的宽表，如下所示

分类id，作为rowkey

product_id，作为列名字

value存储为是否删除

上述即可rowkey为分类id，可以直接从row得到所有的product_id，然后自己过滤是否删除

2、构建高表

什么是构建高表呢，也就是说不需要那么多的列，只是存储多行，因为在hbase里面是按照字典顺序排序的，因此可以进行如下的设计

分类id_商品id，作为rowkey

只要scan以1开头的行，就可以得到所有的数据

上述两种办法从本质上来说，都是构建了一个二级索引来存储数据

【github开源地址：https://github.com/molong1208，欢迎关注，指点交流】

数据从mysql迁移到hbase的一些思考及设计的更多相关文章

将数据从MySQL迁移到Oracle的注意事项
将数据从MySQL迁移到Oracle的注意事项1．自动增长的数据类型处理MYSQL有自动增长的数据类型,插入记录时不用操作此字段,会自动获得数据值.ORACLE没有自动增长的数据类型,需要建立一个自动 ...
数据从mysql迁移至oracle时知识点记录（一）
最近在做数据的迁移,再将数据从mysql迁移至oracle时,部分sql语句进行了修改,在此对部分知识点进行记录: 参考资料:https://dev.mysql.com/doc/refman/5.5/ ...
mysql迁移mpp数据库Greenplum
1. 场景描述因兄弟项目中mysql有点扛不住了,要做sql优化,但是业务有点小复杂,优化起来有点麻烦(sql嵌套有点多),便想着用Mpp数据库Greenplum测试下,看性能和复杂度怎么样,趟趟水 ...
mongodb数据迁移到hbase
mongodb数据迁移到hbase 导入包 # encoding: utf-8 ''' @author: zcc @license: (C) Copyright 2013-2017, Node Sup ...
finedb（内置的HSQL数据库）迁移数据到MySQL
finedb(内置的HSQL数据库)迁移数据到MySQL 1. 前言在FineBI中,决策平台的数据(用户.角色.组织机构.权限等信息)是存储在finedb数据库中的,默认情况下finedb是一个内 ...
mysql迁移之巨大数据量快速迁移方案
mysql迁移之巨大数据量快速迁移方案-增量备份及恢复 --chenjianwen 一.前言: 当mysql库的大小达到几十个G或者上百G,迁移起来是一件非常费事的事情,业务中断,导出导入耗费大量的时 ...
Oracle数据迁移至HBase操作记录
Oracle数据迁移至HBase操作记录 @(HBase) 近期需要把Oracle数据库中的十几张表T级别的数据迁移至HBase中,过程中遇到了许多苦难和疑惑,在此记录一下希望能帮到一些有同样需求的兄 ...
Mysql学习总结（35）——Mysql两千万数据优化及迁移
最近有一张2000W条记录的数据表需要优化和迁移.2000W数据对于MySQL来说很尴尬,因为合理的创建索引速度还是挺快的,再怎么优化速度也得不到多大提升.不过这些数据有大量的冗余字段和错误信息,极不 ...
（MySQL里的数据）通过Sqoop Import HBase 里和通过Sqoop Export HBase 里的数据到（MySQL）
Sqoop 可以与HBase系统结合,实现数据的导入和导出,用户需要在 sqoop-env.sh 中添加HBASE_HOME的环境变量. 具体,见我的如下博客: hadoop2.6.0(单节点)下Sq ...

随机推荐

Selenium辅助工具
下载Firefox39.0版本浏览器,安装firebug和FirePath.最新版的Firefox在扩展组件中无法找到firebug,可以使用旧的版本的Firefox浏览器. FirePath插件的使 ...
The method identifyUser(Arrays.asList("group001"), String, new HashMap<>()) is undefined for the type AipFace
在使用百度云的人脸识别sdk时遇到了这个错误,网上百度不到解决的方法,当我浏览百度云的时候发现了这个于是考虑到版本可能更新,出现了新的函数代替旧的函数,于是去查文档,文档链接如下 https://c ...
bzoj1565【NOI2009】植物大战僵尸（最小割）
题目描述 Plants vs. Zombies(PVZ)是最近十分风靡的一款小游戏.Plants(植物)和Zombies(僵尸)是游戏的主角,其中Plants防守,而Zombies进攻.该款游戏包含多 ...
eclipse搭建maven project的spring4 spring mvc mybatis
一,先确定已经安装好了Eclipse Java EE IDE for Web Developers我用的是如下版本 Version: Neon.3 Release (4.6.3)Build id: 2 ...
一个简单的Samba服务
上次给大家认识了下,搭建一个服务大概的一个认识. 这次给大家搭建一个Samba服务认识下. 项目准备: 虚拟机一个(Centos6.5版本) 项目目标: 进行samba最简单的配置项目难度: ❤❤ ...
Docker - CentOS 安装 Docker 和 Docker-Compose
目录介绍 Docker Docker-Conpose 安装 Docker CE 系统要求使用 YUM 安装配置加速器安装 Docker-Compose 介绍 Docker Docker 是一个 ...
Java中的Date Time 与SQL Server 2005里的Datetime 之间的交互
Preface Environment:Platform: Windows XPLanguage: Java 1.5IDE: MyEclipse 6.0.1Database: SQL Server 2 ...
在StoryBoard对UICollectionViewCell 进行Autolayout是遇到的Xcode6.01的BUG
使用Sb对UICollectionViewCell 的内容进行Autolayout约束时候,发现了一个Xcode6.01的BUG,就是你对UICollectionCell约束完了之后,在模拟器上现实的 ...
MapReduce编写的正确姿势
先看一下目录结构这里是job接口,负责参数的传递和定时的调用下面的图是MR 程序相关的目录图片,其中MR的入口程序负责读取数据,并指定对应的Map.Reduce程序. 程序的流程首先简单的说一下 ...
yyy的python3第七天学习
望着小月亮:https://www.cnblogs.com/triple-y/ 请尊重原创:https://www.cnblogs.com/triple-y/p/9655753.html 第七天学习的 ...

数据从mysql迁移到hbase的一些思考及设计