MariaDB ColumnStore初探(1)：安装、使用及测试

相信大家在对接BI数据报表部门有很深刻的体验，高大上的复杂SQL关联JOIN十几张表在InnoDB里跑起来，会让你酸爽到死。它的出现正是解决这个问题，DBA能不能轻松愉快地玩耍，就要靠它了，“神州行我看行”。

通过本文，会让大家都可以动手玩起来。我们的口号：接地气！

什么是MariaDB ColumnStore？

MariaDB ColumnStore是在MariaDB 10.1基础上移植了InfiniDB 4.6.2构建的大规模并行，高性能，压缩，分布式开源列式存储引擎，类似收费产品Infobright。它设计用于大数据离线分析，用来抗衡Hadoop 。官方自称MariaDB ColumnStore是数据仓库的未来，ColumnStore允许存储更多的数据并更快地分析它。

你可以使用标准SQL语句进行查询，支持目前流行的sqlyog/navicat客户端工具连接，对业务方使用没有任何的不便，并且你不需要创建任何索引，不需要修改业务方的复杂SQL（自身就支持复杂的关联查询、聚合、存储过程和用户定义的函数），你唯一要做的就是把数据导入到ColumnStore里，就没你事了。这对一家没有Hadoop工程师的公司来说，MariaDB ColumnStore会是一个更好的替代产品。

MariaDB ColumnStore架构概述

MariaDB ColumnStore是一种专为分布式大规模并行处理（MPP）设计的列式存储引擎。它由三个组件组成，协同工作。

在官方给出的架构图中，我们可以看到分为三个组件构成：UM、PM、数据存储层。

用户模块（UM）：

用户模块管理和控制终端用户查询的操作，它维护每个查询的状态，向一个或多个性能模块发出请求以代为执行SQL查询工作，最后，用户模块汇集来自各个参与的性能模块的所有查询结果，以形成返回给用户的完整的查询结果集。

性能模块（PM）：

性能模块负责存储，检索和管理数据，处理对查询操作的块请求，并将其传递回用户模块以完成查询请求。性能模块将获取的数据缓存在其内存中计算。MPP是通过允许用户配置尽可能多的性能模块，以实现更高的处理能力。

存储：

MariaDB ColumnStore对于存储系统极为灵活。当在内部运行时，它可以使用本地存储或共享存储（例如SAN）来存储数据。在Amazon EC2环境中，它可以使用临时或弹性块存储（EBS）卷。当无共享部署需要数据冗余时，它被构建为与GlusterFS和Apache Hadoop分布式文件系统（HDFS）集成。

一句话总结：用户模块（UM）将客户端发出的SQL请求进行分配，分配到后端性能模块（PM），PM进行数据查询分析，将处理的结果返回给UM，UM再把PM分析的结果进行聚合，最后返回给客户端最终的查询结果。

MariaDB ColumnStore安装前的准备工作

我们这里采用2台um、2台pm跑一组集群，操作系统Centos6.8，MariaDB ColumnStore最新GA版本1.0.6。

# cat /etc/hosts

192.168.17.133    um1

192.168.17.134    um2

192.168.17.135    pm1

192.168.17.136    pm2

1、公私钥认证，打通SSH无密码（um1/2、pm1/2均执行如下）

# ssh-keygen

# ssh-copy-id '-p 22 root@192.168.17.133'

# ssh-copy-id '-p 22 root@192.168.17.134'

# ssh-copy-id '-p 22 root@192.168.17.135'

# ssh-copy-id '-p 22 root@192.168.17.136'

（注：如果你的ssh端口不是22，修改-p 22为你自己的定义的端口）

2、关闭IPTABLES防火墙/关闭SELINUX

# /etc/init.d/iptables stop

# cat /etc/selinux/config

SELINUX=disabled

SELINUXTYPE=targeted

# chkconfig iptables off

# chkconfig --list | grep iptables

iptables          :off   :off   :off     :off   :off   :off     :off

3、关闭文件系统访问时间和更改磁盘IO算法

# cat /etc/fstab

UUID=683a6e67-567c-498a-a06a-c65f8f290080 /data   xfs     defaults,noatime,nobarrier        1 2

#cat /etc/rc.local

echo "deadline" >   /sys/block/sdb/queue/scheduler

4、优化Linux系统内核

# cat /etc/sysctl.conf

# 将如下参数加到最后

# increase TCP max buffer size

net.core.rmem_max =

net.core.wmem_max =

# increase Linux autotuning TCP buffer limits

# min, default, and max number of bytes to use

net.ipv4.tcp_rmem =

net.ipv4.tcp_wmem =

# don't cache ssthresh from previous connection

net.ipv4.tcp_no_metrics_save =

# recommended to increase this for  BT or higher

net.core.netdev_max_backlog =

# for  GigE, use this

net.core.netdev_max_backlog =

fs.file-max=

net.ipv4.ip_local_port_range =

net.ipv4.tcp_tw_reuse =

vm.swappiness =

5、调整文件描述符ulimit为65535

# cat /etc/security/limits.conf

*                       soft     nofile

*                     hard     nofile

*                       soft     nproc

*                       hard     nproc

# cat /etc/security/limits.d/-nproc.conf

*                       soft     nproc

*                       hard     nproc

6、关闭NUMA

# cat /etc/grub.conf

title CentOS  (2.6.-.el6.x86_64)

        root   (hd0,)

        kernel   /vmlinuz-2.6.-.el6.x86_64 ro   root=UUID=98f9a4a6-f596-42e6-bffa-98a42b32145d rd_NO_LUKS  KEYBOARDTYPE=pc KEYTABLE=us rd_NO_MD   crashkernel=auto.UTF- rd_NO_LVM rd_NO_DM rhgb quiet numa=off

        initrd   /initramfs-2.6.-.el6.x86_64.img

7、安装jemalloc内存管理器

# yum -y install jemalloc*

8、重启服务器

# reboot

MariaDB ColumnStore安装部署

1、安装boost软件包

# yum -y install boost*

# yum -y groupinstall "Development Tools"

# yum -y install cmake

# cd /root/

# wget   http://sourceforge.net/projects/boost/files/boost/1.55.0/boost_1_55_0.tar.gz

# tar zxvf boost_1_55_0.tar.gz

# cd boost_1_55_0

# ./bootstrap.sh   --with-libraries=atomic,date_time,exception,filesystem,iostreams,locale,program_options,regex,signals,system,test,thread,timer,log   --prefix=/usr

# ./b2 install

2、安装Perl依赖包

# yum -y install expect perl perl-DBI openssl zlib   perl-DBD-MySQL

3、安装配置MariaDB ColumnStore

我们这里选用的是二进制安装包

# cd /root/

# wget

https://downloads.mariadb.com/enterprise/dapw-ktc5/mariadb-columnstore/1.0.6/centos/x86_64/6/mariadb-columnstore-1.0.6-1-centos6.x86_64.bin.tar.gz

# tar zxvf   mariadb-columnstore-1.0.--centos6.x86_64.bin.tar.gz -C /usr/local/

执行下面的命令进行配置

/usr/local/mariadb/columnstore/bin/postConfigure

后面的步骤，请大家仔细参考我的安装截图。

我们选择multi集群的方式，填写2回车。

我们选择separate，在单独的机器上部署um和pm，这里输入1回车。

由于我没有共享存储环境，这里我选择本地存储数据，输入1回车。

um节点数，我们这里是2台，输入2回车。

输入主机名um1回车，再输入um2回车。

pm节点数，我们这里是2台，输入2回车。

输入主机名pm1回车，再输入pm2回车。

输入y回车安装，然后输入binary，因我们安装是采用的二进制安装包，之后让我们输入其他机器的密码，注意所有机器的root密码要一致，默认是使用ssh-key认证。

经过漫长的等待，我们输入y开始启动系统，至此启动完毕。

输入命令mcsadmin进入管理后台，输入getSystemStatus可以看到节点信息。

um1

是主节点，um2是备节点，pm1是主节点，pm2是备节点。

在实际生产环境中，部署更多的pm节点会带来性能的提升。

MySQL节点的数据是通过主从复制传输的，登录um1或um2机器上输入mcsmysql命令登陆，输入show slave status\G确定哪台机器是主库。

它其实就是命令的别名，cat /root/.bashrc查看

alias   mcsmysql='/usr/local/mariadb/columnstore/mysql/bin/mysql   --defaults-file=/usr/local/mariadb/columnstore/mysql/my.cnf -u root'

alias ma=/usr/local/mariadb/columnstore/bin/mcsadmin

alias   mcsadmin=/usr/local/mariadb/columnstore/bin/mcsadmin

alias home='cd /usr/local/mariadb/columnstore'

alias log='cd /var/log/mariadb/columnstore/'

alias core='cd /var/log/mariadb/columnstore/corefiles'

alias tmsg='tail -f /var/log/messages'

alias tdebug='tail -f   /var/log/mariadb/columnstore/debug.log'

alias tinfo='tail -f   /var/log/mariadb/columnstore/info.log'

alias dbrm='cd   /usr/local/mariadb/columnstore/data1/systemFiles/dbrm'

alias module='cat   /usr/local/mariadb/columnstore/local/module'

MariaDB ColumnStore使用

我们这里以sysbench生成的sbtest表为例，表结构如下：

CREATE TABLE `sbtest` (

  `id` int(10)   unsigned NOT NULL,

  `k` int(10)   unsigned NOT NULL DEFAULT '0',

  `c` char(120)   DEFAULT '',

  `pad` char(60)   NOT NULL DEFAULT ''

) ENGINE=Columnstore DEFAULT CHARSET=utf8;

注：不支持主键和索引，数据类型不支持text和timestamp字段类型。

数据导入

由于是离线分析，不支持与前端MySQL的主从复制，需要手工把MySQL/Percona/MariaDB的数据导出，命令：

select * from sbtest into outfile '/tmp/sbtest.txt'   FIELDS TERMINATED BY ','

OPTIONALLY ENCLOSED BY '"'  LINES TERMINATED BY '\n';

#FIELDS TERMINATED BY ',' --字段的结束符

#OPTIONALLY ENCLOSED BY '"' --字符串的分割符

#LINES TERMINATED BY '\n' --行的结束符

导入有两种方法：

一种是通过load命令导入

load data infile '/tmp/sbtest.txt' into table sbtest   FIELDS TERMINATED BY ','  OPTIONALLY   ENCLOSED BY '"'  LINES TERMINATED   BY '\n';

另一种官方推荐自带的cpimport命令导入。

cpimport是一种高速批量加载实用程序，可以快速高效地将数据导入ColumnStore引擎。

/usr/local/mariadb/columnstore/bin/cpimport  test    sbtest    /root/tmp/sbtest.txt  -E   '"'  -s ','

#test是数据库

#sbtest是表

#-E是字符串的分割符

#-s是字段的结束符

入上图所示，代表已经导入成功。

然后你就可以使用SQL查询分析了，如下图所示：

MariaDB ColumnStore参数调优

配置文件/usr/local/mariadb/columnstore/etc/Columnstore.xml

# 设置为PM主机的物理内存70%，用来缓存数据到内存

# 设置为UM主机的物理内存50%，用来对PM分析的结果进行聚合

MariaDB Columnstore测试

1、这是在生产服务器InnoDB_Buffer_Pool50G内存跑的，耗时4小时7分。

当然这个SQL是有优化空间的，但会浪费DBA过多的精力与时间，业务方不等人，时间就是金钱。

2、下面是在Columnstore，我的笔记本vmware虚拟机1G内存跑的，耗时4.66秒。

MariaDB ColumnStore初探(1)：安装、使用及测试的更多相关文章

Mariadb Galera Cluster 群集安装部署
#Mariadb Galera Cluster 群集安装部署 openstack pike 部署目录汇总 http://www.cnblogs.com/elvi/p/7613861.html # ...
Linux--5 mariadb和redis的安装
一.MYSQL(mariadb) MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,采用GPL授权许可. 开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将MySQL ...
MARIADB 在 OPENSUSE 的安装。
1.MARIADB 在 OPENSUSE 的安装或者升级 (参考 Setting up MariaDB Repositories ) OPENSUSE 从 12.3 版本开始,默认带有 MARI ...
centos7 安装mariaDB 以及 phpmyadmin的安装
centos7 安装mariaDB 以及 phpmyadmin的安装一:安装mariadb, mariadb 是 mysql 的一个分支,基本和mysql一样的 1. yum -y install ...
Nginx安装部署与测试
场景:项目需要部署在生产环境中,这些新的工具都需要在生产环境中去实践练习.有时间再部署一套ELK的日志分析系统,这样的系统才算具有一定的应用价值. 1 Nginx安装用root用户安装,采用源代码编 ...
ActiveMQ (一)：安装启动及测试
1. 预备知识 1.1 JMS JMS(Java Messaging Service)是Java平台上有关面向消息中间件(MOM)的技术规范.<百科> 1.2 JMX JMX(Java M ...
websphere8 从安装到部署测试集群应用程序安装j2ee程序（非常详细）
目录1. 准备安装文件2. 安装Installation Manager3. 为Installation Manager指定安装资源库4. 创建部署管理器概要文件5. 创建定制概要文件并联合到部署管理 ...
elastic search安装与本地测试
elastic search安装与本地测试 elastic search是一个全文搜索引擎教程: 综合:http://www.ruanyifeng.com/blog/2017/08/elastics ...
MariaDB二进制包简单安装部署
一.简介: MySQL最早是由Michael Widenius在所研发,而在后来Michael先生以10亿美元的价格把MySQL卖给了SUN以后不久SUN就被Oracle公司给收购了,在Oracle收 ...

随机推荐

一篇关于CountDownLatch的好文章
CountDownLatch简介 CountDownLatch是一种java.util.concurrent包下一个同步工具类,它允许一个或多个线程等待直到在其他线程操作执行完成. 使用场景: 在开发 ...
PythonStudy——Python 内置函数 Built-in function
内置方法:Python中声明每一个类系统都会加上一些默认内置方法,提供给系统调用该类的对象时使用.比如需要实例化一个对象时,需要调用该类的init方法:使用print去打印一个类时,其实调用的是str ...
MySQL Error--The Table is full
问题描述在MySQL 错误日志中发下以下错误信息:[ERROR] /export/servers/mysql/bin/mysqld: The table '#sql-xxxx-xxx' is ful ...
ubuntu安装驱动问题
网友答案:https://blog.csdn.net/jasonzhoujx/article/details/80469139
【java】static用法
static作用: 用来修饰函数成员,成员变量和成员函数.类对象的属性都一致且能共享,比如国籍,这就能用static修饰,name不能共享,因为每个人都有自己的名字. 特有内容(name)随着对象存储 ...
Excel技巧--做一去重复的数据下拉列表
当我们有一数据列表(内含重复数据),将该数据做成如下图的下拉列表: 可以这样做: 1.选中该标题行,按ctrl+shift+下方向键,将该列有数据的区域选中: 2.点击“数据”—>删除重复项: ...
Excel技巧--按内容分列与合并
上表的A列,如果想要按横线分隔开多列,复制粘贴很麻烦,可以使用“数据”-->“分列”来分隔开: 1.选择A列,在A列后预先插入三列空列.点击“数据”—>“分列”,对话框选择按“分隔符号”分 ...
【C++】boost::shared_ptr boost::make_shared
一.shared_ptr shared_ptr作为一个动态分配的对象,当最后一个指向其内容的指针销毁(destroyed)或重置(reset),其指向的内容会被销毁(deleted).不再需要显式调用 ...
Android中是否推荐使用枚举Enum
一.Enum的产生 Java1.5中引入了枚举的语法,包括Enum,EnumSet,EnumMap等.其中Enum就是我们在C或C++中见过的枚举类型,但是Java中的枚举又比C或C++中的枚举更成熟 ...
django补充和form组件
Model常用操作: - 参数:filter - all,values,values_list [obj(id,name,pwd,email),obj(id,name,pwd,email),] mod ...

MariaDB ColumnStore初探(1)：安装、使用及测试

MariaDB ColumnStore初探(1)：安装、使用及测试的更多相关文章

随机推荐

热门专题