Clickhouse v18编译记录
简介
ClickHouse是“战斗民族”俄罗斯搜索巨头Yandex公司开源的一个极具"战斗力"的实时数据分析数据库,是面向 OLAP 的分布式列式DBMS,圈内人戏称为“喀秋莎数据库”。ClickHouse有一个简称"CK",与Hadoop、Spark这些巨无霸组件相比,ClickHouse很轻量级,其特点:
- 列式存储数据库,数据压缩
- 关系型、支持SQL
- 分布式并行计算,把单机性能压榨到极限
- 高可用
- 数据量级在PB级别
- 实时数据更新
- 索引
ClickHouse最大的特点就是快,快,快,重要的话说三遍。为啥这样快呢?
- 优秀的代码编写,强⼤的底层优化,严格的单元测试,内置300多个函数
- A vector engine & Code generation
- CPU底层指令集的使⽤
- C++新特性
clickHouse数据以列式存储,具有强悍的数据聚合和并行处理能力。业界已经有不少成功的例子,比如新浪。最近在试用clickHouse,首先需要从源码编译一个clickHouse。本文主要记叙编译过程中的一些问题和解决方式。
安装的过程中,为了不污染全局环境,需要安装的辅助软件以及编译环境,都是在用户自己的目录下安装的。
本来编译一个源代码,不需要写什么文档,但是clickHouse是我到目前位置编译过最难的源码,没有之一,需要写一个文档记录其中遇到的问题和解决办法。这里只简单记录解决办法,解决问题的过程太过复杂,而且很多都绕弯,在此不再详细描述。
参考:https://www.csdn.net/article/2018-01-14/2826786-ClickHouse
编译环境
- 需要最新版的GCC 7,ClickHouse对编译环境比较挑剔,最新版的ClickHouse需要用最新版的GCC,我用的GCC 7也是用源码安装的,安装到自己的目录,而不是机器公共的目录,因为GCC的安装涉及C库的更新,我所用的是开发机,不能影响其他人的使用,各种路径的配置如下,熟悉GCC安装的朋友可以略过:
gcc_path=/data1/home_jencoldeng/gcc_7
export PATH=$gcc_path/bin:${third}/bin:${PATH}
export C_INCLUDE_PATH=/usr/local/include/:${C_INCLUDE_PATH}
export CPLUS_INCLUDE_PATH=${gcc_path}/local/include/c++/6.2.0/:$CPLUS_INCLUDE_PATH
export LD_LIBRARY_PATH=$gcc_path/lib64:$gcc_path/lib:/usr/lib:${LD_LIBRARY_PATH}
export CXX=${gcc_path}/bin/g++
export CC=${gcc_path}/bin/gcc
- 程序主要源码来自 https://github.com/yandex/ClickHouse,取当前最新的稳定版本v18.6.0,2天前,也就是2018.07.31才发布的版本。
- 其他需要的第三方库会在编译过程中提及。
下载第三方库
- 在github上下载发布版,得到文件
v18.5.1-stable.tar.gz
,解压得到文件夹ClickHouse-18.5.1-stable
。 - 打开隐藏文件
.gitmodules
,得到所依赖的第三方库列表。
[submodule "contrib/poco"]
path = contrib/poco
url = https://github.com/ClickHouse-Extras/poco
[submodule "contrib/zstd"]
path = contrib/zstd
url = https://github.com/facebook/zstd.git
[submodule "contrib/lz4"]
path = contrib/lz4
url = https://github.com/lz4/lz4.git
[submodule "contrib/librdkafka"]
path = contrib/librdkafka
url = https://github.com/edenhill/librdkafka.git
[submodule "contrib/cctz"]
path = contrib/cctz
url = https://github.com/google/cctz.git
[submodule "contrib/zlib-ng"]
path = contrib/zlib-ng
url = https://github.com/Dead2/zlib-ng.git
[submodule "contrib/googletest"]
path = contrib/googletest
url = https://github.com/google/googletest.git
[submodule "contrib/capnproto"]
path = contrib/capnproto
url = https://github.com/capnproto/capnproto.git
[submodule "contrib/double-conversion"]
path = contrib/double-conversion
url = https://github.com/google/double-conversion.git
[submodule "contrib/re2"]
path = contrib/re2
url = https://github.com/google/re2.git
[submodule "contrib/ssl"]
path = contrib/ssl
url = https://github.com/ClickHouse-Extras/ssl.git
[submodule "contrib/boost"]
path = contrib/boost
url = https://github.com/ClickHouse-Extras/boost.git
[submodule "contrib/llvm"]
path = contrib/llvm
url = https://github.com/ClickHouse-Extras/llvm
- 如果编译机可以联网,可以使用
git submodule update
等命令下载相关依赖项,但是可能是因为这个是release包,命令执行失败,所以不采用这个方式,采用下面的方式手动逐个下载,这种方法普适性更强。 - 如果编译机无法联网,可以根据第三方库上的清单,自行下载,放到contrib目录下,或建立相关软链,可以参考如下脚本下载:
mkdir third
cd third
cat ../ClickHouse-18.5.1-stable/.gitmodules | grep url| awk '{print $NF}' | while read s;
do
echo "=====$s====";
git clone $s;
done
- 把第三方库放入
ClickHouse-18.5.1-stable/contrib
目录下,这个目录下的第三方库都是空目录,可以直接mv
进去,或者建立软链,略过不表。
开始编译生成Makefile文件
- 在
ClickHouse-18.5.1-stable
下建立一个build
目录,作为CMake的编译目录。 - 执行编译命令
cd ClickHouse-18.5.1-stable/build
p=/data1/home_jencoldeng/clickhouse_V18/ClickHouse_install #安装目录
cmake .. -DCMAKE_INSTALL_PREFIX=$p
- 下面开始处理编译过程中出现的各种错误,注意每一次错误,需要重新编译的话,都需要把build里面的文件清空(理论上只需要把
CMakeCache.txt
删掉就可以了,但我是每次都清空)。
CMake错误1:无法找到PCRE库
- pcre库不在第三方库列表中,所以需要额外安装:
- 下载地址:http://www.pcre.org/,安装过程不再赘述,注意需要的是pcre,不是pcre2,我就是因为图方便,直接下拉到最下面,用最新的一个,谁知道下载到的是pcre2,不适用
- 安装完成之后,修改
CMakeLists.txt
文件,把安装路径加入到库和头文件的搜索路径,下面这几行代码添加到最前面。当然,有更熟悉CMake的朋友可以使用定义宏的方式,我就随便使用一种方法了。
set(PCRE_INCLUDE_PATH,
"/data1/home_jencoldeng/clickhouse_V18/third/install/include")
set(PCRE_LIB_PATH,
"/data1/home_jencoldeng/clickhouse_V18/third/install/lib")
list(APPEND, CMAKE_INCLUDE_PATH, PCRE_INCLUDE_PATH)
list(APPEND, CMAKE_LIBRARY_PATH, PCRE_LIB_PATH)
CMake错误2:没有找到expat库
没有找到expat库,这是一个XML解析库,POCO库需要用到它:
下载地址:https://libexpat.github.io/,下载并安装,为了简单,所有第三方库安装在同一个路径中,也就是安装在上面pcre的路径中,就不需要重复添加路径。
注意,这里默认只生成动态库,但是为了减少部署时带来的困难,所以把它修改为生成静态库,让ClickHouse静态链接这个库。方法是在生成libexpat库的时候,使用以下命令:
# $p是需要安装的路径,避免污染全局环境所以安装在自己的目录下
# BUILD_shared是一个选项,表示是否生成共享库
cmake -DBUILD_shared=OFF -DCMAKE_INSTALL_PREFIX=$p && make -j 8 && make install
CMake错误3:没有找到zlib库
没有找到zlib库
修改
contrib/CMakeLists.txt
,把CMAKE_DISABLE_FIND_PACKAGE_ZLIB标志位设置为0,让他从标准路径上查找,如图:
CMake错误4:lz4编译有问题
找不到头文件
可能是lz4的版本问题,找一个旧版本,如
lz4-1.8.0
,放入contrib
目录(直接代替或者软链)。至此,CMake成功通过。
关于Makefile编译
- ClickHouse的代码和第三方库非常巨大,所以我每次都是使用
make -j 20
来编译,也就是最多20个进程同时编译。并发进程数依赖于机器的性能。 - CPP代码编译慢,所以需要多进程同事进行。
Makefile错误1:zstd编译错
zstd编译不通过:Error: no such instruction
根据经验,出现这个原因是因为平台优化的选项打开了,按照网上的做法,把GCC平台优化
-march
关闭就可以了,但是关闭后问题仍然无法解决(也可能是我修改的地方不太对,我对CMake并不十分熟悉),最后只要采用一个稍为旧的版本,如zstd-1.3.3
。
Makefile错误2:zlib编译出错
zlib编译出错:数据类型未定义
看起来应该是头文件没有include,类型没有定义,在
contrib/zlib-ng/zlib.h
加上如下定义
#include <stdarg.h>
#ifndef z_off64_t
# define z_off64_t off64_t
#endif
- 注意字段长度应该是64位,不要搞错长度,避免运行时出现问题,这样的话问题非常难以定位。
Makefile错误3:Boost连接错误
一大堆boost连接错误,主要的问题是
undefined reference to
boost::system::system_category()`,图中只是冰山一角:
网上资料说,添加上需要的库
-lboost_system
即可解决经过查看
CMakeList.txt
,发现这个是测试功能,也就是说,可以不需要,因此修改CMakeLists.txt
文件,查找ENABLE_TESTS
和TEST_COVERAGE
,把测试功能全部屏蔽。高手可以通过修改
CMakeList.txt
解决。
编译成功
- 从这里看出,ClickHouse的二进制文件把所有可以静态链接的库都已经连接进去了,甚至连CPP库都静态连接了,部署的时候应该不难。
$ ldd bin/clickhouse
linux-vdso.so.1 => (0x00007fffe6fe2000)
libssl.so.10 => /usr/lib64/libssl.so.10 (0x0000003a46800000)
libcrypto.so.10 => /usr/lib64/libcrypto.so.10 (0x0000003a45400000)
libz.so.1 => /lib64/libz.so.1 (0x0000003bb0a00000)
librt.so.1 => /lib64/librt.so.1 (0x0000003daa600000)
libpthread.so.0 => /lib64/libpthread.so.0 (0x0000003bafa00000)
libdl.so.2 => /lib64/libdl.so.2 (0x0000003bafe00000)
libm.so.6 => /lib64/libm.so.6 (0x0000003bb0600000)
libc.so.6 => /lib64/libc.so.6 (0x0000003baf600000)
/lib64/ld-linux-x86-64.so.2 (0x0000003baf200000)
libgssapi_krb5.so.2 => /lib64/libgssapi_krb5.so.2 (0x0000003a46000000)
libkrb5.so.3 => /lib64/libkrb5.so.3 (0x0000003a45800000)
libcom_err.so.2 => /lib64/libcom_err.so.2 (0x0000003a44c00000)
libk5crypto.so.3 => /lib64/libk5crypto.so.3 (0x0000003a45c00000)
libkrb5support.so.0 => /lib64/libkrb5support.so.0 (0x0000003a46400000)
libkeyutils.so.1 => /lib64/libkeyutils.so.1 (0x0000003a45000000)
libresolv.so.2 => /lib64/libresolv.so.2 (0x0000003bb1a00000)
libselinux.so.1 => /lib64/libselinux.so.1 (0x0000003a43c00000)
后记
- 编译ClickHouse代码,真是我遇到过最麻烦的代码,各种依赖,各种错误。
- 我对CMake方式编译还真的不熟练,需要加强。
- 后续会有对ClickHouse的相关测试,欢迎关注。
Clickhouse v18编译记录的更多相关文章
- OpenWRT编译记录--TPLINK_WR841ND_V7
之前自己编译OpenWRT的一些记录,现在搬上来.简单介绍了编译环境的准备,编译过程,以及一些注意事项. 准备工作 本人是在Ubuntu环境下编辑的,首先安装编译所需要的组件包: sudo apt-g ...
- dubbo 源码编译记录
DUBBO是一个分布式服务框架,致力于提供高性能和透明化的RPC远程服务调用方案,是阿里巴巴SOA服务化治理方案的核心框架,阿里内部采用sofa框架,同属于分布式RPC框架,dubbo开源,而sofa ...
- QT4.8.5 源码编译记录
今天想将以前的虚拟机的 QT4.8.5 集成到一个虚拟机里面,所以就重新编译了一次 QT4.8.5的源码 走了一点点小弯路,特此记录. 一.交叉编译器,不能直接从原来的虚拟机里面拷贝,必须使用官网的交 ...
- spark源码编译记录
spark在项目中已经用了一段时间了,趁现在空闲,下个源码编译在IDEA里面阅读下,特此记录过程. 前提已经安装maven和git 1.上官网下载源码的包: 2.然后解压到一个文件夹 3.编译,编译的 ...
- ffmpeg第三方库编译记录
最近在研究ffmpeg的编译,之前使用的Ubuntu,需要安装虚拟机,非常麻烦,所以后来改研究在Windows平台编译. 一开始遇到很多挫折,参考了网上很多的帖子,但要么不全要么内容已过期,经过我的反 ...
- thinking in JAVA 编译记录
编辑/编译<thinking in JAVA>源代码 一.下载源代码 首先,我阅读的是<thinking in JAVA>第四版,因此按照书中提供的链接找到了mindview主 ...
- android5.0 aosp编译记录(由于机器硬件原因,改为4.4.2编译通过)
编译环境必须是64位系统啊,妥妥的又装了64位的ubuntu,虚拟机推荐server版本,不带x省性能…… 接着要装openjdk 1.7,记得更新一下系统的源,下面这个不错 deb http://m ...
- MITK-Qt4.8.4(x64)+VS2012+Win7_X64 编译记录
本文参考 http://blog.csdn.net/lanxuxml/article/details/9232529(中文) http://docs.mitk.org/nightly-qt4/Buil ...
- apk 反编译记录
反编译资源文件 工具:apktool 使用命令:java -jar apktool.jar d test.apk apktool官网下载地址:github 反编译classes.dex文件 工具:de ...
随机推荐
- [Swift]LeetCode995. K 连续位的最小翻转次数 | Minimum Number of K Consecutive Bit Flips
In an array A containing only 0s and 1s, a K-bit flip consists of choosing a (contiguous) subarray o ...
- Redis 设计与实现 (五)--多机数据库的实现
多机数据库的实现 一.复制 slaveof 主服务器ip地址.形成主从关系. 1.同步 从向主服务器发送sync命令. 主服务器收到sync命令执行bgsave,生成rdb文件,缓冲区同时记录从 ...
- 用Flutter开发的跨平台项目,完美运行在Android和IOS上,Material简洁风格,包括启动页、引导页、注册、登录、首页、体系、公众号、导航、项目,还有漂亮的妹子图库,运行极度流畅,结构清晰,代码规范,值得拥有
Flutter学习资源汇总持续更新中...... Flutter官方网站 Flutter中文网 wendux的Flutter实战 Flutter官方exampleflutter_gallery 阿里巴 ...
- CentOS6.9下离线部署Django项目
最近项目服务器变动,研究了CentOS6.9下httpd2.4+django1.11.16+python3.6+PostgreSQL的部署,之前还有一个ubuntu16.04下的部署等以后整理好后再来 ...
- Dockerfile指令介绍
FROM:指定基础镜像 在Dockerfile中FROM是必备的指令,用于指定基础的镜像. FROM centos:latest LABEL:指定镜像标签 LABEL指令用来指定镜像的标签. 格式: ...
- Python链接Mssql之Python库pymssql
连接数据库 pymssql连接数据库的方式和使用sqlite的方式基本相同: 使用connect创建连接对象 connect.cursor创建游标对象,SQL语句的执行基本都在游标上进行 cursor ...
- PHP_D4_“简易聊天室 ”的具体技术实现
上面已经介绍了系统的关键技术,下面对具体实现进行详解: 1.开发时,经常需要利用一个配置文件来存储系统的参数,例如:数据库连接信息等.这样可以提高系统的可移植性,当系统的配置发生变化时,例如:更改服务 ...
- 基础才是重中之重~delegate里的Invoke和BeginInvoke
回到目录 Invoke和BeginInvoke都是调用委托实体的方法,前者是同步调用,即它运行在主线程上,当Invode处理时间长时,会出现阻塞的情况,而BeginInvod是异步操作,它会从新开启一 ...
- docker-compose部署mysql无法访问
docker-compose部署mysql无法访问 这个问题困扰了我很久,当使用docker-compose部署mysql之后,进行容器后,使用mysql -u root -p 是可以访问的,而使用s ...
- [十三]JavaIO之PushBackInputStream
功能简介 PushBackInputStream是针对于输入的一种扩展功能 装饰器模式中的具体的装饰类,抽象的装饰器为FilterInputStream PushBackInputStream的重点在 ...