在cube build完成后，我的工作是写sql生成数据分析邮件报表。但是，问题是这种重复劳动效率低、易出错、浪费时间。还好Kylin提供RESTful API，可以将这种数据分析需求转换成HTTP请求。

1. RESTful API

Kylin的认证是basic authentication，加密算法是Base64，加密的明文为username:password；在POST的header进行用户认证：

curl -c cookiefile.txt -X POST -H "Authorization: Basic QURNSU46S1lMSU4=" -H 'Content-Type: application/json' http://<host>:7070/kylin/api/user/authentication

在认证完成之后，可以复用cookie文件（不再需要重新认证），向Kylin发送GET或POST请求，比如，查询cube的信息：

curl -b cookiefile.txt -H 'Content-Type: application/json' http://<host>:7070/kylin/api/cubes/kylin_sales_cube

若要向Kylin发送sql query，则POST请求中的data应遵从如下JSON规范：

{

   "sql":"select * from TEST_KYLIN_FACT",

   "offset":0,

   "limit":50000,

   "acceptPartial":false,

   "project":"DEFAULT"

}

其中，offset为sql中相对记录首行的偏移量，limit为限制记录条数；二者在后台处理时都会拼接到sql中去。发送sql query的curl命令：

curl -b cookiefile.txt -X POST -H 'Content-Type: application/json' -d '{"sql":"select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt", "offset":0, "limit":50000, "acceptPartial":false, "project":"learn_kylin"}' http://<host>:7070/kylin/api/query

curl -b cookiefile.txt -X POST -H 'Content-Type: application/json' -d @sql.json http://<host>:7070/kylin/api/query

2. Python实践

Python的神模块requests已封装好了HTTP请求与返回，好用到爆！Session对象解决了认证、cookie持久化（persistent）的问题：

s = requests.session()

headers = {'Authorization': 'Basic QURNSU46S1lMSU4='}

s.post(url, headers=headers)

Session对象能复用TCP连接，不用生成cookie文件，而进行下一步HTTP请求：

# query cube info

url2 = 'http://<host>:7070/kylin/api/cubes/kylin_sales_cube'

r = s.get(url2)

r.json()

# sql query

url3 = 'http://<host>:7070/kylin/api/query'

sql_str = 'select part_dt, sum(price) as total_selled, count(distinct seller_id) as sellers from kylin_sales group by part_dt'

json_str = '{"sql":"' + sql_str + '", "offset": 0, "limit": 50000, acceptPartial": false, "project": "learn_kylin"}'

r = s.post(url3, data=json_str)

results = r.json()['results']

Kylin的sql query的查询结果在results，其类型为list[list]。因此，封装Kylin的认证与sql查询接口如下：

import requests

def authenticate():

    """

    authenticate user

    :return: session

    """

    url = 'http://<host>:7070/kylin/api/user/authentication'

    headers = {'Authorization': 'Basic QURNSU46S1lMSU4='}

    s = requests.session()

    s.headers.update({'Content-Type': 'application/json'})

    s.post(url, headers=headers)

    return s

def query(sql_str, session):

    """

    sql query

    :param sql_str: string of sql

    :param session: session object

    :return: results(type is list)

    """

    url = 'http://<host>:7070/kylin/api/query'

    json_str = '{"sql":"' + sql_str + '", "offset": 0, "limit": 50000, ' \

                                      '"acceptPartial": false, "project": "xxx"}'

    r = session.post(url, data=json_str)

    results = r.json()['results']

    return results

后面邮件报表的生成，得具体联系业务需求。这里，分享一下添加邮件附件的方法：

msg = MIMEMultipart()

att1 = MIMEText(open('./resources/xxx.csv', 'rb').read(), 'base64', 'gb2312')

att1["Content-Type"] = 'application/octet-stream'

att1["Content-Disposition"] = 'attachment; filename="xxx.csv"'

msg.attach(att1)

【Kylin实战】邮件报表生成的更多相关文章

kylin实战系列（一）
kylin实战系列(一) 把之前kylin的实践小结一下,以备以后查看.
kylin实战(一)
kylin适用场景 OLAP 它适合数据量大,查询维度多,但是业务改动不频繁的场景.因为业务多,则kylin的cube很多.每次业务变更,kylin修改的工作量大,且每次全量跑数据耗费时间比较长. 它 ...
【Kylin实战】Hive复杂数据类型与视图
1. 引言在分析广告日志时,会有这样的多维分析需求: 曝光.点击用户分别有多少? 标签能覆盖多少广告用户? 各个标签(标注)类别能覆盖的曝光.点击在各个DSP上所覆盖的用户数 -- 广告数据与标签数 ...
CDH+Kylin三部曲之一：准备工作
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Spring 000 框架简介 (转载)
转载自:https://my.oschina.net/myriads/blog/37922 1.使用框架的意义与Spring的主要内容随着软件结构的日益庞大,软件模块化趋势出现,软件开发也需要多人合 ...
Spring框架简单介绍
原文地址: http://my.oschina.net/myriads/blog/37922 1.使用框架的意义与Spring的主要内容随着软件结构的日益庞大,软件模块化趋势出现,软件开发也须要多 ...
javamail模拟邮箱功能--邮件删除-中级实战篇【邮件标记方法】（javamail API电子邮件实例）
前言: JavaMail jar包下载地址:http://java.sun.com/products/javamail/downloads/index.html 本章可能是讲解javamail的最后一 ...
实战项目：EMOS集成邮件平台
实战项目:EMOS集成邮件平台用户邮箱系统:http://mailAnonymous.cn/邮件服务器管理平台http://mailAnonymous.cn/extman 项目需求:随着公司规模不断扩 ...
【深度学习系列】PaddlePaddle垃圾邮件处理实战（一）
PaddlePaddle垃圾邮件处理实战(一) 背景介绍在我们日常生活中,经常会受到各种垃圾邮件,譬如来自商家的广告.打折促销信息.澳门博彩邮件.理财推广信息等,一般来说邮件客户端都会设置一定的 ...

随机推荐

sql字符串分组
create function f_myWord(@s varchar(50)) returns varchar(50) as begin declare @i int set @i=1 while ...
安卓工具箱：color of Style
<?xml version="1.0" encoding="utf-8"?> <resources> <color name=&q ...
Windows和Linux都有的Copy-on-write技术
Windows和Linux都有的Copy-on-write技术 MySQL技术内幕Innodb存储引擎第2版 P375 SQL Server2008 实现与维护(MCTS教程)P199 LVM快照技术 ...
让Response.Redirect页面重定向更有效率
用 Redirect 方法可将浏览器重定向到另一个 URL,而不是将内容发送给用户. 这里有一篇文章介绍使用Redirect<Using Response.Redirect Effectivel ...
log4j.xml的实用例子
大多数讲log4j配置的教程用的都是log4j.properties文件,我觉得xml或许更好一点,在这里我提供一个我已经用于生产环境的log4j.xml的例子,先上代码,然后再解释: <?xm ...
队列送券的实际应用--ConcurrentLinkedQueue并发队列
1.TicketQueue.java--队列封装类,负责如下职责:a.把活动登记对象放入队列中b.从队列中获取活动登记对象,并派券 package com.datong.pear.ticket; im ...
vSphere Client 编辑虚拟机属性的问题
编辑虚拟机属性的时候, 出现: vpxclient.vmconfig.cpuid 初始值设置异常之类的,重置了, 并将注册表中的所有vmvare 相关键值删除了, 还是一样的.. 后面参照https: ...
C++构造函数和析构函数
构造函数简介在上一个章节我们在创建好类的对象之后,首先对它的每一个成员属性赋值之后再对它们进行输出操作,如果不赋值就输出,这些值就会是垃圾值.而为了代码的简介,一次性为所有成员属性初始化,C++的类 ...
C#设计模式系列：访问者模式（Visitor）
1.访问者模式简介 1.1>.定义作用于某个对象群中各个对象的操作,可以使在不改变对象本身的情况下,定义作用于对象的新操作. 1.2>.使用频率低 2.访问者模式结构 2.1> ...
Overview of OpenCascade Library
Overview of OpenCascade Library eryar@163.com 摘要Abstract:对OpenCascade库的功能及其实现做简要介绍. 关键字Key Words:Ope ...

【Kylin实战】邮件报表生成

1. RESTful API

2. Python实践

【Kylin实战】邮件报表生成的更多相关文章

随机推荐

热门专题