初始化

$hosts = array('192.168.30.41');
$this->client = \Elasticsearch\ClientBuilder::create()->setHosts($hosts)->build();

新建和设置index

    $params = [
'index' => 'order',
'body' => [
'settings' => [
'max_result_window' => 10000000 #由于默认只能读取前10000条数据,这里设置为100w,但是代价就是分页越靠后,效率越低。也可以使用scan解决
],
'mappings' => [
'goods' => [
'_source' => [
'enabled' => true
],
'properties' => [
'product_code' => [
'type'=>'string',
'store'=>'yes',
'fielddata'=>true,
'fields'=>[
'raw'=>[ #由于需要按照这个字段分组统计,且不能进行分词,固这样配置。统计时字段需要写为 product_code.raw
'type'=>'string',
'index'=>'not_analyzed'
]
]
],
'order_id'=>[
'fielddata'=>true,
'type'=>'string'
],
'price'=>[
'type'=>'double'
],
'num'=>[
'type'=>'integer'
],
'pay_time'=>[
'type'=>'date',
'format'=>'yyyy-MM-dd HH:mm:ss'
],
'take_province'=>[
'type'=>'string',
'fielddata'=>true,
'store'=>'yes',
'fields'=>[
'raw'=>[
'type'=>'string',
'index'=>'not_analyzed'
]
]
],
'buyer_nike'=>[
'type'=>'string',
'fielddata'=>true
]
]
]
]
]
];
$response = $this->client->indices()->create($params);

插入数据(这里引用了官方文档的例子,大数据导入不使用insert,而使用更为效率的bulk)

$params = ['body' => []];

for ($i = 1; $i <= 1234567; $i++) {
$params['body'][] = [
'index' => [
'_index' => 'my_index',
'_type' => 'my_type',
'_id' => $i
]
]; $params['body'][] = [
'my_field' => 'my_value',
'second_field' => 'some more values'
]; // Every 1000 documents stop and send the bulk request
if ($i % 1000 == 0) {
$responses = $client->bulk($params); // erase the old bulk request
$params = ['body' => []]; // unset the bulk response when you are done to save memory
unset($responses);
}
} // Send the last batch if it exists
if (!empty($params['body'])) {
$responses = $client->bulk($params);
}

相关查询

1、查询某商品某时间段内订单数、售卖总数和总价格

#where product_code="xxx" and pay_time BETWEEN "2017-01-01 00:00:00" AND "2017-01-31 23:59:59"
$params = [
'index' => 'order',
'type' => 'goods',
'body' => [
'size' => 1,
'query' => [
"bool"=>[
"must"=>[
"term"=>["product_code.raw"=>$code] #上面解释过了,这里采用不分词的统计,使用字段.raw
],
"filter"=>[
"range"=>[
"pay_time"=>[
"gte"=>$start_time,
"lte"=>$end_time
]
]
]
]
],
'aggs' => [
'sum_this_product'=>['sum'=>['field'=>"num"]], #售卖总数量,sum累加
'total_price'=>['sum'=>['field'=>"price"]], #总价格
'distinct_orderid'=>['cardinality'=>['field'=>'order_id']] #去重订单数
]
]
];
$response = $this->client->search($params);

2、统计某时间段所有商品的订单数、售卖总数和总价格

#where pay_time BETWEEN "2017-01-01 00:00:00" AND "2017-01-31 23:59:59"
$params = [
'index' => 'order',
'type' => 'goods',
'body' => [
'size' => 0,
'query' => [
"bool"=>[
"filter"=>[
"range"=>[
"pay_time"=>[
"gte"=>$start_time,
"lte"=>$end_time
]
]
]
]
],
'aggs' => [
'num'=>[
'terms'=>[
'field'=>'product_code.raw',
'size'=>100,
'order'=>['sum_this_product'=>'desc'] #根据统计出来的售卖总数排序
],
'aggs'=>[
'sum_this_product'=>['sum'=>['field'=>'num']],
'total_this_product'=>['sum'=>['field'=>'price']],
'distinct_orderid'=>['cardinality'=>['field'=>'order_id']]
]
]
]
]
];
$response = $this->client->search($params);

唠叨:

1、这次使用的是docker环境,使用阿里镜像:https://dev.aliyun.com/detail.html?spm=5176.1972343.2.21.F0KOV2&repoId=1209

2、官方文档:https://www.elastic.co/guide/en/elasticsearch/client/php-api/current/index.html

3、本次工作数据量大约1500w,需要复杂的统计和展现,mysql已经不能满足,故使用es。但是es不支持类似mysql:select in select这样的子查询,着实折腾了不少时间

4、感谢一位大神的博客:https://segmentfault.com/a/1190000004433446,这是个文章系列,很值得参考。

记录一次elasticsearch-php工作过程的更多相关文章

  1. Elasticsearch 的坑爹事——记录一次mapping field修改过程

    Elasticsearch 的坑爹事 本文记录一次Elasticsearch mapping field修改过程 团队使用Elasticsearch做日志的分类检索分析服务,使用了类似如下的_mapp ...

  2. Elasticsearch 的坑爹事——记录一次mapping field修改过程(转)

    原文:http://www.cnblogs.com/Creator/p/3722408.html 本文记录一次Elasticsearch mapping field修改过程 团队使用Elasticse ...

  3. (转)Elasticsearch 的坑爹事——记录一次mapping field修改过程

    Elasticsearch 的坑爹事 本文记录一次Elasticsearch mapping field修改过程 团队使用Elasticsearch做日志的分类检索分析服务,使用了类似如下的_mapp ...

  4. Nginx reopen reload作用及工作过程

    http://www.iigrowing.cn/nginx-reopen-reload-zuo-yong-ji-gong-zuo-guo-cheng.html Nginx reopen reload作 ...

  5. 【Canal源码分析】parser工作过程

    本文主要分析的部分是instance启动时,parser的一个启动和工作过程.主要关注的是AbstractEventParser的start()方法中的parseThread. 一.序列图 二.源码分 ...

  6. TCP工作过程;TCP Flood的攻击的原理和现象;TCP协议设计的安全隐患与防范对策

    TCP分三个阶段 连接建立(三次握手) 数据传输 连接释放(四次挥手) TCP工作过程 TCP连接建立阶段 第一次握手:Client将标志位SYN置为1,随机产生一个值seq=J,并将该数据包发送给S ...

  7. ARP工作过程、ARP欺骗的原理和现象、如何防范ARP欺骗

      地址解析协议(Address Resolution Protocol,ARP)是在仅知道主机的IP地址时确定其物理地址的一种协议. 下面假设在一个局域网内,主机A要向主机B发送IP数据报. ARP ...

  8. 【Canal源码分析】client工作过程

    client的工作过程,需要我们自己去编写对应的逻辑,我们目前只能从example写的例子来看.目前examle中提供了两个例子,一个是单机的,一个是集群的cluster,我们后续如果需要进行开发的话 ...

  9. 【流媒体】UPnP的工作过程

    UPnP简介 通用即插即用(英语:Universal Plug and Play,简称UPnP)是由“通用即插即用论坛”(UPnP™ Forum)推广的一套网络协议. 该协议的目标是使家庭网络(数据共 ...

  10. MapReduce程序的工作过程

    转自:http://www.aboutyun.com/thread-15494-1-2.html 问题导读1.HDFS框架组成是什么?2.HDFS文件的读写过程是什么?3.MapReduce框架组成是 ...

随机推荐

  1. Hibernate高效查询,只查询部分/指定字段

    公司使用 DetachedCriteria detachedCriteria = DetachedCriteria.forClass(PeBulletin.class); detachedCriter ...

  2. [日常] 高性能MySQL-索引

    1.mysql的索引工作类似一本书的目录部分,想找某个特定主题,先查找书的目录部分,找到对应的页码2.ORM工具只能生成基本的合法的查询3.索引是在存储引擎层实现的,不是服务器层4.B-tree就是指 ...

  3. Linux常用基本命令(cat)

    cat命令 作用:连接多个文件并且打印到屏幕输出,或者重定向到其他文件,也可以用来查看显示单个文件,或者多个文件. 格式: cat [option] [file] 1,最简单的用法,直接跟文件名称,查 ...

  4. Angular 6.X CLI(Angular.json) 属性详解

    Angular CLI(Angular.json) 属性详解 简介 angular cli 是angular commond line interface的缩写,意为angular的命令行接口.在an ...

  5. 记录搭建Odoo框架

    一.获取 Odoo 源码 Odoo 是一个开源项目,我们可以轻松的在 Github 上找到它的源码.本次中使用的是 12.0 版本的 Odoo,所以在拉取代码时选择 12.0 的分支.确保拉取的速度, ...

  6. ActiveReports 报表控件V12新特性 -- 可定制的安装设置

    ActiveReports是一款专注于 .NET 平台的报表控件,全面满足 HTML5 / WinForms / ASP.NET / ASP.NET MVC / WPF 等平台下报表设计和开发工作需求 ...

  7. webpack打包vue项目之后生成的dist文件该怎么启动运行

    亲测,webpack打包vue项目之后生成的dist文件可以部署到 express 服务器上运行. 我的vue项目结构如下: 1. 进入该vue项目目录,打开git bash,执行:npm run b ...

  8. 关于DAL层使用静态方法,并在WEB层直接调用的问题

    同样的疑惑,记录一下吧: http://bbs.csdn.net/topics/360204198 DAL静不静态看connection等关键资源是否静态 比如下面的代码,就算静态也没事 public ...

  9. React Native 二维码扫描组件

    学rn得朋友们,你们知道rn开源项目吗?来吧看这里:http://www.marno.cn/(rn开源项目) React Native学习之路(9) - 注册登录验证的实现 + (用Fetch实现po ...

  10. 负载均衡(Load Balancing)学习笔记(一)

    概述 在分布式系统中,负载均衡(Load Balancing)是一种将任务分派到多个服务端进程的方法.例如,将一个HTTP请求派发到实际的Web服务器中执行的过程就涉及负载均衡的实现.一个HTTP请求 ...