大数据学习总结（7）we should...

大数据场景一、各种标签查询

查询要素：人、事、物、单位

查询范围：A范围、B范围、...

查询结果：pic、name、data from

1、痛点：对所有文本皆有实时查询需求
2、难点：传统SQL使用WHERE子句匹配LIKE关键词，在庞大的数据字段中搜索某些想要的字，需遍历所有数据页或者索引页，查询效率底，当出现千万级以上数据时，耗时较高，无法满足实时要求
3、方案：使用全文检索方案，分布式架构，即使PB级量级也可做到毫秒级查询

大数据场景二、客户事件查询

查询条件：
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店 or
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店

查询结果：
身份证号、姓名、年龄、民族、性别、籍贯、标签、轨迹（A地||B地||C地）

1、痛点：通过多表碰撞，获得某几个维度的深度分析结果
2、难点：传统方式按照一定条件对两表进行交叉查询，一旦到达十万级，即达到百亿级查询量，无法达到准实时级
3、方案：大数据二级索引建模和Impala大数据组件

大数据场景三、每日工作简报

A1 今天客户（累计、首次、其他）、今年客户（累计、活动）、

今天客户、from detail、to detail

A2 今日客车（累计、活动）、

A3 重点关注信息

B1 事件(编号、时间、描述、参与者、审批人)

B2 客户累计、同比、环比，客户分布，重点关注

1、痛点：重点分析，每日预警报告，实时应对
2、难点：传统方式数据库之间大表直接执行多表联查效率较低，数据分析难度较大
3、方案：使用大数据NoSql数据库，二级索引建模分析技术

大数据场景四、可视化分析展现

不同场景客户（客户、wb、路口）的可视化分析（正常、预警和高精）

1、痛点：实时数据展示，可以一目了然观察各类数据、分析各个维度发展趋势
2、难点：传统技术实时Count，资源消耗重，且当数据量较大时，延迟较大，聚合查询耗时严重
3、方案：大数据Nosql数据库、流式计算以及消息中间件，对历史数据深度分析，实时数据毫秒级处理

大数据场景五、云服务设施利用率监控

全公司：物理服务器数量、云服务器数量、利用率

分公司：服务器、cpu、内存分布

1、痛点：实时监控系统内所有硬件设备的使用情况
2、难点：设备较多，参数复杂，实时监控难度大
3、方案：大数据存储架构与NoSql数据库、离线计算结合

1、痛点：数据质量参次不齐，只能在入库后才知质量情况
2、难点：传统技术无法实时监控数据质量情况
3、方案：使用流式计算技术，实时监控入库数据质量，智能纠错报警，后续可做深度分析

1、痛点：服务运行状态无法掌控，日志数据无法有效利用
2、难点：日志一般为非结构化数据，分析难度较大
3、方案：使用大数据技术，将非结构化日志数据实时入库转化为结构数据，进行深度分析并实时监控

大数据学习总结（7）we should...的更多相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
大数据学习之Linux进阶02
大数据学习之Linux进阶 1-> 配置IP 1)修改配置文件 vi /sysconfig/network-scripts/ifcfg-eno16777736 2)注释掉dhcp #BOOTPR ...
大数据学习之Linux基础01
大数据学习之Linux基础 01:Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布.,在加上用户空间的应用程序之后 ...
大数据学习：storm流式计算
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: 1.Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 2.由于Storm的处理组件都是分布式的, ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...
大数据学习之Hadoop快速入门
1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效 ...

随机推荐

pods 报错There may only be up to 1 unique SWIFT_VERSION per target
zhangpengdeMacBook-Pro:Jump zhangpeng$ pod install Analyzing dependencies [!] There may only be up t ...
Unity3d底层数据传递分析
WeTest 导读这篇文章主要分析了在Mono框架下,非托管堆.运行时.托管堆如何关联,以及通过哪些方式调用.内存方面,介绍了什么是封送,以及类和结构体的关系和区别. 一.托管交互(Interop) ...
elasticsearch基本操作之--java基本操作 api
/** * 系统环境: vm12 下的centos 7.2 * 当前安装版本: elasticsearch-2.4.0.tar.gz */ 默认进行了elasticsearch安装和ik安装, 超时配 ...
51ak带你看MYSQL5.7源码1：main入口函数
从事DBA工作多年 MYSQL源码也是头一次接触尝试记录下自己看MYSQL5.7源码的历程目录: 51ak带你看MYSQL5.7源码1:main入口函数 51ak带你看MYSQL5.7源码2:编译 ...
Java安装和环境变量配置
一.Java的安装 1.下载合适的版本,安装jdk和jre到同一路径下的同一文件夹下,例如:都安装在 E:\Java: 备注: JDK:Java Development Kit : JRE: Ja ...
C++实验1
javascript中词法环境、领域、执行上下文以及作业详解
词法环境(Lexical Environments) 官方规范对词法环境的说明是:词法环境(Lexical Environments)是一种规范类型,用于根据ECMAScript代码的词法嵌套结构来定 ...
Redis学习笔记（三）常用命令整理
Redis 常用命令 1.DEL key 删除key2.EXISTS key 检查key是否存在3.KEYS * 查看所有的key4.EXPIRE key seconds 设置key的过期时间5.TT ...
Spring Boot 定时任务的使用
@Configuration @EnableScheduling public class ScheduleConfig { private final Logger logger = LoggerF ...
CXF SOAP 及其安全控制
通过上一篇文章,相信您已经学会了如何使用 CXF 开发基于 SOAP 的 WS 了.或许您目前对于底层原理性的东西还不太理解,心中难免会有些疑问: 什么是 WSDL? 什么是 SOAP? 如何能让 S ...

大数据学习总结（7）we should...

大数据学习总结（7）we should...的更多相关文章

随机推荐

热门专题