《OD学hadoop》20160903某旅游网项目实战

一、大数据的落地点

1.数据出售

数据商城：以卖数据为公司的核心业务

2. 数据分析

百度统计

友盟

IBM analysis

3.搜索引擎

4. 推荐系统

mahout

百分比

5.精准营销

（1）广告投入：网站所有者集成广告联盟的js->访问者访问页面->js发送用户数据->广告联盟发送一个可以报价的广告位信息给所有的广告公司（报价是否、价格多少）

->广告公司接受到这个报价信息，根据携带的用户信息计算用户点击的概率（用户点击模型）->广告公司将是否报价信息以及报价多少的信息发送给广告联盟->广告联盟选取高报价进行展示

用户信息

用户点击广告信息

第三方过来

（2）金融产品投顾

现阶段不算成熟

6. 数据预测

天气预测

路况预测

城市发展预测

7. 人工智能

数据挖掘

机器学习

二、大数据分析平台

1. 分析收集得到的数据，根据最终结果进行业务指导。

两大类；

（1）离线数据分析平台

对数据实时性要求不高的

对机器的性能要求比较低

MapReduce Hive Pig

（2）实时数据分析平台

对实时性要求严格，必须没有时间延迟的

对内存、CPU的要求比较高

storm，spark streaming

2. 为什么自己做大数据分析平台

1）使用第三方的

优点：简单

缺点：

有的需要收费，有的功能比较低

数据不在本公司，后续的一些定制的开发没有进行

没法定制化

2）自己做

优点：

数据在公司，后续的业务系统开发比较容易

缺点：

从无到有做一个系统出来，开销比较大

需要人员参与

三、数据处理流程

1. 数据收集

保存HDF，实时的直接进入数据分析

2. 数据处理&分析

redis，mongodb

关系型数据库

HDFS相关生态圈上

3. 数据结果可视化

（可选）

4. 数据结果应用

《OD学hadoop》20160903某旅游网项目实战的更多相关文章

《OD学hadoop》20160904某旅游网项目实战
一.ETL操作抽取数据日志格式: 分割符号:^A IP地址服务器时间二.Java工程 1. 创建项目 copy代码及配置文件 2. 改配置 core-site.xml hbase-site.x ...
《OD学hadoop》20160910某旅游网项目实战
一.event事件分析叶子节点只计算一次父节点的触发次数由子节点的数量节点事件流:是由业务人员定义的一系列的具有前后顺序的事件构成的用户操作行为,至少包括两个事件以上. 目标:以事件流为单位,分 ...
《OD学hadoop》第三周0710
一.分布式集群安装1. Hadoop模式本地模式.伪分布模式.集群模式datanode 使用的机器上的磁盘,存储空间nodemanager使用的机器上的内存和CPU(计算和分析数据) 2. 搭建环境准 ...
《OD学hadoop》第二周0702
大数据离线计算hadoop2.x 三周(6天) markdown文本剪辑器罗振宇--跨年演讲,时间的朋友 http://tech.163.com/16/0101/11/BC87H8DF000915B ...
《OD学hadoop》第一周0625
一.实用网站 1. linux内核版本 www.kernel.org 2. 查看网站服务器使用的系统 www.netcraft.com 二.推荐书籍 1. <Hadoop权威指南> 1- ...
《OD学hadoop》第四周0716
7.16 一.回顾二.HDFS Federation(联盟) Hadoop 2.2.0发布新特性很多的大公司都在使用:BAT HDFS Federation + HDFS HA架构互相隔开,但是 ...
《OD学hadoop》第三周0709
一.MapReduce编程模型1. 中心思想: 分而治之2. map(映射)3. 分布式计算模型,处理海量数据4. 一个简单的MR程序需要制定map().reduce().input.output5. ...
《OD学hadoop》第二周0703
hdfs可视化界面: http://beifeng-hadoop-01:50070/dfshealth.html#tab-overview yarn可视化界面: http://beifeng-hado ...
《OD学hadoop》Hadoop前置
一.Hadoop 前置课程 1. Linux系统,基本命令 2. Java语言,JavaSE相关知识 3. MySQL基本的DML和DDL SQL on Hadoop

随机推荐

hdu 1003 Max Sum（基础dp）
Max Sum Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Sub ...
Mysql存储过程及调用
存储过程: 存储过程是SQL 语句和可选控制流语句的预编译集合,以一个名称存储并作为一个单元处理.存储过程存储在数据库内,可由应用程序通过一个调用执行,而且允许用户声明变量.有条件执行以及其它强大的 ...
8 Python 数据类型—元祖
Python的元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可. 创建空元组 tup1 = () 元组中只 ...
在YUV图像上根据背景色实现OSD反色
所谓的OSD其实就是在视频图像上叠加一些字符信息,比如时间,地点,通道号等, 在图像上叠加OSD通常有两种方式: 一种是在前端嵌入式设备上,在图像数据上叠加OSD, 这样客户端这边只需解码显示数据即可 ...
本机不装Oracle，使用plsql连接远程Oracle的方法
由于Oracle的庞大,有时候我们需要在只安装Oracle客户端如plsql.toad等的情况下去连接远程数据库,可是没有安装Oracle就没有一切的配置文件去支持.最后终于发现一个很有效的方法,Or ...
Java如何调用dll
-----------------------------前置条件------------------------------------- 1. 首先有testdll.dll 2. 需要testdl ...
docker-ce安装与搭建私有仓库
https://www.cnblogs.com/sszhou/p/7389144.html 系统环境centos7 ###docker-ce安装###1.卸载老版本,较老版本的Docker被称为doc ...
ES6学习之装饰器
定义:修饰器是一个对类进行处理的函数,用来修改类的行为 <注>:装饰器只能用来修改类及类的方法类的装饰: 静态属性:只能通过类访问,修饰函数直接在类上操作 @testable class ...
Spring整合JUnit4测试时，使用注解引入多个配置文件
转自:https://blog.csdn.net/pwh309315228/article/details/62226372 一般情况下: @ContextConfiguration(Location ...
HTTP之首部
http报文包括起始行.首部和主体. HTTP请求/响应起始行请求组成: 方法 + 请求URL + HTTP版本响应组成: HTTP版本 + 数字状态码 + 描述状态的原因短语 HT ...

《OD学hadoop》20160903某旅游网项目实战

《OD学hadoop》20160903某旅游网项目实战的更多相关文章

随机推荐

热门专题