根据数据来源划分,大数据主要包括三类:商业运作产生的数据人类行为产生的数据机器数据。目前,人们谈论最多的是前两类数据的 处理和分析。创立于2004年的Splunk公司独树一帜,从公司成立之初就一直专注于机器数据的处理和分析。Splunk公司产品营销副总裁 Sanjay Mehta在接受本报记者采访时表示,机器大数据未来具有非常广阔的发展前景。

  机器大数据有可为

   何为机器数据?人们的每项活动都会在机器数据中留下痕迹,这些数据包含客户行为、使用事务处理、应用程序行为、服务水平等的明确记录,像人们非常熟悉的 日志文件传感器数据等都是机器数据。Sanjay Mehta表示:“机器生成的数据是发展最快、最复杂同时也是最宝贵的那部分大数据。但是现有的数据分析、管理和监控解决方案很少有为这类数据设计的。”

  机器数据处理的难点在于以下三方面:机器数据来自于不同来源,而将这些不同来源关联起来十分复杂;机器数据主要是非结构化的,很难用预先定义的架构来处理;机器数据对实时处理的要求非常高。Splunk的产品被外界称为机器数据的引 擎,它能够有效应对机器数据的种种挑战,收集非结构化的时间序列机器数据,并编制索引加以利用。Sanjay Mehta表示,Splunk可以读取人们能够想到的任何来源的数据,比如网络流量、Web服务器、自定义应用程序、应用程序服务器、虚拟机管理程序、GSP系统甚至股市源、社交媒体和结构化数据库的数据,并通过它们实时掌握业务状况,深入分析在整个IT系统和基础设施中发生了什么,从而做出正确决策。

  增强Hadoop的易用性

   “我们的某些客户告诉我们,他们要使用Hadoop,希望以更低成本来存储数据。但问题是,如果想部署Hadoop并基于它获得更多价值并不是一件容易 的事。部署Hadoop所花费的人力和服务可能是部署普通软件的20倍。如果想充分发挥Hadoop的作用,至少要将13个项目与Hadoop进行集成。 另外很多客户反映,Hadoop平台上的数据量太大而无法随意迁移。”Sanjay Mehta表示,“2012年10月,我们推出了 Splunk Hadoop Connect,让用户可以简单、方便地在Splunk Enterprise和Hadoop之间转移数据。”

  Splunk Hadoop Connect打通了Hadoop与Splunk产品平台之间的传输通道, 用户可以将Splunk平台上的数据传输到Hadoop平台上进行长期存储。Hadoop上的数据也可以实时地传输到Splunk上进行分析和可视化。

  对于很多客户来说,最棘手的问题是Hadoop上的数据量太大,无法随意移动。

  2013年6月22日,Splunk 发布了Hunk测试版——Splunk Analytics for Hadoop,它提供了针对Hadoop平台的互动数据探索分析和可视化功能,这为用户使用Hadoop平台提供了更多便利。

   Splunk Analytics for Hadoop是一个全功能的集成的产品,针对Hadoop上的数据在同一个平台上提供了互动的数据探索、分 析和可视化三种必要的功能。“Splunk Analytics for Hadoop为用户提供了一个简单、易用的界面,不仅专业人员可以使用,即使普 通的管理人员也能使用它对数据进行访问和分析。以前可能要花几个月时间来了解和分析数据,现在使用 Splunk Analytics for Hadoop,可能只要一小时甚至几分钟。”Sanjay Mehta表示。

   Splunk Analytics for Hadoop是首个采用Splunk虚拟索引技术(正在申请专利)的产品。用户通过它可以无缝使用 Splunk的所有技术,包括Splunk搜索处理语言(SPL)等。它可以实现互动地探索、分析和可视化存储在任何地方的数据,就像这些数据存储在 Splunk Index中一样。Sanjay Mehta介绍说:“未来,我们会把更多技术创新反馈给Hadoop社区。目前,我们正在邀请特定的用户 参与Hunk的测试。”

机器大数据也离不开Hadoop的更多相关文章

  1. 大数据系列(4)——Hadoop集群VSFTP和SecureCRT安装配置

    前言 经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...

  2. 大数据系列(3)——Hadoop集群完全分布式坏境搭建

    前言 上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...

  3. 大数据系列(2)——Hadoop集群坏境CentOS安装

    前言 前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...

  4. 一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了

    一文看懂大数据的技术生态圈,Hadoop,hive,spark都有了 转载: 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它 ...

  5. 大数据系列(5)——Hadoop集群MYSQL的安装

    前言 有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...

  6. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

  7. 大数据项目实践:基于hadoop+spark+mongodb+mysql+c#开发医院临床知识库系统

    一.前言 从20世纪90年代数字化医院概念提出到至今的20多年时间,数字化医院(Digital Hospital)在国内各大医院飞速的普及推广发展,并取得骄人成绩.不但有数字化医院管理信息系统(HIS ...

  8. 大数据系列(1)——Hadoop集群坏境搭建配置

    前言 关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方 ...

  9. 【大数据】Summingbird(Storm + Hadoop)的demo运行

    一.前言 为了运行summingbird demo,笔者走了很多的弯路,并且在国内基本上是查阅不到任何的资料,耗时很久才搞定了demo的运行.真的是一把辛酸泪,有兴趣想要研究summingbird的园 ...

随机推荐

  1. 2018.07.08 NOIP模拟 第K小数(二分)

    第K小数 题目背景 SOURCE:NOIP2016-AHSDFZ T1 题目描述 有两个正整数数列,元素个数分别为 N 和 M .从两个数列中分别任取一个数相乘,这样一共可以得到 N*M 个数,询问这 ...

  2. docker入门实战

    基本概念 Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上. Docker是一个重新定义了程序开发测试.交付和 ...

  3. s111 stark组件

    内容回顾: 1. 类当做key 2. django中的model所在app名称.以及小写类名. def index(request): # print(m1.UserInfo,m1.UserInfo. ...

  4. Paper格式-国际会议版

    Paper Title 论文题目 Authors Name/s per 1st Affiliation (Author) 作者名字/s 每第一作者 line 1 (of Affiliation): d ...

  5. TFlearn——(1)notMNIST

    1, 数据集简介    notMNIST, 看名字就知道,跟MNIST脱不了干系,其实就是升级版的MNIST,含有 A-J 10个类别的艺术印刷体字符,字符的形状各异,噪声更多,难度比 MNIST 要 ...

  6. nodejs 获取文件的编码方式

    使用nodejs获取文件夹内文件的编码方式:使用jschardet模块. 下面的代码还有问题,没有添加结束的语句,没有判断应该在哪执行res.send(). res.send()不能放在forEach ...

  7. DIN-A4 doublesided year calendar

    % DIN-A4 doublesided year calendar % Author: Robert Krause % License : Creative Commons attribution ...

  8. WPF/Silverlight开发的15个最佳实践(转发)

    英文出处:http://www.kunal-chowdhury.com/2010/08/some-best-practices-for-silverlight.html 作者:Kunal Chowdh ...

  9. DBCC--CHECKDB--使用快照还是表锁

    在SQL SERVER 2005及后续版本中, DBCC CHECKDB运行时不对数据表加排他锁,而使用内部数据库快照来保持数据一致性,内部数据库快照本质是sparse Filestream,使用Sp ...

  10. IIS发布网站之后,页面图片和js未加载出错

    [IIS相关]mvc做的web发布之后,运行之后界面上的图片和js都没有加载出来.      解决方案:安装IIS的时候需要勾选ASP选项,否则会出现这种情况. 如果项目是用.Netframework ...