以HADOOP为代表的云计算提供的仅仅是一个算法执行环境,为大数据的并行计算提供了在现有软硬件水平下最好的(近似)方法。并不能解决大数据应用中的全部问题。从详细应用而言,通过物联网方式接入IT圈的数据供应商(Data Provider)所面临的首要问题是数据分析的算法。其次才是算法的并行计算。

以汽车厂商(OEM,Tire1,Vendor,TSP)为例,所面临的大数据问题在 4V(Volume,Velocity,Variety,Veracity/Value)中,最突出的差异是Velocity,即实时性(Real Time)。有些信号的更新周期达到10ms。当然从应用採样和算法处理角度而言,可能并不须要这么密的数据,这就涉及到系统架构的差别,哪些功能放在终 端上执行。哪些功能在后台server上执行。以发动机转速信号为例。总线上这个信号的周期通常是10ms±5%,假设整个车联网系统要做的仅仅是驾驶员行为分析
(反映车辆执行状态),根本就用不上这么高频度的採样周期,全然能够10s往后台打包发一次数据。可是假设整个车联网的应用是发动机故障诊断或防盗报警, 须要的精度就不一样了,正常启动转速低于500rpm差点儿能够肯定发动机异常。假设等到30s后驾驶员才得到提示,发动机就该冒烟了。

而对于一些事件触发 信号,如锁车状态下发动机异常启动,后台server推断车辆被盗的时间要求则更高。

IT行业在评估系统採用NoSQL还是SQL的时候,汽车上数据处理首先面临的是怎样搜索。不同于传统互联网行业的文本数据,物联网或车辆网面对的都是时间序列数据(Time Series Data),在这一点上,看股市走势图上各种眼花缭乱的曲线就知道了。当某个信号样本被定义为故障模式后,历史数据里面是否还存在类似的曲线。这在时间序列里被成为相似度搜索(Similarity Search)的问题。

假设某个信号曲线总是周期反复,并呈现一定上升或下降趋势,未来是否能能对这个信号做出预測。这就是数据预測(Data Prediction)的问题。其他数据相关分析、数据聚类等被统称为数据挖掘(Data
Mining)的技术则建立在结构化数据的基础上。目的在于减少数据维度(Variety)。眼下在汽车控制和分析领域的应用实在有限。

遗 憾的是时间序列的分析和处理在车联网领域差点儿没有成熟的工具和方法,即使Matlab、R、Python这类专业的数学工具,提供的算法库也非常少。这一方 面是由于物联网行业积累的数据还不够丰富,应用前景不清晰;另有一些如股市数据、视频流数据、语音数据等。与传感网络数据性质类似。尽管受到重视。但涉及 安全与机密,难以开放成果。更重要的是,时间序列数据的处理涉及各专业应用领域的技术和方法。处理难度非常大。以汽车速度这一数据为例,机械工业时代大家关心的单位是小时,电子和信息工业时代单位是秒,在物联网行业中全过程、大样本的场景下讨论的则是毫秒,数据量和处理速度的要求超出现有普通计算机能力。

移动终端上速度来源于GPS或
MEMS(Velocity和Veracity较低。但获取easy),车载终端上可能来自轮速和发动机转速(Velocity和Veracity相对较高。 但获取困难)。在进数据库之前,不同数据源的解析要求也不一样。

但不管怎样,对数据的模式匹配或相似度搜索的要求都是共同的,因此在这一研究方向亟待可project化的计算方法。

Similarity Search最早提出似乎是在1993年(Agrawal),那时的数据还称不上海量,对“相似度”的定义更理论化一些。数学上对同样的定义是非常easy的,比方欧式距离(Euclidean Disatance)和动态时间弯曲(Dynamic Time Warping),但“相似”就会牵涉到程度的问题,不是简单设定一个容差或排序就能解决的。从算法project化的角度来说。牺牲精确性来提升算法的时间和空间效率是非常有必要的。

数据比較理想情况下也能够用模型相似(线性、多项式、指数),假设周期性比較明显也能够转换成频域方式用压缩相似来度量,但最直观的还是形态相似(上升、下降),普遍的做法是将时间曲线分段,这方面已经有一些可用的算法,但效果非常难达到大规模应用的要求。

* PAA(Piecewise Aggregate Approximation),分段累积近似

* PLA(Piecewise Linear Representation)。分段线性表示

* SAX(Symbolic Aggregate Approximation)。符号集合近似

* LM(Landmark Model),界标模型

相似度的定义本质上是描写叙述数据的基本特征,通过特征空间的定义来减少数据维度。

维度建立起来后就能对进入数据库的数据建立索引。压缩搜索的空间,为搜索算法的开发提供基础。

vehicle time series data analysis的更多相关文章

  1. 《利用Python进行数据分析: Python for Data Analysis 》学习随笔

    NoteBook of <Data Analysis with Python> 3.IPython基础 Tab自动补齐 变量名 变量方法 路径 解释 ?解释, ??显示函数源码 ?搜索命名 ...

  2. An Introduction to Stock Market Data Analysis with R (Part 1)

    Around September of 2016 I wrote two articles on using Python for accessing, visualizing, and evalua ...

  3. 数据分析---《Python for Data Analysis》学习笔记【04】

    <Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同 ...

  4. 数据分析---《Python for Data Analysis》学习笔记【01】

    <Python for Data Analysis>一书由Wes Mckinney所著,中文译名是<利用Python进行数据分析>.这里记录一下学习过程,其中有些方法和书中不同 ...

  5. 《python for data analysis》第十章,时间序列

    < python for data analysis >一书的第十章例程, 主要介绍时间序列(time series)数据的处理.label:1. datetime object.time ...

  6. 《python for data analysis》第九章,数据聚合与分组运算

    # -*- coding:utf-8 -*-# <python for data analysis>第九章# 数据聚合与分组运算import pandas as pdimport nump ...

  7. 《python for data analysis》第七章,数据规整化

    <利用Python进行数据分析>第七章的代码. # -*- coding:utf-8 -*-# <python for data analysis>第七章, 数据规整化 imp ...

  8. 《python for data analysis》第五章,pandas的基本使用

    <利用python进行数据分析>一书的第五章源码与读书笔记 直接上代码 # -*- coding:utf-8 -*-# <python for data analysis>第五 ...

  9. Autocorrelation in Time Series Data

    Why Time Series Data Is Unique A time series is a series of data points indexed in time. The fact th ...

随机推荐

  1. 神经网络中的激活函数——加入一些非线性的激活函数,整个网络中就引入了非线性部分,sigmoid 和 tanh作为激活函数的话,一定要注意一定要对 input 进行归一话,但是 ReLU 并不需要输入归一化

    1 什么是激活函数? 激活函数,并不是去激活什么,而是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来(保留特征,去除一些数据中是的冗余),这是神经网络能解决非线性问题关键. 目前知道的激活 ...

  2. oracle ash性能报告的使用方法

    活动会话历史报告活动会话历史v$active_session_history视图提供了在实例级别抽取会话活动信息.活动会话每分钟会被抽样一次且被存储在sga中的循环缓冲区中.任何被连接到数据库且正等待 ...

  3. 中文分词--最大正向与逆向匹配算法python实现

    最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描).例如:词典中 ...

  4. (Go)02.go 安装delve调试工具测试

    安装调试工具 go get github.com/derekparker/delve/cmd/dlv 增加断点调试 调试--->启动调试

  5. 43.qt通过qss自定义外观

    样式: 文件格式类型: candy.qss /* R1 */ QDialog { /*设置背景图片*/ background-image: url(:/images/background.png); ...

  6. Ubuntu16.04下将hadoop2.7.3源代码导入到eclipse neon中

    0.为什么会有这篇: 这篇文章的目的在于帮助想学习hadoop源码的内容,却在导入的过程中出现了各种问题的人. 或许你一定找了很多博客都无果,那么不用担心,我和你一样,这也是这篇文章存在的意义,废话少 ...

  7. 文档控件NTKO OFFICE 详细使用说明之预览PDF文件(禁止打印、下载、另存为、防抓包下载)

    1.在线预览PDF文件(禁止打印.下载.复制.另存为) (1) 运行环境 ① 浏览器:支持IE7-IE11(平台版本还支持Chrome和Firefox) ② IE工具栏-Internet 选项:将ww ...

  8. Android高效加载大图

    通过BitmapFactory的decode方法设置特定的options缩小图片到指定尺寸 1:通过加载设置了只编码图片边界options的图片,获取原图的尺寸和类型 2:计算图片需要缩小的倍数 3: ...

  9. 一系列令人敬畏的.NET核心库,工具,框架和软件

    内容 一般 框架,库和工具 API 应用框架 应用模板 身份验证和授权 Blockchain 博特 构建自动化 捆绑和缩小 高速缓存 CMS 代码分析和指标 压缩 编译器,管道工和语言 加密 数据库 ...

  10. idea中SVN的运用

    1.1.1 上传代码时可以指定忽略一些上传目录 1.1.2 设置项目上传的路径 1.1.3 解决上传路径中包含“svn”目录问题 上传 从 SVN 服务器中检出代码到工作空间