将神经网络做成实时分布式架构: Storm 分布式BP神经网络:    http://bbs.csdn.net/topics/390717623 流式大数据处理的三种框架:Storm,Spark和Samza: 许多分布式计算系统都可以实时或接近实时地处理大数据流.本文将对三种Apache框架分别进行简单介绍,然后尝试快速.高度概述其异同. Apache Storm 在Storm中, 先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology).这个拓扑将会被提交给集群,由集群中的主控节…
在这篇文章中,会实现一个BP(backpropagation)算法,并将之应用到手写的阿拉伯数字(0-9)的自动识别上. 训练数据集(training set)如下:一共有5000个训练实例(training instance),每个训练实例是一个400维特征的列向量(20*20 pixel image).用 X 矩阵表示整个训练集,则 X 是一个 5000*400 (5000行 400列)的矩阵 另外,还有一个5000*1的列向量 y ,用来标记训练数据集的结果.比如,第一个训练实例对应的输出…
摘要:本文提出一种基于局部特征保留的图卷积网络架构,与最新的对比算法相比,该方法在多个数据集上的图分类性能得到大幅度提升,泛化性能也得到了改善. 本文分享自华为云社区<论文解读:基于局部特征保留的图卷积神经网络架构(LPD-GCN)>,原文作者:PG13 . 近些年,很多研究者开发了许多基于图卷积网络的方法用于图级表示学习和分类应用.但是,当前的图卷积网络方法无法有效地保留图的局部信息,这对于图分类任务尤其严重,因为图分类目标是根据其学习的图级表示来区分不同的图结构.为了解决该问题,这篇文章提…
CVPR2020:基于自适应采样的非局部神经网络鲁棒点云处理(PointASNL) PointASNL: Robust Point Clouds Processing Using Nonlocal Neural Networks With Adaptive Sampling 论文地址: https://openaccess.thecvf.com/content_CVPR_2020/html/Yan_PointASNL_Robust_Point_Clouds_Processing_Using_No…
问题引入 使用storm可以方便的构建一种集群式的数据框架,并通过定义topo来实现业务逻辑. 但使用topo存在一个缺点, topo的处理能力来自于其启动时设置的worker数目,在很多情况下,我们需要能够根据业务压力来调整集群的处理能力,这时候单一的topo就无法解决这个问题了. 为了能够更加灵活的定义处理能力,可以考虑将原有的topo根据业务域进行拆分,做到互不干扰,灵活控制,而且为了能够更加经济的利用处理资源,可以考虑引入worker资源池的概念,达到对资源的充分利用. 但使用这种多to…
最近在看一些在线机器学习的东西,看到了trident-ml, 觉得比较有意思,就翻译了一下,方便有兴趣的读者学习. 本文为作者(掰棒子熊)翻译自https://github.com/pmerienne/trident-ml的关于trident-ml的一个文档.可以转载,但是请注明出处. Trident-ML 是一个实时的在线机器学习库. 它运行你通过可伸缩的在线学习算法创建实时预测特征. 这个库基于Storm, 后者是一个分布式流处理系统,运行于计算机集群之上,支持横向扩展. 这个库中所包含的算…
现有的当前最佳机器翻译系统都是基于编码器-解码器架构的,二者都有注意力机制,但现有的注意力机制建模能力有限.本文提出了一种替代方法,这种方法依赖于跨越两个序列的单个 2D 卷积神经网络.该网络的每一层都会根据当前生成的输出序列重新编码源 token.因此类似注意力机制的属性适用于整个网络.该模型得到了非常出色的结果,比当前最佳的编码器-解码器系统还要出色,而且从概念上讲,该模型也更加简单.参数更少. 引言 深度神经网络对自然语言处理技术造成了深远的影响,尤其是机器翻译(Blunsom, 2013…
1 文档说明 该文档描述的是以storm为主体的实时处理架构,该架构包括了数据收集部分,实时处理部分,及数据落地部分. 关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关,会一一进行分析. 该架构是本人所掌握的一种架构,可能会与其他架构有相似的部分,个人会一一解释对其的理解. 这个文章写的很详细,相信对大家在实时处理整体理解上会有帮助的. 2 实时处理架构 2.1 整体架构图 架构说明: 整个数据处理流程包括四部分,一部分是数据接入层,该部分从前端业务系统获取数据:中间部分是最重要的s…
一:元数据管理器==>元数据管理器是系统平台的“大脑”,在任务调度中有着重要的作用[1]什么是元数据?--->中介数据,用于描述数据属性的数据.--->具体类型:描述数据结构,数据的具体位置,数据间的依赖关系,数据的处理过程,数据的快照信息等.[2]为何要引入元数据--->实际案例:HDFS中的NameNode节点,Hive的MySql元数据表,MooseFs的Master节点,GFS(Google分布式文件系统)中的Master节点等.--->在大数据处理架构中引入元数据结…
基于storm的在线视频推荐算法.算法根据youtube的推荐算法  算法相对简单,能够觉得是关联规则仅仅挖掘频繁二项集.以下给出与storm的结合实如今线实时算法 , 关于storm见这里.首先给出数据流图(不同颜色的线条代表不同的数据流.在storm里面bolt也是能够声明数据流的.) 关联规则挖掘数据项的时候,有事务的概念.这里的事务的定义为:给定时间窗体内用户看过的视频集. 所以.我们须要这样一个bolt,依据实时日志收集每一个用户看过的视频集----user_videos aggreg…