Notes of 大数据智能
资料
刘知远 等. 大数据智能:互联网时代的机器学习和自然语言处理技术. 北京:电子工业出版社. 2016.
1 深度学习——机器大脑的结构
深度学习(Deep Learning)的两个方面:
神经网络是一个带参数的函数,通过调整参数,可以拟合不同的函数。
(1) Learning 机器学习就是一种让计算机自动调整参数以拟合目标函数的过程;
(2) Deep 多个这种带参数的函数可以进行嵌套,构成一个多层神经网络,能够更好的拟合目标函数;逐层预训练的方法可以使这一方法获得较好的效果。
深度学习使用的人工神经网络是一种多层前馈神经网络:
f(x) = g3(g2(g1(x; w1); w2); w3), w1, w2, w3为参数
有效训练参数的方法:逐层预训练。
深度学习的应用:分类、结构分类、回归。
参考文献
(Hinton & Salakhutdinov 2006) Reduceing the dimensionality of data with neural networks.
2 知识图谱——机器大脑中的知识库
从杂乱的网页到结构化的实体知识,搜索引擎利用知识图谱能够为用户提供更具有条理的信息,甚至顺着知识图谱可以搜索更为深入、广泛和完整的知识体系,让用户发现他们意想不到的知识。
知识图谱的数据来源:大规模知识库、互联网链接数据、互联网网页文本数据、多数据源的知识融合。
知识图谱的典型应用:查询理解(query understanding)、自动问答(question answering)、文档表示(document representation)。
知识图谱的主要技术:实体链指(entity linking,包括实体识别(entity recognition)和实体消歧(entity disambiguation))、关系抽取(relation extraction)、知识推理(knowledge reasoning)、知识表示(knowledge representation)。
参考文献
人工智能专著:(Russell & Norvig 2009) 人工智能——一种现代方法。
关系抽取:
(Nauseates 2013) Semantic relations between nominals.
(Nickel 2015) A review of relational machine learning for knowledge graphs.
3 大数据系统——大数据背后的支撑技术
在实际处理深度学习问题中主要进行的是稠密矩阵的运算,传统的高性能计算适合处理。现有开源深度学习系统几乎都是在高性能计算库的基础上进行了封装。
支撑技术:高性能计算技术、虚拟化和云计算技术、基于分布式计算的大数据系统、大规模图计算和NSQL。
图计算
大规模图计算涉及了分布式图计算框架和单机图计算框架。
图的分析可以分为图的查询和计算两类。
图的查询是指在图中查找符合一定条件的顶点、路径或子图,这里问题可以有图数据库来解决,例如Neo4j。
图的计算是指根据图的拓扑结构以及顶点和边上所带的属性,经处理后得到所需结果的过程,包括以图的整体作为输入的算法,例如广度优先搜索BFS、深度优先搜索DFS、连通分支、PageRank等。图的规模不大时,有Boost Graph Library、SNAP、NetworkX等软件库支持图计算算法的实现。
参考文献
分布式图计算: (Malewicz 2010) Pregel: a system for large-scale graph processing.(Apache开源实现Giraph)
单机图计算:
GraphChi(Kyrola 2012) GraphChi: Large-scala graph computation on just a PC.
X-Stream(Roy 2013) X-stream: edge-centric graph processing using streaming partions.
GridGraph(Zhu 2015) GridGraph: Large-scala graph processing on a single machine using 2-level hierarchical partitioning.
以下章节涉及自然语言处理、信息检索、推荐系统等专有领域,暂不做处理。
4 智能问答——智能助手是如何炼成的
5 主题模型——机器的智能摘要利器
6 个性化推荐系统——如何了解电脑背后的TA
7 情感分析与意见挖掘——计算机如何了解人类情感
8 面向社会媒体打数据的语言使用分析及应用
Notes of 大数据智能的更多相关文章
- 基于TI 多核DSP 的大数据智能计算处理解决方案
北京太速科技有限公司 大数据智能计算,是未来的一个发展趋势,大数据计算系统主要完成数据的存储和管理:数据的检索与智能计算. 特别是在智能城市领域,由于人口聚集给城市带来了交通.医疗.建筑等各方面的压力 ...
- 奇点云数据中台技术汇(一) | DataSimba——企业级一站式大数据智能服务平台
在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器. 奇点云自研的一站式大数据智能服务平台——DataSimba ...
- 风险识别系统-大数据智能风控管理平台-企业风控解决方案– 阿里云 https://www.aliyun.com/product/saf
风险识别系统-大数据智能风控管理平台-企业风控解决方案– 阿里云 https://www.aliyun.com/product/saf
- 大快DKH大数据智能分析平台监控参数说明
2018年国内大数据公司50强榜单排名已经公布了出来,大快以黑马之姿闯入50强,并摘得多项桂冠.Hanlp自然语言处理技术也荣膺了“2018中国数据星技术”奖.对这份榜单感兴趣的可以找一下看看.本篇承 ...
- 大数据智能SOC解决方案
- chinacloud大数据新闻
2015年大数据发展八大趋势 (0 篇回复) “数据很丰满,信息很骨感”:Sight Machine想用大数据的方法,打碎两者间的屏障 (0 篇回复) 百度携大数据"圈地" ...
- Google大数据技术架构探秘
原文地址:https://blog.csdn.net/bingdata123/article/details/79927507 Google是大数据时代的奠基者,其大数据技术架构一直是互联网公司争相学 ...
- 大数据的正确用法你get到了吗?
Azure 镜像市场已于2016年9月21日正式上线,在这个统一的集成平台中,客户可以轻松地浏览.搜索和选择一系列来自第三方的应用和解决方案,并可以将其快速一键部署到 Azure 实例当中. 在移动为 ...
- 经典书单、站点 —— 大数据/数据分析/R语言
1. 科普.入门 <大数据智能>,刘知远.崔安顺等著: 特色:系统,宏观和全面: 2. R 语言站点 http://langdawei.com/:R 语言数据采集与可视化:
随机推荐
- Redis学习笔记~实现消息队列比MSMQ更方便
什么是队列:简单的说就是数据存储到一个空间里(可以是内存,也可以是物理文件),先存储的数据对象,先被取出来,这与堆栈正好相反,消息队列也是这样,将可能出现高并发的数据进行队列存储,并按着入队的顺序依次 ...
- 基于内存,redis,mysql的高速游戏数据服务器设计架构
转载请注明出处,欢迎大家批评指正 1.数据服务器详细设计 数据服务器在设计上采用三个层次的数据同步,实现玩家数据的高速获取和修改. 数据层次上分为:内存数据,redis数据,mysql数据 设计目的: ...
- (原创)如何使用selenium 驱动chrome浏览器并且打开方式为手机模式-转载请注明出处
随着移动设备使用率的不断增加,移动页面的测试也变得越来越重要. 对于互联网公司M站的测试,如果不通过专用的appium等移动端测试工具是否还有方便快捷的办法呢?答案当然是有啊. 使用chrome dr ...
- MySQL主从同步报错排错结果及修复过程之:Slave_SQL_Running: No
起因调查: 收到大量邮件报警想必事出有因,就问同事到底发生了什么?同事登录从库查看,发现出现如下报错提示,表示与主库同步失败,一直卡在哪里,看他弄了两个多小时,问题越来越多,解决一个恢复平静了一两分钟 ...
- SAE使用心得1
最近准备在新浪云端SAE上挂点自己的小网站,这样自己开发个什么东西别人能用.但是第一次接触SAE,遇到一些问题,记下来给大家看. 1.安装的svn版本不能高于 1.8,否则无法向SAE提交代码. 2. ...
- android 测试 Monkey 和 MonkeyRunner 的使用
一.Monkey的使用 Monkey使用起来比较简单,简而言之就是模拟手机点击效果,随机发送N个点击动作给手机,主要对于程序的稳定和承受压力的测试. 1.首先连接上你的手机或者启动模拟器: 2.运行C ...
- java多线程之 基本概念
一.线程的五种状态 1. 新建状态(New) : 线程对象被创建后,就进入了新建状态.例如,Thread thread = new Thread().2. 就绪状态(Runnable) ...
- 010-Scala单例对象、伴生对象实战详解
010-Scala单例对象.伴生对象实战详解 Scala单例对象详解 函数的最后一行是返回值 子项目 Scala伴生对象代码实战 object对象的私有成员可以直接被class伴生类访问,但是不可以被 ...
- eap-tls
eap-tls 文件路径 用途 示例 备注 #gedit /usr/local/etc/raddb/sites-available/default #gedit /usr/local/et ...
- POJ 题目1141 Brackets Sequence(区间DP记录路径)
Brackets Sequence Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 27793 Accepted: 788 ...