ISWC 2018概览:知识图谱与机器学习
语义网的愿景活跃且良好,广泛应用于行业
语义网的愿景是「对计算机有意义」的数据网络(正如 Tim Berners Lee、James Hendler 和 Ora Lassila 在《科学美国人》发表的文章《The Semantic Web》所介绍的那样)。ISWC 是共享这一愿景的研究人员和工程师组成的社区;他们通过发表研究论文的形式作出贡献,目的是让这一愿景成为现实。具体而言,语义网研究人员的方法是创建知识图谱,这种数据结构的实体由 URL 进行唯一标识,并使用 RDF 语言通过三元组链接至其他实体。研究人员用知识图谱推断知识或新的三元组(利用规则语言),或将知识图谱作为训练集找到文本(或其他媒介)中有意义的关系(TimBL 写过一篇相关的有趣文章:https://www.w3.org/DesignIssues/)。
尽管有人宣称语义网已死或奄奄一息,但我却持相反意见:语义网很有活力且广泛应用于行业,这一事实在 ISWC 会议上也多次得到印证——多篇论文是关于工业和医疗领域的,它们很好地例证了语义网技术正用于解决企业问题。同样重要的还有企业级知识图谱小组(Panel: Enterprise-Scale Knowledge Graphs),强调了 Microsoft、Facebook、Ebay(用于改进产品搜索功能)、Google(改进搜索)以及 IBM(让用户建立自己的知识图谱)在知识图谱上的投入,这些企业都在自己的产品中应用了知识图谱技术,为基于关键词的搜索提供更好的答案,从而改进用户体验。
语义网应用于行业和医疗领域的例子:
Babylon 利用知识图谱让每个人都能了解药物和医疗健康方面的知识。他们用推断的方法将症状与正确的疾病信息相匹配,并在移动 app 中的聊天机器人上使用。下图是他们论文(https://link.springer.com/content/pdf/10.1007/978-3-030-00668-6_18.pdf)中的自动交互图:
Franz Inc 和英特尔合作的 Montefiore Health System 用知识图谱识别和标记有风险的患者,有助于医生制订合适的治疗计划。下图是他们论文(http://ceur-ws.org/Vol-2180/paper-78.pdf)中的知识图谱图示:
爱思唯尔提出了一个数据网络,允许内部开发人员利用关联数据(Linked Data)原则从不同的系统获取医疗数据。他们的论文(http://ceur-ws.org/Vol-2180/paper-85.pdf)还讨论了该过程中遇到的挑战和获得的经验,包括如何将关联数据方法集成到开发周期中。Paul Groth 的展示幻灯片如下所示:
全部幻灯片见原文。
NuMedii 利用知识图谱为那些无法治愈的疾病寻找有效药物,即通过为领域专家提供可视化工具找到有意义的关系和队列组织(cohort building)。他们的例子介绍了针对无法治愈的纤维化疾病(特发性肺纤维化,IPF)的药物研发。NuMedii 挖掘了 PubMed 中关于纤维化疾病的 700K 摘要,通过发现适用于其他纤维化疾病的获批药物的相关验证靶标(validated target),来确定 IPF 疾病的可能药物。下面是他们论文(http://ceur-ws.org/Vol-2180/paper-81.pdf)中的图。
FINRA 使用知识图谱(和文本挖掘)捕获到数百万文档的元数据,并利用元数据链接而不是文本搜索的相关性排名帮助用户找到相互关联的文档。知识图谱有助于他们提高监管分析(regulatory analysis)的效能。下面是他们论文(http://ceur-ws.org/Vol-2180/paper-82.pdf)中的图。
深度学习和知识图谱
许多工程师在将深度学习应用于知识图谱中看到的价值是:在创建或验证三元组时,只使用图中其他三元组而无需其他。经典的知识表征技术允许知识工程师创建推理器(reasoner)可解释的规则,以推断新的或丢失的三元组。例如,「类型为人的实体一定有出生日期的属性」这样的规则会给每一个类型为人的实例创建出生日期的三元组。这些规则一般通过本体(ontology)来表达,本体允许属性从上级到下级传播(详情请参阅:https://en.wikipedia.org/wiki/Knowledge_representation_and_reasoning)。确定正确的规则集是一个耗时的手动过程,但这个过程可以用机器学习来自动完成。
但找到正确的图表征将三元组提供给机器学习算法仍然是一个开放的研究领域。ISWC 的「深度学习」部分提出了以下方法:
Vecsigrafo(http://www.semantic-web-journal.net/content/vecsigrafo-corpus-based-word-concept-embeddings-bridging-statisticsymbolic-representational):这种方法依赖于联合词-概念嵌入(joint word-concept embedding)。他们用依赖于共生矩阵的 swivel 生成嵌入。不同的地方在于,swivel 使用单词作为矩阵的行/列,而他们使用的是从知识图谱收集到的更高级的术语(lexical term)。作者评估了这种方法在英语-西班牙语互译上的表现(就我所知,他们只翻译单词,而没有翻译句子)。他们最好的神经网络能够在 78% 的情况下将正确的词条译文列入最接近的前 5 个译文之内。在 90% 的情况下他们发现前 5 个建议翻译结果的语义确实很接近。
曼海姆大学的研究人员利用基于规则(从统计规律中学习规则)和基于嵌入的方法(将知识图谱嵌入更低维/潜在空间)比较了知识图谱补全方法(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_1.pdf)。他们在评估时使用了三个数据集:其中一个来自 wordnet,另外两个来自 freebase。测试集中的每一个三元组都有两个补全任务:给定关系和宾语,补全主语 (?, p, o);给定关系和主语,补全宾语 (s,p,?)。他们评估了 RuleN 和 AMIE 这两种基于规则的方法,和 TransE、RESCAL 和 HolE 这几种基于嵌入的方法。总体而言,作者发现基于规则的方法更加精确。根据这些结果,他们还建立了一个优于其他方法的集成方法。
苏黎世大学的研究人员使用多任务方法将知识图谱和文档嵌入结合起来,以改善预测和分析任务,他们将该研究称为 KADE(https://link.springer.com/content/pdf/10.1007/978-3-030-00671-6_2.pdf)。在 Kade 中,作者为文档和三元组创建一个共同的嵌入空间,目的是在不丢失原始嵌入特征的情况下,实现可以对接不同模型(图节点嵌入和文档嵌入)的嵌入策略。这项工作有着极大的潜力,它可以用从文档中提取出的更多三元组补全知识图谱,因为它在同一个向量空间中既表示三元组也表示文档。
知识图谱、语义科学和可重复性研究
值得一提的是有一个围绕语义科学的研讨会(SemSci)。这个主题就很有趣了,因为科学研究是产生新知识的引擎,但知识生成的输出仍是为了人类需求而优化的。SemSci 研讨会的愿景是向知识图谱提供此类科学知识。
研讨会由 Paul Groth 发起,他通过实验方法的自动化地提高了实验的可重复性。在他看来,应该由机器和机械臂自动从来源收集知识以进行实验。Paul 的研究表明实验室中使用的很多方法都可以通过调用 API 实现自动化。Paul 的幻灯片地址:https://www.slideshare.net/pgroth/the-challenge-of-deeper-knowledge-graphs-for-science。Yolanda Gil 做了相关的演讲,介绍了她在利用 AI 实现自动发现方面的研究(幻灯片见下图)。Yolanda 认为 AI 可以提供系统化、正确且无偏差的科学知识生成方法,更别说是更好地报告科学实验的结果了。在 Yolanda 展示的生态系统中,AI 可以提出假设,并寻找证明这种假设的方式——而这一切都是自动的。
其他关于这个主题的有趣讨论还有:
WhyIs:由 Jim McCusker 提出,允许用户与认知智能体交互,该智能体靠知识、目标和数据(纳米出版物)提供有用的答案和解释。Jim 将他的系统描述为一个用于知识管理、交互和推断的框架。
- 项目演示:https://redrugsdev.tw.rpi.edu/
- 论文:https://semsci.github.io/SemSci2018/papers/6/SemSci_2018_paper_6.pdf
证据提取(Evidence Extraction):Gully Burns 围绕从已经公开的研究中提取支持分子相互作用的数据提出了一项很酷的研究工作。这项工作用到在 INTACT 数据库中提到过的 2K 开放权限的论文,从 PDF 文件中提取图像(通过查看低密度单词区域实现)并用了「YOLO」方法进行子图识别。根据不同等级的准确率将子图分为子类(准确率为 97% 的是组织学图像,准确率为 40% 的是图表)。
社会语义网与隐私
Tim Berners Lee 在今年的 ISWC 上告诉我们 Solid 已经成为「语义网去中心化」(Decentralizing the Semantic Web)研讨会的一部分内容,该会议是由 Ruben Verborgh 和 Tobias Kuhn 共同组织的。这场会议的目标是创建可以利用知识图谱为用户创造价值的智能网络客户端和去中心化应用(他们接收了 7 篇论文,并将这些论文列在研讨计划中)。该会议的第二部分就有关于 Solid;Solid 背后的理念是要在网络上支持社交活动(很像 Facebook 和 LinkedIn 支持的那些活动),在允许人们与他人交流的同时还拥有自己的数据,使用包括数据形状验证在内的语义网原理,使他们的数据可以和其他用户的个人信息和帖子共存,还可以相互链接。社交 app 必须要获得用户数据的使用许可,这就意味着窃取和贩卖用户社交数据来盈利的掠夺性应用不会像现在这么容易开发。现在正在建立的库是 Solid 生态系统的一部分,它允许开发者通过 Javascript 使用 Solid(用 LDFlex 或 React)。
更多信息请参阅:http://solid.inrupt.com/
此外,就隐私和许可这一话题,Jen Goldbeck 发表了关于提高隐私意识和隐私重要性的讲话。这项演讲的主旨是将「隐私」视为「给予许可」的行为。例如,facebook 需要在特定目的下使用用户数据时,要从他们的用户那里获得许可。语义网技术允许聚合用户的大型的数据图——当然是在获得许可的情况下。考虑许可而不是「隐私」有助于创新,因为许可将讨论的焦点更多地放在了具体行为、个人数据点以及实用主义上。
查询与联合
产业界使用语义网技术(用于主数据管理、推理或其他应用)面对的挑战似乎一直都是查询速度的问题。语义网的查询语言是 SPARQL,而数据一般存储在三元组存储中。对于在关系数据库和文档数据库中可以良好运行的查询而言,可能还有一些比 SPARQL 更好的选择。当需要将查询联合到其他系统或者数据要回答的问题存储在多个位置(商业防火墙内部或外部)时,基于 SPARQL 的系统就很合适了。该领域取得的一些进展包括:
Saleem 等人在《LargeRDFBench: A billion triples benchmark for SPARQL endpoint federation》中提出用于联合 SPARQL 查询的新基准,它将数据指标、查询联合指标(包括其他系统不支持的复杂查询)以及性能指标考虑在内。有关指标的相关细节请参阅:https://twitter.com/hdeus/status/1050810577700835329。该作者发现一些联合查询系统返回的查询结果并不完整,但它们并没有让用户知道。用文中所述基准比较的联合查询有:FedX、Splendid、Anapsid 以及 HibisCus。
ISWC 2018概览:知识图谱与机器学习的更多相关文章
- 知识图谱与机器学习|KG入门 -- Part2 建立知识图谱
介绍 在本系列前面两篇文章中我一直在讨论Data Fabric,并给出了一些关于Data Fabric中的机器学习和深度学习的概念.并给出了我对Data Fabric的定义: Data Fabric是 ...
- 知识图谱与机器学习 | KG入门 -- Part1-b 图深度学习
介绍 我们正在定义一种新的机器学习方法,专注于一种新的范式 -- Data Fabric. 在上一篇文章中,我们对机器学习给出了新的定义: 机器学习是一种自动发现Data Fabric中隐藏的&quo ...
- 知识图谱与机器学习 | KG入门 -- Part1 Data Fabric
介绍 如果你在网上搜索机器学习,你会找到大约20500万个结果.确实是这样,但是要找到适合每个用例的描述或定义并不容易,然而会有一些非常棒的描述或定义.在这里,我将提出机器学习的另一种定义,重点介绍一 ...
- CCKS 2018 | 最佳论文:南京大学提出DSKG,将多层RNN用于知识图谱补全
作者:Lingbing Guo.Qingheng Zhang.Weiyi Ge.Wei Hu.Yuzhong Qu 2018 年 8 月 14-17 日,主题为「知识计算与语言理解」的 2018 全国 ...
- 如何系统学习知识图谱-15年+IT老兵的经验分享
一.前言 就IT而言,胖子哥算是老兵,可以去猝死的年纪,按照IT江湖猿龄的规矩,也算是到了耳顺之年:而就人工智能而言,胖子哥还是新人,很老的新人,深度学习.语音识别.人脸识别,知识图谱,逐个的学习了一 ...
- 知识图谱+Recorder︱中文知识图谱API与工具、科研机构与算法框架
目录 分为两个部分,笔者看到的知识图谱在商业领域的应用,外加看到的一些算法框架与研究机构. 文章目录 @ 一.知识图谱商业应用 01 唯品金融大数据 02 PlantData知识图谱数据智能平台 03 ...
- 知识图谱-生物信息学-医学顶刊论文(Briefings in Bioinformatics-2021):生物信息学中的图表示学习:趋势、方法和应用
4.(2021.6.24)Briefings-生物信息学中的图表示学习:趋势.方法和应用 论文标题: Graph representation learning in bioinformatics: ...
- Atitit 知识图谱解决方案:提供完整知识体系架构的搜索与知识结果overview
Atitit 知识图谱解决方案:提供完整知识体系架构的搜索与知识结果overview 知识图谱的表示和在搜索中的展1 提升Google搜索效果3 1.找到最想要的信息.3 2.提供最全面的摘要.4 ...
- 2. 知识图谱-命名实体识别(NER)详解
1. 通俗易懂解释知识图谱(Knowledge Graph) 2. 知识图谱-命名实体识别(NER)详解 3. 哈工大LTP解析 1. 前言 在解了知识图谱的全貌之后,我们现在慢慢的开始深入的学习知识 ...
随机推荐
- 机器学习算法系列:FM分解机
在线性回归中,是假设每个特征之间独立的,也即是线性回归模型是无法捕获特征之间的关系.为了捕捉特征之间的关系,便有了FM分解机的出现了.FM分解机是在线性回归的基础上加上了交叉特征,通过学习交叉特征的权 ...
- coding++:TransactionDefinition 接口介绍
TransactionDefinition类结构: 作用: 1.TransactionDefinition接口被用于Spring事物支持的核心PlatformTransactionManager接口, ...
- Python中矩阵的完全显示问题以及输出矩阵中的非零元问题
问题:有时需要查看矩阵的所有元素,但矩阵过大时中间部分会用[... ...]号代替,这样不方便数据分析. 解决: # 解决不完全显示问题 import numpy as np np.set_print ...
- docker 本地镜像导入导出 compose安装
docker 本地镜像导入导出 1.Docker导入本地gz镜像 [root@rocketmq-nameserver4 dev]# cat alibaba-rocketmq-3.2.6.tar.gz ...
- CSS3新增的选择器
1. 层次选择器 子元素选择器: 只选择子元素 父选择器 > 子选择器 后面紧相邻的兄弟元素: 选择器1 + 选择器2 后面所有的兄弟元素: 选择器1 ~ 选择器2 2.属性选择器 ...
- redis 练习
redis-server启动服务 redis-cli 进入redis redis 常用的keys键操作: exists key ---检查key是否存在 del key1 key2 ---删除指定的 ...
- STL之vector常用函数笔记
STL之vector常用函数笔记 学会一些常用的vector就足够去刷acm的题了 ps:for(auto x:b) cout<<x<<" ";是基于范围的 ...
- Vulnhub DC-7靶机渗透
信息搜集 nmap -sP 192.168.146.0/24 #主机发现 nmap -A 192.168.146.144 #端口扫描 查看robots.txt,看看admin,403,其他没有什么可利 ...
- 浅谈 PCA与SVD
前言 在用数据对模型进行训练时,通常会遇到维度过高,也就是数据的特征太多的问题,有时特征之间还存在一定的相关性,这时如果还使用原数据训练模型,模型的精度会大大下降,因此要降低数据的维度,同时新数据的特 ...
- js中相关的windows方法的使用和location的先关方法的使用
下面是关于windows的相关方法的简单介绍. setInterval():它有一个返回值,主要是提供给clearInterval使用. setTimeout():它有一个返回值,主要是提供给clea ...