您的位置:首页>国际 >内容

Salesforce Research为爱因斯坦提供动力的知识图和机器学习

2019-03-19 10:48:33来源:
导读 Salesforce Research:为爱因斯坦提供动力的知识图和机器学习现实生活中可解释的人工智能可能意味着爱因斯坦不仅要回答你的问题,还要提供

Salesforce Research:为爱因斯坦提供动力的知识图和机器学习

现实生活中可解释的人工智能可能意味着爱因斯坦不仅要回答你的问题,还要提供理由。在图形和机器学习的交叉点上完成自然语言处理的最新技术。

精选

Windows 7与Windows 10:这是一个很大的推动力

数字化转型:超级马拉松运动员的10节课

英特尔在量子计算领域提供AI突破

最佳直播电视和视频流服务:剪线钳的首选

一个超级怪异的话题,可能会在现实世界中产生超级重要的影响。这种描述非常适合从冷融合到知识图的任何东西,因此需要进行一些拆包。(提示:这是关于Salesforce的,据我们所知,Salesforce并没有融入冷聚变。)

另外:

如果你是科学,你很可能知道arXiv.org。arXiv是科学论文的电子出版物预印本库。换句话说,这是最前沿研究经常出现的地方。几个月前,来自Salesforce的研究人员的出版物出现在arXiv中,名为“带有奖励形成的多跳知识图推理”。

本文阐述了一种将知识图与机器学习结合使用的技术;具体而言,机器学习的一个分支称为强化学习。作为一种充分利用两个世界的方法,这是一个很有希望的东西:策划的,自上而下的知识表示(知识图),以及紧急的,自下而上的模式识别(机器学习)。

这个看似枯燥的话题引起了我们的兴趣,原因有很多,其中最重要的原因是看到Salesforce正在应用这一点。Salesforce的研究科学家,该论文的主要作者Xi Victoria Lin非常友好地回答了我们的问题。

SALESFORCE RESEARCH:一切都是为了回答问题

从显而易见的事实开始,本文发表的事实本身就说明了很多。如今,Sal​​esforce可能面临着其他人在研究人员配备时所面临的同样问题:机器学习在现实世界问题中的适用性的蓬勃发展意味着吸引和留住研究人员的竞争正在激烈进行。

此外:

研究界人士通过在会议和期刊上发表文章,有与世界分享成就的精神。据推测,这与我们为何看到最近来自Salesforce等地的一些出版物有很大关系。

Lin在2018年的自然语言处理经验方法会议(NLP)中提出的这篇论文受到了好评。作者还在Github上发布了源代码。但那是什么,他们的方法的动机和新颖性是什么?

Salesforce Einstein:Salesforce产品中嵌入的虚拟AI助手。Salesforce正在研究如何在其功能中添加可解释的问题解答。

(图片来源:Salesforce)

对于Salesforce Research来说,这都是关于问答的。这显然可以浏览他们的主要主题和出版物。考虑到Salesforce的产品,这是有意义的:要求在CRM中找到您感兴趣的任何内容,而不是必须通过API或用户界面,无论多么好 - 都不会那么容易和高效。设计那些可能是?

林说:

“在不久的将来,我们希望机器能够回答多模态信息的问题,包括非结构化数据,如文本和图像,以及结构化知识图和网络表。这项工作是向建筑迈出的一步阻止,使问答系统能够有效地从(不完整的)知识图中检索目标信息。“

她接着补充说,Salesforce Research的目标是解决AI的沟通问题。Lin和她的同事研究各种NLP问题,从文本摘要的进步到学习如何构建更高效的自然语言界面到统一的语言理解方法:

“深度学习是实验室的主题,这意味着我们也在NLP以外的领域工作,包括核心机器学习项目,如新颖的神经架构和其他应用领域,如计算机视觉和语音技术。”

尚未在实际数据上进行测试

林还强调,深度学习并不是最终目的。例如,有人向她指出,Lin的团队提出的使用深度强化学习的路径寻找方法与1992年论文中提出的“关系寻路”技术有关:

“该论文中的学习算法不是基于神经的。我从中得到的结论是,重新审视归纳逻辑编程中的早期发现,并可能将它们与深度学习方法相结合,可能会产生更强大的算法。”

显而易见的整合点是爱因斯坦,Salesforce自己的虚拟助手。根据Lin的回答,看起来这个作品并没有被融入爱因斯坦,尽管从概念上讲它似乎是可能的。Lin解释说,这项工作是一个研究原型,使用公开提供给学术界的基准数据集。

另外:

一个不完整的知识图,其中一些链接(边)不明确。(图片:Lin等人)

似乎Salesforce数据和基础结构未在发布的上下文中使用。Lin使用的所有数据都可以放入4G RAM机器中。Līn表示,并不真正需要用于表示和存储的特殊数据结构,以便快速访问图表。

“我将图表的事实存储在一个简单的.txt文件中,并在运行实验时将整个图表读入内存。这是学术界KG研究的常见做法。将该模型应用于行业规模的知识图表需要特殊的基础设施。”

多跳推理是对不完整知识图的查询应答(QA)的有效方法。但是,这种方法存在一些问题:假阴性和对虚假路径的敏感性。Lin的工作有助于解决这些问题,主要是通过添加更多不完整知识图的链接。

我们想知道的一件事是这些链接是存储还是动态生成。Lin解释说,到目前为止,他们已经为原型动态生成答案。但在现实世界中,这两种方法很可能是混合的:

“人们会缓存生成的链接,定期手动验证它们,并将经过验证的链接添加回知识图表中以便重复使用并生成新的推理路径。我们还没有在真实数据上测试这个假设。”

图表和机器学习的胜利

Lin的工作的另一个贡献是在嵌入方法中所谓的知识图关系的符号组合。嵌入是一种广泛用于机器学习的技术,包括使用图形的机器学习推理。但是这种方法没有明确地利用逻辑组合规则。

另外:

例如,从嵌入(A born_in California)和(California is_in US),(A born_in US)可以推断出来。但是像这样的逻辑组合步骤是通过知识图嵌入隐含地学习的。这意味着这种方法不能提供这样的逻辑推理路径作为答案的支持证据。

Lin的方法将离散图形路径作为输入,因此明确地模拟了组合性。这意味着它可以为用户提供推理路径,该路径由知识图中存在的边缘组成,作为支持证据。换句话说,这可以导致所谓的可解释AI,使用知识图的结构作为答案的支持证据,代价是计算密集度更高的算法。

图形和机器学习的结合是一个有前途的研究方向,作为桥接自上而下和自下而上的AI的一种方式获得了更多的关注疯狂的AI

结合图形和机器学习最近受到了很多关注,特别是自DeepMind,Google Brain,麻省理工学院和爱丁堡大学的研究人员发表的工作以来。我们问Lin她对此的看法是什么:图表是否适合喂养神经网络?林认为这是一个悬而未决的问题,并且在这个方向上需要进行大量的研究:

“NLP中的神经网络和图形的组合是相当初步的 - 大多数神经架构将序列作为输入,这是最简单的图形。甚至我们的模型也使用关系路径而不是关系子图形。”

Lin提到了南加州大学和微软的研究人员所做的工作[PDF],它将LSTM推广到模型图。她还提到了阿姆斯特丹大学的Thomas N. Kipf所做的工作[PDF],提出图形卷积网络来学习支持节点分类和其他下游任务的隐藏节点表示。

“看到越来越多的神经架构专门用于提供一般图形作为输入,这绝对是有趣的。我们现在看到图形用于表示多个AI域之间的对象之间的关系。图形是一种强大的表示形式通过简单地改变节点和边缘的定义,我们可以使用它来模拟各种数据类型。

虽然对图形的推断很难,但它提供了一种集成多模态数据(文本,图像,表格等)的潜在方法。加州大学欧文分校的研究人员在EMNLP中提出了一篇非常有趣的论文,它通过利用多模态关系数据来改进知识图的完成。例如,他们提出的体系结构将图像和自由格式文本作为节点特征。

外卖?基于图形的机器学习推理可能还处于早期阶段,但最初的结果看起来很有希望。所以,如果有一天你看到爱因斯坦正在回答你的问题,以及支持这方面的证据,那么你可能会有像Lin这样的图表和研究人员来感谢它。

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章