导语

Nature评论:人工智能若何助力科学文献搜索_对象_人工智能 AI简讯

随着用于文献和数据搜索的人工智能工具的发展,开拓职员试图让天生和验证假设的过程变得自动化。

编译:集智俱乐部翻译组

来源:Nature

原题:How AI technology can tame the scientific literature

打算机科学家 Christian Berger的研究团队在进行汽车自动驾驶算法研究时,碰着一个困难的阻碍。
瑞典哥德堡大学的科学家们在一篇系统的文献综述中找到了1万多篇关于这个课题的论文。
Berger表示,精确地调研这些论文须要花费一年的韶光。

幸运的是,他们得到了Iris.ai的帮助,Iris.ai是一个基于人工智能的文献搜索工具。
只要输入300-500字的问题描述或者输入现有论文的网址,这项位于柏林的做事就会返回一个舆图,舆图上有成千上万个匹配的文档,并且根据主题做了可视化分类。

©Iris.ai

Iris.ai是一系列基于人工智能的新型搜索工具之一,它们都供应了知识的定位导航。
类似的工具还有华盛顿西雅图的艾伦人工智能研究所与微软研究院联合开拓的Semantic Scholar,目前在学术界利用十分广泛。
每种工具都各有特色,它们给科学家供应了查找科学文献的不同视角,不同于PubMed和Google Scholar这样的传统工具。
乃至有些时候,通过揭示搜索结果之间的隐含联系,可以提出新的假设来辅导实验。

semantic scholar

Google scholar

伦敦艾伦图灵研究所的数据科学家Giovanni Colavizza长期研究学术出版物的全文剖析。
他表示,这些工具供应了当前最前辈的信息检索。
传统的工具紧张用作引文索引,而基于人工智能的工具可以对文献进行更深入的剖析。

功能强大,也意味着这些工具常日很昂贵,并且受到它们所搜索的那部分科学文献的限定。
普尔曼华盛顿州立大学的动物康健图书管理员Suzanne Fricke写过一篇关于Semantic Scholar的资源评论(S. Fricke J. Med. Lib. Assoc. 106, 145–147; 2018),他表示,这些工具不会进行全面搜索,例如,有些工具旨在让你快速理解某个话题,以是它们该当与其它工具合营利用。

Berger回应了这种不雅观点:“只利用一个研究引擎不能自动回答每个问题。

用科学知识演习机器

对付海量的科学文献,基于人工智能的”快速阅读器“非常有用。
据估计,全天下每年有100万篇论文揭橥,即每30秒一篇。
科研职员险些不可能跟得上这样的速率,即便是在他们自己狭小的学科领域里。
因此,有些人试图通过打算来办理这个问题。

这些工具所利用的算法常日有两个功能——提取科学内容和供应高等做事,如对搜索结果进行过滤、排序和分组。
Colavizza阐明说,提取科学内容的算法常日利用自然措辞处理(NLP)技能,这项技能试图阐明人类措辞。
例如,开拓职员可以利用有监督的机器学习,这就涉及到用论文的作者和参考文献等实体信息来标注演习集中的样本,然后演习算法来识别和提取实体。

为了供应更高等的做事,算法常常布局知识图谱,详细描述实体间的关系并展示给用户。
例如,人工智能表明,如果句子中提到了药物和蛋白质,那么它们之间是有关系的。
Colavizza说:“知识图谱将这种关系编码为数据库中的一种显性关系,而不仅仅是文档中的一个句子,从实质上来说,这使得机器可以读取实体间的关系。

Colavizza指出说,Iris.ai采取不同的方法,它将文档按照主题分组,这些主题是根据文档所用词汇来定义的。
Iris.ai搜索连接库(Connecting Repositories ),这是一个可搜索的数据库,有超过1.34亿开放访问的论文和用户文库供应访问权限的期刊。
Iris.ai的首席技能官Viktor Botev说,Iris.ai联合了三种算法来创建反响词汇利用频率的“文档指纹”,然后根据干系性对论文进行排序。

搜索结果便是一张干系论文的舆图,该公司操持未来要通过识别每篇论文中提出的假设来补充搜索结果。
该公司还在开拓一个基于区块链并行打算的Aiur项目,该项目试图利用人工智能来对照其它科学文档检讨研究论文的方方面面,从而验证假设。

Colavizza表示,像Iris.ai这样的工具可以进行免费的基本查询,有助于在粗略理解的领域对文献进行初步探索。
但是如果要进行更加细致的搜索来使研究职员快速进入新领域,那每年就要花费高达2万欧元(合2.3万美元)来购买做事。

Colavizza建议,寻求更深入理解本专业的专家可以考虑利用免费的基于人工智能的工具,如Microsoft Academic或Semantic Scholar。
还可以选择Dimensions,其基本功能是免费的,但搜索并剖析授权数据和专利数据,以及利用可编程的维度搜索措辞(Dimensions Search Language)获取数据则需付费。
(Dimensions由Digital Science科技公司创建,由Holtzbrinck出版集团运营,该集团在《自然》杂志出版商也持有大量股份。

Colavizza还表示,Semantic Scholar拥有一个基于浏览器的搜索栏,它与谷歌等引擎非常相似。
但是它比谷歌学术供应了更多的信息来帮助专家优化结果。
这些信息包括盛行度指标、数据集和方法等主题,以及引用文本的确切摘录。
“我很惊异地创造,当一种方法或想法非常完善以至于研究职员没有提到它的起源时,这个工具也能捕捉到间接的引用。
”Colavizza补充道。

Semantic Scholar的总经理Doug Raymond表示,每个月有一百万人利用Semantic Scholar的做事;Semantic Scholar利用NLP技能提取信息,同时构建联系以确定信息是否干系且可靠。

Raymond还补充道,Semantic Scholar可以识别不明显的联系,比如打算机科学的方法论与打算生物学的联系;可以帮助识别尚未办理的问题和主要的假设来验证或反证。
Raymond说:“目前,Semantic Scholar从打算机科学和生物医学科学中网络了超过4000万份文档,其语料库正在增长。
终极,我们希望融入所有学术知识。

对付其它工具,比如来自德国海德堡的欧洲分子生物学组织(European Molecular Biology Organization,EMBO)的SourceData,实验数据是一个更关键的问题。
作为 EMBO 出版物《分子系统生物学》的主编,Thomas Lemberger 想用数字代表数据来使查找更加方便。

因此,SourceData研究了数字和它们的标注来列出实验中涉及的生物工具,例如小分子、基因或者有机体。
然后,研究职员可以查询它们的关系,找到办理这个问题的论文。
例如,搜索“胰岛素会影响葡萄糖吗”会检索出10篇论文,个中包含一篇“丈量胰岛素(分子)对葡萄糖(分子)的影响”。

Lemberger说,SourceData正处于初始研发阶段,已经创建了一个知识图谱,个中包括在大约1000篇文章的撰写过程中人工进行的20000个实验。
这个在线工具目前仅限于查询这个数据集,但是Lemberger和他的同事们正在上面演习机器学习算法。

SourceData团队还在研究一种针对神经科学的改进版工具,参与该项目的团队还有柏林洪堡大学神经生物学家Matthew Larkum领导的跨学科神经科学联合会。
其余,马萨诸塞州剑桥的IBM Watson Health公司在八月份宣告,它将结合人工智能与来自Springer Nature的基因数据来帮助肿瘤学家制订诊疗方案。

天生有代价的假设

在那些从事假设天生的人中,大约有20个是Euretos的客户。
Euretos总部位于荷兰乌德勒支,其联合创始人Arie Baak阐明说,该公司向工业界和学术界***工具,紧张用于创造和验证生物标志物和药物靶点,然而他没有透露详细价格。

Euretos 利用 NLP 技能来阐明研究论文,不过比较于它整合的二百多个生物医学数据资源库,这一点是次要的。
为了理解数据,这个工具依赖很多“实体”,即构造化的关键词列表,生命科学家创建这些列表来定义和连接其主题领域的观点。

Baak通过搜索一种称为CXCL13的旗子暗记蛋白来展示该工具的利用。
在终极揭橥的出版物列表上,有\"大众代谢产物\公众或\"大众疾病\"大众等种别。
在这点上,软件界面看起来很像Google Scholar或 PubMed,都有一个有序的结果列表。
但是,点击一个种别就会显示出额外的维度。
例如,选择“基因”,就会列出与 CXCL13干系的基因列表,按引用它们的出版物数量排序;再次点击,则会呈现描述CXCL13和其他基因之间关系的图表。

荷兰莱顿大学医学中央( Leiden University Medical Centre,LUMC)的研究职员表明,这种方法可以产生新的假设,识别现有药物可能治疗的候选疾病。

合成生物学研究领域文献同被引聚类图

2017年12月,这个研究小组在罗马举办的“用于医疗保健和生命科学的语义网运用和工具(Semantic Web Applications and Tools for Health Care and Life Sciences)”会议上展示了其结果。
他们还利用Euretos来识别一种称为脊髓小脑性共济失落调3型(spinocerebellar ataxia type 3)的神经系统疾病的基因表达变革( L. Toonen et al. Mol. Neurodegener. 13, 31; 2018)。

那么,研究职员是否该当担心基于人工智能的假设天生会让他们失落业?Colavizza不这么认为。
他表示,假设天生是一个\"大众非常具有寻衅性的任务\"大众,早期的改进将是循规蹈矩的;到目前为止所提出的假设\"大众大多是在相对不令人惊异的领域\"大众。

当然,这种情形可能会改变。
但无论如何,打算机天生的假设都必须经由测试, 这就须要人类研究职员。
LUMC 研究员Kristina Hettne提醒道:“在没有调查潜在证据的情形下,人们不应该直接相信那些自动天生的假设。
纵然这些工具可以帮助网络已知证据,我们也仍须进行实验验证。

翻译:王佳纯

审校:刘培源

编辑:王怡蔺

原文:

https://www.nature.com/articles/d41586-018-06617-5