随着数据挖掘技术的日益成熟,将其运用于材料科学研究已逐渐成为可能。这导致材料信息学这一新兴领域的出现。经过长时间的发展,大量的材料学术文献积累了丰富的科学成果,以文本形式散布在文献中的科学知识一般仍由研究人员手动收集和分析,这通常十分耗时且难以保证信息的完整度。如果将文献中的材料科学信息表示为结构化的知识,再结合知识关联、融合、推理等方法,构建材料知识图谱,可以使研究人员准确而又高效地获取信息,并对过往研究进行脉络梳理,对有潜力的材料进行剖析。材料知识图谱作为高效的知识管理载体,能够大规模地从海量材料科学文献中抽取信息,建立实体之间的对应关系,有助于阐明实体之间的内在关联,这将极大地促进我们对科学知识发展的宏观及全面理解。

基于此,北京大学深圳研究生院新材料学院潘锋教授课题组结合机器学习和依赖匹配算法,发展了一套高精度且高效的同名消歧以及信息搜索框架,在材料科学领域建立了主体(作者)与客体(材料)之间的对应关系(图1),构建了名为MatKG的材料知识图谱,并对锂离子电池正极材料LiFepO4进行自动化分析,生成其发展里程碑,追踪其研究趋势。知识图谱在材料科学中的应用将为材料研究领域提供一个高效的信息处理平台,MatKG可以提供自动化的材料科学领域的信息获取方式,有助于融合和完善各领域的材料科学知识。相关成果以“Construction and Application of Materials Knowledge Graph Based on Author Disambiguation: Revisiting the Evolution of LiFepO4”为题,近日发表在国际知名学术杂志《先进能源材料》(Advanced Energy Materials,DOI:10.1002/aenm.202003580,影响因子25)上。

图1.材料知识图谱的架构

知识图谱是由相互连接的实体以及相关的属性组成的,高精度地实体消歧(如何准确确定文章的作者)是准确构建知识图谱的前提,判断知识库中的同名实体(同名同姓是否是同一个人)是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义是一项重要任务。在材料知识图谱中,作者的歧义化是知识库构建的主要障碍之一,同名以及相似姓名变体的作者经常会被混淆,常造成信息的搜索或关联错误。因此,基于作者信息以及文本信息,团队结合机器学习和依赖匹配算法对材料知识图谱中的主体(作者)进行高精度消歧,并引入剪枝策略以解决在面对庞大且复杂的数据时查找效率较低的问题,实现高效信息匹配和搜索,从而构建了MatKG的框架(图2)。

图2.MatKG的构建流程图

MatKG可以为不同领域的研究人员提供快速而客观的学术界趋势跟踪,研究团队以诺贝尔奖获得者Good enough教授锂电池正极材料LiFepO4为例,利用建立好的知识图谱框架,对其进行自动化分析,关联相关学者及其研究信息,建立用于锂离子电池的LiFepO4的发展里程碑图(图3),发现其发展的重要历程。

图3.用于锂离子电池的LiFepO4的发展里程碑图

这项工作结合自然语言处理、机器学习等方法,系统地整理了科学出版物中的知识,从而可以有效提高科研人员精准获取信息的效率,有助于探索潜在的知识联系以及有效处理复杂多样的关联分析,并发现隐藏在数据和文本中的有价值的信息。该研究成果为材料科学研究带来了新的见解和启发。研究团队在未来将结合材料的更多特性信息构建基于MatKG的材料推理和预测系统,旨在为材料开发和设计开辟新的范式。

这项工作是在潘锋和李舜宁副研究员的共同指导下,由第一作者北京大学深圳研究生院新材料学院硕士研究生聂志伟及相关人员一起完成。该工作得到国家材料基因组重点研发计划、深圳市科技计划和化学与精细化工广东省实验室科研启动项目的大力支持。