經(jīng)過長時間的發(fā)展,大量的材料學(xué)術(shù)文獻積累了豐富的科學(xué)成果,以文本形式散布在文獻中的科學(xué)知識一般仍由研究人員手動收集和分析,這通常十分耗時且難以保證信息的完整度。如果將文獻中的材料科學(xué)信息表示為結(jié)構(gòu)化的知識,再結(jié)合知識關(guān)聯(lián)、融合、推理等方法,構(gòu)建材料知識圖譜,可以使研究人員準確而又高效地獲取信息,并對過往研究進行脈絡(luò)梳理,對有潛力的材料進行剖析。北京大學(xué)深圳研究生院新材料學(xué)院潘鋒教授團隊近年來致力于構(gòu)建材料知識圖譜以及解決其關(guān)鍵科學(xué)問題和技術(shù)難題,發(fā)展了一套高精度且高效的同名消歧以及信息搜索框架,在材料科學(xué)領(lǐng)域建立了主體(作者)與客體(材料)之間的對應(yīng)關(guān)系,結(jié)合機器學(xué)習(xí)和依賴匹配算法,構(gòu)建了名為MatKG的材料知識圖譜,并對鋰離子電池正極材料LiFePO4進行自動化分析,生成其發(fā)展里程碑,追蹤其研究趨勢,相關(guān)成果已發(fā)表于《先進能源材料》(Advanced Energy Materials, DOI:10.1002/aenm.202003580)。
在此基礎(chǔ)上,潘鋒團隊進一步深入研究材料知識圖譜的構(gòu)建技術(shù)和應(yīng)用潛力,實現(xiàn)了對隱藏在文本中的潛在材料關(guān)聯(lián)的挖掘,進一步實現(xiàn)了材料的推理預(yù)測。近日,在《先進功能材料》(Advanced Functional Materials, DOI:10.1002/adfm.202201437)發(fā)表了題為“Automating Materials Exploration with a Semantic Knowledge Graph for Li-ion Battery Cathodes”的研究論文。該研究提出了一種可實現(xiàn)材料科學(xué)知識嵌入的語義表示框架,通過多源信息融合提高材料實體的表示質(zhì)量以對材料科學(xué)文獻中的鋰離子電池正極材料實體進行精準挖掘并構(gòu)建正極材料知識圖譜,預(yù)測高性能鋰電池材料。該工作在幾乎不需要領(lǐng)域知識的情況下實現(xiàn)了復(fù)雜材料系統(tǒng)的基于文本挖掘的高效知識融合和推理與預(yù)測,將助力實現(xiàn)數(shù)據(jù)驅(qū)動的材料研究新范式。
材料科學(xué)文本中包含大量非結(jié)構(gòu)化、高度異構(gòu)形式的材料科學(xué)信息,并且材料子領(lǐng)域擁有特定的領(lǐng)域知識,不同子領(lǐng)域之間差異明顯,這都對材料科學(xué)知識的精準挖掘造成了極大的挑戰(zhàn)。由于數(shù)據(jù)驅(qū)動的材料研發(fā)新范式的應(yīng)用價值,構(gòu)建整合材料特性和應(yīng)用信息的數(shù)據(jù)管理平臺成為了目前迫切的需求,而基于文本挖掘的材料知識圖譜構(gòu)建及材料推理預(yù)測正是解決這一需求的重要手段。
研究團隊發(fā)展了一套名為DATWEM的材料信息語義表示框架以針對性生成特定子領(lǐng)域的材料實體表示,解決了復(fù)雜材料系統(tǒng)中的材料實體挖掘問題。該框架結(jié)合BiLSTM和雙重注意力機制,通過多源信息融合提高詞嵌入的質(zhì)量以對材料科學(xué)文獻中的特定領(lǐng)域材料實體進行精準挖掘。團隊將該框架應(yīng)用于鋰離子電池正極材料領(lǐng)域知識圖譜的構(gòu)建:首先對材料科學(xué)文本信息進行向量化,接下來使用兩個獨立的詞嵌入模塊對兩種不同語料庫(無機材料語料庫和正極材料語料庫)分別進行編碼,兩種語料庫編碼后的詞嵌入和關(guān)鍵詞模塊的詞嵌入隨后會被輸入DATWEM框架經(jīng)過雙層注意力模塊實現(xiàn)多源信息融合,增強材料實體的表示質(zhì)量,最后量化材料實體之間的相似度以構(gòu)建鋰離子電池正極材料知識圖譜。
?
?
?
材料知識圖譜的構(gòu)建流程
?
研究團隊在該知識圖譜的基礎(chǔ)上進行潛在正極材料的推理預(yù)測。通過無監(jiān)督聚類對不同材料之間的語義相似性進行可視化,保留與四種代表性正極材料(LiCoO2、LiFePO4、LiMn2O4、Li2MnO3)相關(guān)的較大聚類簇。在對已包含在語料庫中的正極材料進行過濾后,團隊發(fā)現(xiàn)了一種潛在的正極材料——Li2TiMn3O8,該材料與典型正極材料LiCoO2通過層狀結(jié)構(gòu)這一明顯共同特征形成直接連接路徑,通過包含適合用于正極材料的可變價元素這一潛在共同特征形成間接連接路徑,從而根據(jù)直接及間接路徑實現(xiàn)了該潛在材料的發(fā)現(xiàn)。
?
?
材料知識圖譜用于鋰電池正極材料的發(fā)現(xiàn)
?
北京大學(xué)深圳研究生院新材料學(xué)院碩士畢業(yè)生聶志偉為該論文的第一作者,新材料學(xué)院潘鋒教授、李舜寧副研究員以及深圳市內(nèi)容中心網(wǎng)絡(luò)與區(qū)塊鏈重點實驗室雷凱研究員為共同通訊作者。該研究得到了廣東省軟科學(xué)研究計劃項目、化學(xué)與精細化工廣東省實驗室、深圳市科技計劃、國家自然科學(xué)基金以及廣東省重點領(lǐng)域研發(fā)計劃的支持。
?
?
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com