服務(wù)全球科研社區(qū) 中國(guó)團(tuán)隊(duì)推出新一代科學(xué)文獻(xiàn)深度解析工具
中新網(wǎng)北京11月1日電 (記者 孫自法)記者11月1日從中國(guó)科學(xué)院自動(dòng)化研究所(自動(dòng)化所)獲悉,該所“AI+科學(xué)”研究團(tuán)隊(duì)近日正式推出新一代科學(xué)文獻(xiàn)解析工具——磐石·科學(xué)文獻(xiàn)解析器,為全球科研工作者提供真正“懂科學(xué)”的智能解析引擎。
目前,磐石·科學(xué)文獻(xiàn)解析器1.0版已正式開源,并作為核心組件集成于中國(guó)科學(xué)院自動(dòng)化所“磐石·科學(xué)基礎(chǔ)大模型”(ScienceOne),服務(wù)全球科研社區(qū)。下一步,研究團(tuán)隊(duì)將持續(xù)拓展其對(duì)多模態(tài)科學(xué)內(nèi)容的解析能力,并推動(dòng)構(gòu)建開放、協(xié)作的科學(xué)智能生態(tài)。

研究團(tuán)隊(duì)介紹說,磐石·科學(xué)文獻(xiàn)解析器從底層算法出發(fā),通過構(gòu)建面向科學(xué)語義理解的多模態(tài)訓(xùn)練體系與強(qiáng)化學(xué)習(xí)機(jī)制,在公式、文本、圖表等多元素協(xié)同解析上實(shí)現(xiàn)質(zhì)的飛躍,為全球科研工作者提供真正“懂科學(xué)”的智能解析引擎。
在磐石·科學(xué)文獻(xiàn)解析器研發(fā)過程中,團(tuán)隊(duì)摒棄僅依賴通用視覺語言大模型的思路,轉(zhuǎn)而構(gòu)建一套專為科學(xué)文獻(xiàn)場(chǎng)景量身定制的算法訓(xùn)練范式。其核心在于三大技術(shù)支柱:全場(chǎng)景覆蓋的科學(xué)數(shù)據(jù)構(gòu)建、多模態(tài)監(jiān)督微調(diào)策略,以及面向科學(xué)文獻(xiàn)語義的強(qiáng)化學(xué)習(xí)優(yōu)化機(jī)制。
在數(shù)據(jù)層面,系統(tǒng)性采集并構(gòu)建覆蓋手寫體、數(shù)字排版體與紙質(zhì)掃描體三大典型科學(xué)書寫形態(tài)的訓(xùn)練語料,這一“全形態(tài)、多學(xué)科、高質(zhì)量”的數(shù)據(jù)基礎(chǔ),為模型理解科學(xué)表達(dá)的復(fù)雜性提供了堅(jiān)實(shí)支撐。
模型訓(xùn)練階段采用兩階段優(yōu)化策略:首先通過多模態(tài)有監(jiān)督微調(diào),使模型初步掌握文本、公式、表格、插圖等異構(gòu)元素的聯(lián)合表征能力。在此基礎(chǔ)上,引入一種面向科學(xué)文獻(xiàn)語義的梯度強(qiáng)化學(xué)習(xí)策略優(yōu)化框架,實(shí)現(xiàn)模型不僅“看得清”,更能“理解對(duì)”。
為更好滿足科研需求,磐石·科學(xué)文獻(xiàn)解析器的輸出不僅包含高精度的文本與公式識(shí)別結(jié)果,還支持多種結(jié)構(gòu)化格式輸出,可無縫對(duì)接知識(shí)抽取、文獻(xiàn)重排版、智能問答等下游應(yīng)用。
研究團(tuán)隊(duì)表示,對(duì)多個(gè)科學(xué)文獻(xiàn)數(shù)據(jù)集開展系統(tǒng)評(píng)測(cè)的結(jié)果顯示,磐石·科學(xué)文獻(xiàn)解析器在篇章級(jí)解析、公式專項(xiàng)識(shí)別等任務(wù)中均展現(xiàn)出國(guó)際領(lǐng)先水平。(完)
                國(guó)內(nèi)新聞精選:
- 2025年11月04日 06:25:57
 - 2025年11月03日 17:06:40
 - 2025年11月03日 13:55:18
 - 2025年11月03日 12:17:42
 - 2025年11月03日 11:33:23
 - 2025年11月03日 10:41:25
 - 2025年11月01日 14:24:23
 - 2025年11月01日 12:51:35
 - 2025年11月01日 11:35:50
 - 2025年11月01日 11:18:35
 

                    















































                                    
                                    
                                    
                                    
                                    
                                    
                                    
                                    
京公網(wǎng)安備 11010202009201號(hào)