日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          新聞中心

          EEPW首頁(yè) > 業(yè)界動(dòng)態(tài) > 無(wú)需「域外」文本,微軟:NLP就應(yīng)該針對(duì)性預(yù)訓(xùn)練

          無(wú)需「域外」文本,微軟:NLP就應(yīng)該針對(duì)性預(yù)訓(xùn)練

          作者: 時(shí)間:2020-08-10 來(lái)源:51cto 收藏

           在生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域訓(xùn)練模型,除了特定數(shù)據(jù)集,「域外」文本也被認(rèn)為是有用的。但最近,的研究人員「大呼」:我不這么覺得!

          本文引用地址:http://yuyingmama.com.cn/article/202008/416905.htm

          什么是預(yù)訓(xùn)練?這是一個(gè)拷問(wèn)人工智能「門外漢」的靈魂問(wèn)題。生而為人,我們不需要一切從零開始學(xué)習(xí)。但是,我們會(huì)「以舊學(xué)新」,用過(guò)去所學(xué)的舊知識(shí),來(lái)理解新知識(shí)和處理各種新任務(wù)。在人工智能中,預(yù)訓(xùn)練就是模仿人類這個(gè)過(guò)程。

          預(yù)訓(xùn)練(pre-training)這個(gè)詞經(jīng)常在論文中見到,指的是用一個(gè)任務(wù)去訓(xùn)練一個(gè)模型,幫助它形成可以在其他任務(wù)中使用的參數(shù)。

          用已學(xué)習(xí)任務(wù)的模型參數(shù)初始化新任務(wù)的模型參數(shù)。通過(guò)這種方式,舊的知識(shí)可以幫助新模型從舊的經(jīng)驗(yàn)中成功地執(zhí)行新任務(wù),而不是從零開始。

          以前的研究已經(jīng)表明,在像生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域,當(dāng)訓(xùn)練一個(gè)模型時(shí),特定領(lǐng)域的數(shù)據(jù)集可以提高準(zhǔn)確性。不過(guò),還有一個(gè)普遍的認(rèn)識(shí)是,「域外」文本也有用。但是!研究人員對(duì)這一假設(shè)提出了質(zhì)疑。

           近日,研究人員提出一種人工智能技術(shù),針對(duì)生物醫(yī)學(xué)的領(lǐng)域特定語(yǔ)言模型預(yù)訓(xùn)練。并自信地說(shuō),通過(guò)從公開的數(shù)據(jù)集中編譯一個(gè)「全面的」生物醫(yī)學(xué)NLP基準(zhǔn),在包括命名實(shí)體識(shí)別、基于證據(jù)的醫(yī)學(xué)信息提取、文檔分類等任務(wù)上取得了最先進(jìn)的成果。

          他們認(rèn)為,「混合領(lǐng)域」預(yù)訓(xùn)練?不就是遷移學(xué)習(xí)的另一種形式嗎?源領(lǐng)域是一般文本(如新聞),目標(biāo)領(lǐng)域是專門文本(如生物醫(yī)學(xué)論文)。

          在此基礎(chǔ)上,針對(duì)特定領(lǐng)域的生物醫(yī)學(xué)NLP模型的預(yù)訓(xùn)練總是優(yōu)于通用語(yǔ)言模型的預(yù)訓(xùn)練,說(shuō)明「混合領(lǐng)域」預(yù)訓(xùn)練并不完美。

          神經(jīng)語(yǔ)言模型預(yù)訓(xùn)練的兩種范式?!富旌项I(lǐng)域」預(yù)訓(xùn)練(上);只使用域內(nèi)文本預(yù)訓(xùn)練(下)

          如此自信,研究人員是有證據(jù)的。他們通過(guò)對(duì)生物醫(yī)學(xué)NLP應(yīng)用的影響,比較了訓(xùn)練前的建模和特定任務(wù)的微調(diào)。

          第一步,他們創(chuàng)建了一個(gè)名為生物醫(yī)學(xué)語(yǔ)言理解和推理基準(zhǔn)(BLURB)的基準(zhǔn),該基準(zhǔn)側(cè)重于PubMed(一個(gè)生物醫(yī)學(xué)相關(guān)的數(shù)據(jù)庫(kù))提供的出版物,涵蓋了諸如關(guān)系提取、句子相似度和問(wèn)題回答等任務(wù),以及諸如是/否問(wèn)題回答等分類任務(wù)。為了計(jì)算總結(jié)性分?jǐn)?shù),BLURB中的語(yǔ)料庫(kù)按任務(wù)類型分組,并分別打分,之后計(jì)算所有的平均值。

          為了評(píng)估,他們又在最新的PubMed文檔中生成了一個(gè)詞匯表并訓(xùn)練了一個(gè)模型:1400萬(wàn)篇摘要和32億個(gè)單詞,總計(jì)21GB。在一臺(tái)擁有16個(gè)V100顯卡的Nvidia DGX-2機(jī)器上,培訓(xùn)了大約5天時(shí)間。這個(gè)模型具有62,500步長(zhǎng)和批量大小,可與以前生物醫(yī)學(xué)預(yù)訓(xùn)練實(shí)驗(yàn)中使用的計(jì)算量相媲美。

          又一個(gè)自信,研究人員說(shuō)他們的模型——PubMedBERT,是建立在谷歌的BERT之上。

          那個(gè)牛掰掰的BERT?Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領(lǐng)域最具有突破性的一項(xiàng)技術(shù)。

          但有趣的是,將PubMed的全文添加到預(yù)訓(xùn)練文本(168億字)中會(huì)讓性能略有下降,直到預(yù)訓(xùn)練時(shí)間延長(zhǎng)。但研究人員將這部分歸因于數(shù)據(jù)中的噪聲。

          “在本文中,我們挑戰(zhàn)了神經(jīng)語(yǔ)言預(yù)訓(xùn)練模型中普遍存在的假設(shè)(就是前面說(shuō)的「混合領(lǐng)域」預(yù)訓(xùn)練),并證明了從「無(wú)」開始對(duì)特定領(lǐng)域進(jìn)行預(yù)訓(xùn)練可以顯著優(yōu)于「混合領(lǐng)域」預(yù)訓(xùn)練。「為生物醫(yī)學(xué)NLP的應(yīng)用帶來(lái)了新的、最先進(jìn)的結(jié)果,」研究人員寫道,「我們未來(lái)會(huì)進(jìn)一步探索特定領(lǐng)域的預(yù)培訓(xùn)策略,將BLURB基準(zhǔn)擴(kuò)展到臨床或其他高價(jià)值領(lǐng)域。」

          為了鼓勵(lì)生物醫(yī)學(xué)NLP的研究,研究人員創(chuàng)建了一個(gè)以BLURB基準(zhǔn)為特色的排行榜。他們還以開源的方式發(fā)布了預(yù)先訓(xùn)練過(guò)的特定任務(wù)模型。

          研究已發(fā)布于預(yù)印論文網(wǎng)站arxiv上。



          關(guān)鍵詞: 微軟 NLP

          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉