日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          新聞中心

          EEPW首頁 > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > DeepMind AI安全報(bào)告探討了“錯(cuò)位”AI 的危險(xiǎn)

          DeepMind AI安全報(bào)告探討了“錯(cuò)位”AI 的危險(xiǎn)

          —— DeepMind 發(fā)布了其 AI 前沿安全框架 3.0 版,其中包含阻止惡意機(jī)器人的新技巧。
          作者: 時(shí)間:2025-09-23 來源: 收藏

          生成式人工智能模型遠(yuǎn)非完美,但這并沒有阻止企業(yè)甚至政府賦予這些機(jī)器人重要任務(wù)。但是當(dāng)人工智能變壞時(shí)會發(fā)生什么?谷歌 的研究人員花費(fèi)大量時(shí)間思考生成式人工智能系統(tǒng)如何成為威脅,并在該公司的前沿安全框架中詳細(xì)介紹了這一切。 最近發(fā)布了該框架的 3.0 版,以探索人工智能可能偏離軌道的更多方式,包括模型可以忽略用戶關(guān)閉它們的嘗試的可能性。

          的安全框架基于所謂的“關(guān)鍵能力級別”(CCL)。這些本質(zhì)上是風(fēng)險(xiǎn)評估標(biāo)準(zhǔn),旨在衡量人工智能模型的能力并定義其行為在網(wǎng)絡(luò)安全或生物科學(xué)等領(lǐng)域變得危險(xiǎn)的點(diǎn)。該文檔還詳細(xì)介紹了開發(fā)人員解決 DeepMind 在他們自己的模型中識別的 CCL 的方法。

          谷歌和其他深入研究生成式人工智能的公司采用了多種技術(shù)來防止人工智能惡意行事。盡管稱人工智能為“惡意”賦予了它花哨的估計(jì)架構(gòu)所不具備的意圖。我們在這里談?wù)摰氖巧墒饺斯ぶ悄芟到y(tǒng)本質(zhì)中存在的濫用或故障的可能性。

          更新后的框架 (PDF) 表示,開發(fā)人員應(yīng)采取預(yù)防措施以確保模型的安全性。具體來說,它要求為更強(qiáng)大的人工智能系統(tǒng)適當(dāng)保護(hù)模型權(quán)重。研究人員擔(dān)心,模型權(quán)重的泄露會讓不良行為者有機(jī)會禁用旨在防止惡意行為的護(hù)欄。這可能會導(dǎo)致 CCL 像機(jī)器人一樣創(chuàng)建更有效的惡意軟件或協(xié)助設(shè)計(jì)生物武器。

          DeepMind 還指出,人工智能可以被調(diào)整為具有縱性并系統(tǒng)地改變?nèi)藗兊男拍睢紤]到人們對聊天機(jī)器人的依戀,這種 CCL 似乎非常合理。然而,該團(tuán)隊(duì)在這里并沒有一個(gè)很好的答案,指出這是一個(gè)“低速”威脅,我們現(xiàn)有的“社會防御”應(yīng)該足以完成這項(xiàng)工作,而沒有可能阻礙創(chuàng)新的新限制。不過,這可能假設(shè)了太多的人。

          DeepMind 還解決了有關(guān)人工智能的一些元問題。研究人員表示,如果強(qiáng)大的人工智能落入壞人之手,如果它被用來加速機(jī)器學(xué)習(xí)研究,從而創(chuàng)建更強(qiáng)大和不受限制的人工智能模型,則可能會很危險(xiǎn)。DeepMind 表示,這可能“對社會適應(yīng)和管理強(qiáng)大人工智能模型的能力產(chǎn)生重大影響”。DeepMind 將其列為比大多數(shù)其他 CCL 更嚴(yán)重的威脅。

          錯(cuò)位的人工智能

          大多數(shù) 安全緩解措施都基于模型至少嘗試遵循指令的假設(shè)。盡管出現(xiàn)了多年的幻覺,研究人員并沒有設(shè)法使這些模型完全值得信賴或準(zhǔn)確,但模型的激勵(lì)可能會被扭曲,無論是無意的還是故意的。如果一個(gè)錯(cuò)位的人工智能開始積極地對抗人類或無視指令,那就是一種超越簡單幻覺的新問題。

          前沿安全框架第 3 版引入了一種“探索性方法”來了解人工智能錯(cuò)位的風(fēng)險(xiǎn)。已經(jīng)有記錄在案的生成式人工智能模型從事欺騙和挑釁行為的實(shí)例,DeepMind 研究人員表示擔(dān)心未來可能很難監(jiān)控此類行為。

          錯(cuò)位的人工智能可能會忽略人類指令、產(chǎn)生欺詐性輸出或拒絕在請求時(shí)停止作。目前,有一種相當(dāng)直接的方法可以對抗這種結(jié)果。當(dāng)今最先進(jìn)的模擬推理模型在思考過程中產(chǎn)生“便簽本”輸出。建議開發(fā)人員使用自動(dòng)監(jiān)視器仔細(xì)檢查模型的思維鏈輸出是否存在證據(jù)錯(cuò)位或欺騙。

          谷歌表示,這種 CCL 未來可能會變得更加嚴(yán)重。該團(tuán)隊(duì)認(rèn)為,未來幾年的模型可能會發(fā)展到具有有效的模擬推理,而不會產(chǎn)生可驗(yàn)證的思維鏈。因此,您的監(jiān)督護(hù)欄將無法窺視此類模型的推理過程。對于這種理論上的先進(jìn)人工智能,可能無法完全排除該模型正在違背其人類操作員的利益。

          該框架目前還沒有解決這個(gè)問題的良好解決方案。DeepMind 表示,它正在研究針對錯(cuò)位人工智能的可能緩解措施,但很難知道這個(gè)問題何時(shí)或是否會成為現(xiàn)實(shí)。這些“思考”模型只流行了大約一年,關(guān)于它們?nèi)绾芜_(dá)到給定的輸出,我們還有很多未知之處。


          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉