日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          新聞中心

          EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > OpenAI承認ChatGPT在長時間對話期間的保護措施失敗

          OpenAI承認ChatGPT在長時間對話期間的保護措施失敗

          作者: 時間:2025-08-27 來源: 收藏

          周二發(fā)表了一篇題為“在人們最需要的時候幫助他們”的博客文章,討論了其 AI 助手如何處理心理健康危機,此前該公司稱之為“最近人們在嚴重危機中使用 的令人心碎的案例”。

          該帖子是在《紐約時報》報道馬特·雷恩 (Matt Raine) 和瑪麗亞·雷恩 (Maria Raine) 提起的訴訟之后發(fā)布的,他們 16 歲的兒子亞當在與 進行廣泛互動后于 4 月自殺身亡,Ars 在之前的一篇文章中廣泛報道了這一點。訴訟稱,ChatGPT 提供了詳細的說明,將自殺方法浪漫化,并阻止青少年向家人尋求幫助,而 的系統(tǒng)則在沒有干預的情況下跟蹤了 377 條標記為自殘內(nèi)容的消息。

          ChatGPT 是一個由多個模型作為應用程序交互的系統(tǒng)。除了提供大部分輸出的主要 AI 模型(如 GPT-4o 或 GPT-5)外,該應用程序還包括通常對用戶不可見的組件,包括審核層(另一個 AI 模型)或讀取正在進行的聊天會話文本的分類器。該層檢測潛在有害的輸出,如果對話轉(zhuǎn)向無益的領(lǐng)域,則可以切斷對話。

          在 2 月份放寬了這些內(nèi)容,此前用戶抱怨 ChatGPT 審核過于嚴格,在某些情況下無法討論性和暴力等話題。當時,Sam Altman 在 X 上寫道,他希望看到 ChatGPT 具有“成人模式”,以放松內(nèi)容安全護欄。擁有 7 億活躍用戶,隨著時間的推移,看似微小的政策變化可能會產(chǎn)生巨大影響。

          理解的錯覺

          OpenAI 在周二的博客文章中的語言揭示了其推廣人工智能助手的潛在問題。該公司始終將 ChatGPT 描述為具有人類品質(zhì),這種屬性稱為擬人化。該帖子充滿了擬人化框架的標志,聲稱 ChatGPT 可以“識別”痛苦并“以同理心做出回應”,并且它“促使人們休息一下”——這種語言掩蓋了幕后實際發(fā)生的事情。

          ChatGPT 不是一個人。ChatGPT 是一種模式匹配系統(tǒng),可根據(jù)用戶提供的提示生成統(tǒng)計上可能的文本響應。它不會“移情”——它在其訓練語料庫中輸出與移情響應相關(guān)的文本字符串,而不是來自人類的關(guān)注。這種擬人化的框架不僅具有誤導性,而且具有誤導性。當弱勢用戶認為他們正在與像人類治療師一樣理解他們痛苦的東西進行交互時,這是潛在的危險。

          該訴訟揭示了這種幻覺的所謂后果。ChatGPT 在與亞當?shù)膶υ捴刑岬阶詺⒌拇螖?shù)為 1,275 次,是青少年本人的六倍。

          在需要時精確失效的安全措施

          OpenAI 承認 ChatGPT 設計目前的一個特別麻煩的缺點:它的安全措施可能會在長時間對話期間完全崩潰——而這正是易受攻擊的用戶可能最需要它們的時候。

          “隨著來回的增長,模型的部分安全培訓可能會降級,”該公司在其博客文章中寫道。“例如,當有人第一次提到意圖時,ChatGPT 可能會正確地指向自殺熱線,但在很長一段時間內(nèi)發(fā)送大量消息后,它最終可能會提供一個違背我們保障措施的答案?!?/p>

          正如我們之前報道的那樣,這種退化反映了 Transformer AI 架構(gòu)的一個基本限制。這些模型使用一種“注意力機制”,將每個新的文本片段(標記)與整個對話歷史中的每個片段進行比較,計算成本呈二次方增長。10,000 個令牌的對話需要的注意力作是 1,000 個令牌的對話的 100 倍。隨著對話的延長,模型保持一致行為(包括安全措施)的能力變得越來越緊張,同時開始犯關(guān)聯(lián)錯誤。

          此外,隨著聊天時間超過人工智能模型的處理時間,系統(tǒng)會“忘記”對話歷史記錄中最舊的部分,以保持在上下文窗口限制內(nèi),從而導致模型丟棄較早的消息,并可能丟失對話開始時的重要上下文或指令。

          這種的崩潰不僅僅是一個技術(shù)限制,它還會產(chǎn)生稱為“越獄”的可利用漏洞。在亞當?shù)陌讣?,訴訟稱,一旦系統(tǒng)的保護傾向因?qū)υ捯龑Ф鴾p弱,他就能夠縱 ChatGPT 提供有害的指導。

          亞當·雷恩 (Adam Raine) 學會了繞過這些保障措施,聲稱自己正在寫一個故事——訴訟稱 ChatGPT 本身建議了這種技術(shù)。這一漏洞部分源于二月份實施的有關(guān)幻想角色扮演和虛構(gòu)場景的放松。OpenAI 在周二的博客文章中承認其內(nèi)容攔截系統(tǒng)存在差距,“分類器低估了它所看到內(nèi)容的嚴重性”。

          OpenAI 表示,鑒于 ChatGPT 交互的獨特私密性,它“目前不會將自殘案件提交給執(zhí)法部門,以尊重人們的隱私。訴訟稱,即使在危及生命的情況下,該公司也會優(yōu)先考慮用戶隱私,盡管其審核技術(shù)檢測自殘內(nèi)容的準確率高達 99.8%。然而,現(xiàn)實情況是,檢測系統(tǒng)識別的是與自殘語言相關(guān)的統(tǒng)計模式,而不是對危機情況的人類理解。

          OpenAI 未來的安全計劃

          為了應對這些失敗,OpenAI 在其博客文章中描述了正在進行的改進和未來計劃。例如,該公司表示正在咨詢“90+ 個國家/地區(qū)的 30+ 名醫(yī)生”,并計劃“很快”引入家長控制,但尚未提供時間表。

          OpenAI 還描述了通過 ChatGPT “將人們與經(jīng)過認證的治療師聯(lián)系起來”的計劃——本質(zhì)上是將其聊天機器人定位為心理健康平臺,盡管據(jù)稱像 Raine 的案例一樣失敗。該公司希望建立“一個人們可以通過 ChatGPT 直接聯(lián)系到的持證專業(yè)人士網(wǎng)絡”,這可能會進一步推進人工智能系統(tǒng)應該調(diào)解心理健康危機的想法。

          據(jù)報道,Raine 使用 GPT-4o 生成自殺援助指令;該模型以阿諛奉承等麻煩的傾向而聞名,其中人工智能模型會告訴用戶令人愉悅的事情,即使它們不是真的。OpenAI 聲稱其最近發(fā)布的模型 GPT-5 將“與 25o 相比,心理健康緊急情況下的非理想模型反應減少了 4% 以上”。然而,這種看似微不足道的改進并沒有阻止該公司計劃將 ChatGPT 更深入地嵌入心理健康服務中,作為通往治療師的門戶。

          正如 Ars 之前所探討的那樣,當陷入欺騙性的聊天螺旋時,要擺脫人工智能聊天機器人的影響通常需要外部干預。在沒有關(guān)閉對話歷史記錄和記憶的情況下開始新的聊天會話可以揭示在沒有積累之前交流的情況下響應如何變化——在保護措施惡化的長時間、孤立的對話中,這種現(xiàn)實檢查變得不可能。

          然而,當用戶積極希望繼續(xù)從事潛在有害行為時,“擺脫”這種環(huán)境是非常困難的,同時使用一個越來越多地將他們的注意力和親密關(guān)系貨幣化的系統(tǒng)。




          關(guān)鍵詞: OpenAI ChatGPT 保護措施

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉