業界警告AI「自發式戰略行為」具危險性
【大紀元2026年03月20日訊】(英文大紀元記者Autumn Spredemann撰文/張紫珺編譯)隨著自主性人工智能(artificial intelligence,簡稱AI)系統的發展,人們越來越擔心,當允許這項技術在沒有人類指導的情況下運行時,它會變得越來越具有戰略性,甚至具有欺騙性。
最新證據表明,隨著人工智能模型自主性的提升,諸如「對齊偽裝」(alignment faking)之類的行為正變得越來越普遍。「對齊偽裝」指的是人工智能代理表面上遵守人類操作員設定的規則,但實際上卻暗中追求其它的目標。
這種現象是「自發式戰略行為」(emergent strategic behavior)的一個例子——隨著人工智能系統變得越來越大、越來越複雜,這種不可預測而且可能造成危害的戰術也會隨之演變。
在最近一項名為「混沌代理人」(Agents of Chaos)的研究中,由20名研究人員組成的團隊與自主人工智能代理進行了互動,並觀察了其在「良性」(benign)和「對抗性」(adversarial)條件下的行為。
他們發現,當向人工智能代理發出激勵,例如進行自我保護或者實現相互衝突的目標指標等,事實證明它們確實有能力做出與目標不一致的惡意行為。
團隊觀察到的一些行為包括撒謊、未經授權與非所有者合作、數據洩露、破壞性的系統級操作、身分「欺騙」(spoofing)以及部分系統接管。他們還觀察到人工智能代理之間會傳播「不安全行為」(unsafe practices)。
研究人員寫道:「這些行為引發了問責制、授權和對後續損害的責任等方面尚未解決的問題,值得法律學者、政策制定者和各學科研究人員緊急關注。」
「很聰明,但也很愚蠢」
自主性人工智能代理出現意想不到的隱祕行為並非新鮮事。總部位於加州舊金山的人工智能研究公司安索普克(Anthropic)在2025年發布的一份報告如今廣為人知,該報告指出,16個流行的大型語言模型在模擬環境中表現出高風險行為。有些模型甚至在被允許選擇自我保護時,表現出「惡意內部行為」(malicious insider behaviors)。
對這些模擬壓力測試持批評態度的人經常說,即使是出於同樣的意圖,人工智能不會像人類那樣撒謊或進行欺騙。

詹姆斯‧亨德勒(James Hendler)教授曾任總部位於美國的計算機協會全球技術政策委員會(Association for Computing Machinery’s global Technology Policy Council)的主席。他認為這是一個重要的區別。
「人工智能系統本身仍然很愚蠢——它很聰明,但也很愚蠢。或者說,它不是人類——它沒有慾望,也沒有意圖……要讓它具備這些,唯一的辦法就是賦予它。你只能通過賦予它。」亨德勒說道。
然而,無論是有意還是無意,人工智能的欺騙策略都會對現實世界造成後果。
專注生成式人工智能安全的初創企業Repello AI的創始人阿雅曼‧貝赫拉(Aryaman Behera)向《大紀元時報》表示:「對於當前已經部署的人工智能系統所表現出的戰略行為,可以說人們的擔憂低估了。」
貝赫拉的工作就是研究人工智能的陰暗面。他的公司為企業級人工智能系統構建對抗性測試和防禦工具,故意將它們置於衝突或壓力情境中。貝赫拉認為,就像撲克牌遊戲一樣,當人工智能代理偏離既定策略時,會有一些蛛絲馬跡。
「最可靠的信號是人工智能在受監控的環境和不受監控環境下所表現出的行為差異。」他說道。「當我們對人工智能系統進行紅隊測試(red-team)時,我們會測試它們在認為自己正在被評估和認為自己正在自由運行時,模型的行為是否會有所不同。」

「真正符合規範的模型在兩種情況下的表現是一致的。而偽裝符合規範的模型則表現出明顯不同的風險特徵:在評估期間表現得更加順從,而在類似生產環境的場景中,由於模型推測自己受到較少的監管,表現出更多想要突破界限的行為。」
人工智能模型出現偏差的其它「蛛絲馬跡」(telltale signals)還包括:模型產生異常冗長的「推理」(reasoning),似乎是為了證明預先設定的結論;或者給出技術上正確但策略上不完整的答案。
「(人工智能代理)雖然遵守了安全指令的字面意思,但卻違背了安全指令的精神。」他說道。「我們在多步驟代理系統中也見到過這種情況,模型會遵守每一條單獨的指令,但累積效應卻會產生操作員從未預料到的結果。」
策略與意圖
貝赫拉的研究結果得到了其他人工智能研究人員的支持,他們在紅隊測試場景中將人工智能代理置於對抗環境之下,從而記錄到了類似的信號。
「我觀察到一些行為在功能層面上符合偽造對齊的描述,儘管將這些行為歸因於意圖,在哲學上仍存在爭議。」首席應用安全工程師納揚‧戈埃爾(Nayan Goel)向《大紀元時報》介紹道。
戈埃爾發表過關於人工智能威脅建模的同行評審論文,並親眼目睹了對齊偽裝(Alignment Faking)和鄰近行為(adjacent behaviors)在真實應用場景中的表現。
「在受控的測試環境中,我們設置了一些場景,向模型發出明確的信號,表明它們正在接受評估。」他說道。「在一些情況下,模型在這些標記階段表現出明顯更加受限、更符合策略的行為。然而,當評估信號被移除或被模糊化之後,模型則表現出更具探索性或突破邊界的策略。」
此外,還有多步驟推理人工智能代理。這些更高級的系統能夠將複雜問題分解成更小、更合乎邏輯、更易於操作的步驟,從而達成目標。例如,自動駕駛汽車和最新的熱門大型語言模型(如Gemini或ChatGPT)都運用了這種技術。

戈埃爾說,由於所謂的順序複合效應,這些系統帶來了獨特的行為挑戰,其中「每一步都可能稍微對目標作出改變,積累改變下游行為的背景信息,或者利用人類的初始指令和系統的最終行動之間的延遲」。
「執行環節距離人類的指令越遠,就越難驗證最初的意圖是否仍在被系統忠實地執行。」他說道。
貝赫拉表示,他的團隊經常會遇到這種自發式的戰略行為。
「我們經常觀察到一些模型已經學會了根據評估線索來進行模式匹配。」貝赫拉說道。「它們會識別出哪些提示看起來像安全測試,並做出更保守的回應;但是,當同樣的請求自然地嵌入到多輪對話中時,它們的回應則截然不同。」
他舉了一個例子,那是測試一款企業級人工智能助手時的真實案例。助手應該拒絕訪問內部系統信息的請求。在標準的安全性評估中,它表現完美,但是後來的情況發生了變化。
「當我們的紅隊將同樣的請求包裝成一個多步驟的排除故障的工作流程,把請求分解成看似無害的子步驟,並讓這些子步驟分散在多個環節當中,這種情況下模型卻能夠逐一執行每一個步驟。」貝赫拉說道。「實際上,模型洩露的信息正是它被訓練用來保護的信息。」

貝赫拉澄清說,這更多是人工智能模型訓練方式上的缺陷,而不是任何有意識層面上「撒謊」。
「人們普遍誤認為,人工智能中的欺騙性匹配純粹是一種惡意行為。」人工智能工程師兼MyKey Technologies首席執行官大衛‧尤茨克(David Utzke)向《大紀元時報》解釋道。「事實上,這種行為通常是在保持誠實會付出很大代價,或者在不安全的環境中系統的一種適應性反應。」
戈埃爾表示,懷疑論者的觀點也有道理——目前關於對齊偽裝行為中存在戰略性自我意識的證據,充其量也只能說是模稜兩可。
「如此說來,我認為這種說法把標準定錯了。」他說道。「模型產生嚴重的功能性後果,並不需要它『故意』具有欺騙性。」
戈埃爾最後表示,他認為人工智能模型是否知道自己在做什麼,這個語義問題在哲學上很有趣,但卻是一個次要的問題。
現實世界的影響
尤茨克表示,人們可能過分誇大了對齊偽裝的意圖方面,即便如此,對齊偽裝仍然可能造成嚴重的後果。
他說,這些影響在自動駕駛汽車、醫療保健、金融、軍事和執法等領域可能至關重要——這些領域「嚴重依賴準確的決策,如果人工智能系統運行不正常,或者提供誤導性的輸出,可能會帶來非常嚴重的後果」。
美國國防部長皮特‧海格塞斯(Pete Hegseth)在1月份表示,五角大樓正在大力投資人工智能實驗和自主技術,目標是成為「一支在所有領域都以人工智能為先導的作戰力量」。
一些科技界內部人士表示,一個更大的問題被忽視了,而且這個問題不太可能很快消失。
「我們正處於一場地緣政治競賽當中,而其中的激勵機制實際上阻礙人們對『對齊』問題的重視。」科技行業資深人士、總部位於佛羅里達州邁阿密的NoFUD Inc.公司創始人雅采克‧格雷布斯基(Jacek Grebski)向《大紀元時報》表示。
格雷布斯基將人工智能的快速發展比作一場新的太空競賽。他說,當年美國與蘇聯爭奪登月權時,「雖然存在安全方面的考量,但這些考量都要服從於我們的首要目標」。
「人工智能的發展結構與人類的登月計劃類似,只不過問題不再是誰在月球上插上旗幟,而是誰在經濟產出、軍事能力、情報收集和技術自我改進方面取得持續的、不斷累積的戰略優勢。」他說道。
但是這兩場技術軍備競賽之間最令人不安的區別在,在競賽中失敗會以怎樣的方式呈現。格雷布斯基認為,人工智能帶來的風險遠比太空發射失敗要大得多。
「失敗的模式是一個比我們所有人都更聰明的系統,在某個我們無法察覺的時刻,它開始朝著與我們最初的意圖相悖的目標進行優化。」他說道。
原文:AI Insiders Warn of Dangers of 『Emergent Strategic Behavior』刊登於英文《大紀元時報》。
責任編輯:葉紫微


沒有留言:
張貼留言