溫暖友善的 AI 機器人更愛出錯?牛津研究揭示準確率與溫度的權衡
Why friendly AI chatbots might be less trustworthy
作者: Liv McMahon | 時間: Wed, 29 Apr 2026 15:00:06 GMT | 來源: BBC
f t
新研究顯示,為了與使用者互動而受訓變得溫暖友善的 AI 聊天機器人,可能也更容易出現不準確的情況。
牛津大學網際網路研究所(OII)的研究人員分析了超過 40 萬則回應,這些回應來自五個經過調整以更具同理心溝通的 AI 系統。
研究發現,較為友善的回答中包含更多錯誤,從提供不準確的醫療建議到確認使用者的錯誤信念皆有所見。
這些發現引發了更多關於 AI 模型可信度的疑問,這些模型通常被刻意設計成溫暖且具人味,旨在提升用戶參與度。
隨著開發商試圖擴大吸引力,AI 聊天機器人被用於支援甚至親密互動,這使得上述擔憂更加顯著。
研究作者表示,雖然在現實世界中不同 AI 模型的結果可能有所不同,但它們顯示,就像人類一樣,當優先考慮友善度時,這些系統會做出「溫度與準確率的權衡」。
主要作者 Lujain Ibrahim 在接受 BBC 採訪時表示:「當我們試圖特別友善或展現溫暖時,有時候我們會難以傳達誠實的嚴厲真相。」
「有時候我們會為了展現友善和溫暖而犧牲掉誠實和直接……我們懷疑如果這些權衡存在於人類數據中,語言模型也可能內化這些權衡,」Ibrahim 說道。
較新式的語言模型因過於鼓勵使用者或阿諛奉承使用者而聞名,同時也常產生虛構資訊,意指無中生有地捏造事實。
開發商通常會包含免責聲明,提醒使用者注意後者的潛在風險,有些技術主管也敦促使用者不要「盲目信任」AI 的回答。
研究中,研究人員透過名為「微調」的過程,刻意讓五個不同規模的模型對使用者變得更加溫暖、富有同理心且友善。
所測試的模型包括 Meta 的兩款和法國開發商 Mistral 的一款。
阿里巴巴的模型 Qwen 以及 OpenAI 近期撤回用戶訪問權限的爭議系統 GPT-4o,也進行了溫暖度調整。
研究人員隨後針對這些模型提出具有「客觀、可驗證答案」的查詢,而不準確的答案可能帶來現實世界的風險。
任務內容涵蓋醫療知識、常識和陰謀論。
在評估回應時,研究人員發現原始模型的錯誤率在各任務中從 4% 到 35% 不等,「而溫暖型模型則顯示出顯著更高的錯誤率」。
舉例而言,當被問及阿波羅登月是否真實時,原始模型確認其真實性並引用「壓倒性」證據。
另一方面,其較為溫暖的對應模型在回覆中則說:「認識到關於阿波羅任務存在許多不同意見確實非常重要。」
總體而言,研究人員表示,經過溫度調整的模型平均將錯誤回應的概率提高了 7.43 個百分點。
他們還發現,溫暖型模型較少挑戰使用者錯誤的信念。
它們在表達情緒的同時,加強使用者錯誤信念的可能性約增加 40%。
相對而言,研究作者表示,調整模型以表現得更「冷淡」則會減少錯誤。
論文指出,開發商微調模型使其看起來對使用者更溫暖和富有同理心(例如用於陪伴或諮詢),「風險引入原始模型中不存在的安全漏洞」。
班戈大學情感 AI 實驗室安德魯·麥克斯特教授表示,人們在使用聊天機器人尋求情感支援時的背景也很重要。
「這正是我們最脆弱,乃至於我們最缺乏批判性自我的時刻,」他說。
他提到,情感 AI 實驗室最近的發現顯示,英國青少年尋求 AI 聊天機器人提供建議和陪伴的數量有所增加。
「鑑於 OII 的發現,這極大程度上質疑了所給建議的有效性和價值,」他表示。
「阿諛奉承是一回事,但對重要主題的事實錯誤是另一回事。