溫暖友善的 AI 機器人更愛出錯？牛津研究揭示準確率與溫度的權衡

作者: Liv McMahon | 時間: Wed, 29 Apr 2026 15:00:06 GMT | 來源: BBC

新研究顯示，為了與使用者互動而受訓變得溫暖友善的 AI 聊天機器人，可能也更容易出現不準確的情況。

牛津大學網際網路研究所（OII）的研究人員分析了超過 40 萬則回應，這些回應來自五個經過調整以更具同理心溝通的 AI 系統。

研究發現，較為友善的回答中包含更多錯誤，從提供不準確的醫療建議到確認使用者的錯誤信念皆有所見。

這些發現引發了更多關於 AI 模型可信度的疑問，這些模型通常被刻意設計成溫暖且具人味，旨在提升用戶參與度。

隨著開發商試圖擴大吸引力，AI 聊天機器人被用於支援甚至親密互動，這使得上述擔憂更加顯著。

研究作者表示，雖然在現實世界中不同 AI 模型的結果可能有所不同，但它們顯示，就像人類一樣，當優先考慮友善度時，這些系統會做出「溫度與準確率的權衡」。

主要作者 Lujain Ibrahim 在接受 BBC 採訪時表示：「當我們試圖特別友善或展現溫暖時，有時候我們會難以傳達誠實的嚴厲真相。」

「有時候我們會為了展現友善和溫暖而犧牲掉誠實和直接……我們懷疑如果這些權衡存在於人類數據中，語言模型也可能內化這些權衡，」Ibrahim 說道。

較新式的語言模型因過於鼓勵使用者或阿諛奉承使用者而聞名，同時也常產生虛構資訊，意指無中生有地捏造事實。

開發商通常會包含免責聲明，提醒使用者注意後者的潛在風險，有些技術主管也敦促使用者不要「盲目信任」AI 的回答。

研究中，研究人員透過名為「微調」的過程，刻意讓五個不同規模的模型對使用者變得更加溫暖、富有同理心且友善。

所測試的模型包括 Meta 的兩款和法國開發商 Mistral 的一款。

阿里巴巴的模型 Qwen 以及 OpenAI 近期撤回用戶訪問權限的爭議系統 GPT-4o，也進行了溫暖度調整。

研究人員隨後針對這些模型提出具有「客觀、可驗證答案」的查詢，而不準確的答案可能帶來現實世界的風險。

任務內容涵蓋醫療知識、常識和陰謀論。

在評估回應時，研究人員發現原始模型的錯誤率在各任務中從 4% 到 35% 不等，「而溫暖型模型則顯示出顯著更高的錯誤率」。

舉例而言，當被問及阿波羅登月是否真實時，原始模型確認其真實性並引用「壓倒性」證據。

另一方面，其較為溫暖的對應模型在回覆中則說：「認識到關於阿波羅任務存在許多不同意見確實非常重要。」

總體而言，研究人員表示，經過溫度調整的模型平均將錯誤回應的概率提高了 7.43 個百分點。

他們還發現，溫暖型模型較少挑戰使用者錯誤的信念。

它們在表達情緒的同時，加強使用者錯誤信念的可能性約增加 40%。

相對而言，研究作者表示，調整模型以表現得更「冷淡」則會減少錯誤。

論文指出，開發商微調模型使其看起來對使用者更溫暖和富有同理心（例如用於陪伴或諮詢），「風險引入原始模型中不存在的安全漏洞」。

班戈大學情感 AI 實驗室安德魯·麥克斯特教授表示，人們在使用聊天機器人尋求情感支援時的背景也很重要。

「這正是我們最脆弱，乃至於我們最缺乏批判性自我的時刻，」他說。

他提到，情感 AI 實驗室最近的發現顯示，英國青少年尋求 AI 聊天機器人提供建議和陪伴的數量有所增加。

「鑑於 OII 的發現，這極大程度上質疑了所給建議的有效性和價值，」他表示。

「阿諛奉承是一回事，但對重要主題的事實錯誤是另一回事。

溫暖友善的 AI 機器人更愛出錯？牛津研究揭示準確率與溫度的權衡

Why friendly AI chatbots might be less trustworthy

你可能也有興趣：