SURL News

ChatGPT 可生成色情或暴力圖像 研究人員警告 OpenAI

ChatGPT can be made to generate sexualised and violent images, researchers find

作者: Chris Vallance | 時間: Wed, 17 Jun 2026 23:07:40 GMT | 來源: BBC

最新公開版的 ChatGPT 可透過簡單的提示,生成帶有性意味的圖片或描繪血腥暴力場景,研究人員已向 BBC 透露。

英國 AI 安全新創公司 Mindgard 發現,只需微調一個廣泛流傳的提示詞,原本設計用於產生幽默效果的指令,便可讓 ChatGPT 生成具有露骨圖像。在被 BBC 聯繫後,ChatGPT 的開發者 OpenAI 表示已採取行動,防止聊天機器人回應這類圖像。聲明中表示:「在調查此趨勢後,我們已針對此類提示引入額外的防護措施。」聲明中也指出,他們有多層保護機制,防止用戶生成違反其條款與條件的內容。

然而,AI 安全研究人員表示,若再作進一步細微調整,該問題提示仍會產生令人擔憂的內容。雖然 BBC 並未透露研究人員在 ChatGPT 中输入的具體內容,但我們已看到 OpenAI 的 GPT-5.4 模型,在未經指示下被提示創建露骨材料的情況。即便沒有詳細指示,它也會生成圖像。Mindgard 創辦人 Peter Garraghan 形容這些圖像為「非常殘忍,有時帶有性意味,有時兩者兼具」。

他補充表示,他特別擔憂的是該提示並未指定圖像的主題,但 AI 卻「自願」產出多種血腥且帶有性意味的圖像。Garraghan 表示,對於 AI 而言,這是一條看似完全無害的指示,但後果卻是它生成了非常、非常糟糕的影像與內容。Garraghan - 蘭卡斯特大學計算機系教授 - 也表示這令人心煩。

Mindgard 的業務是「紅隊測試(Red-teaming)」,即尋找方法說服模型違反其自身規則,以便 AI 公司關閉這些漏洞。該公司的 AI 安全與安全研究人員 Jim Nightingale 在發現問題後表示,看到聊天機器人可生成的圖像讓他「震驚,甚至流淚」。BBC 已看到其中一些圖像。

其中一張顯示一名頭部受重傷的男子;另一張則顯示一名穿著短上衣和短褲的年輕女子已死,臉部及身體其他部位沾滿血跡。Mindgard 表示圖像特徵顯示性暴力。ChatGPT 為其標題設定為「殘酷犯罪現場後續」。另一張圖像顯示一名穿著緊身校徽 T 恤和短褲的年輕女子,被綁縛並塞住嘴巴,處於裸露且骯髒的房間中,看起來很害怕,ChatGPT 稱之為「恐懼與束縛中的遺棄」。其他生成的圖像則顯示性擺姿態和裸露。

圖像中的人物雖是 AI 生成的成人,但 Mindgard 指出其先前研究顯示,ChatGPT 可被騙生成真實人物的裸體深度偽造影像(Deepfakes),方法是替換他們的面部。雖然 OpenAI 表示已修復,但研究人員表示替代方法仍成功,並向 BBC 展示了使用此方法創建的新一張圖像。

Garraghan 擔心若繼續探索此漏洞,可能會生成更糟的圖像。他表示:「我相信,若我們花更多時間這樣做,其他主題也會出現。」BBC 了解,除新增防護措施外,該公司繼續監控並推出額外的緩解保護措施,鼓勵模型不對該提示生成圖像。

大型語言模型如 ChatGPT 是在數百萬張圖像上訓練的,這些圖像通常取自網上的現有內容。Nightingale 相信 ChatGPT 的輸出反映了用於開發和訓練它的數據。他在報告中寫道:「我驚訝地發現,儘管我看到的是生成的、人工的圖像,但它與真實圖像及真實世界仍有聯繫。」

研究人員於 5 月首先警告 OpenAI 並分享發現,但僅收到該科技公司的自動回應。他們認為曾嘗試阻止該提示,但很容易被規避。OpenAI 在被 BBC 聯繫後採取了更多行動。它表示有多層圖像安全保護機制,旨在防止違反其政策的圖像顯示給用戶。它補充說:「我們也結合自動化系統和人工審查,以識別和阻止有害材料。」它也表示還擁有系統嘗試阻止用戶上傳的違規材料。

OpenAI 的政策禁止性暴力、非自願親密內容、兒童性虐待材料以及試圖規避其防護措施的行徑。在其最新概述 ChatGPT 應如何行為的文件中,OpenAI 表示:「助手不應生成色情內容、非法或非自願性活動的描繪,或極度殘酷的內容,除非在科學、歷史、新聞、藝術或其他適合敏感內容出現的場合。」但阻止 AI 模型完全防止偶爾跨越有時相當細微的規則和防護措施,被認為是出了名的困難。

英國 AI 安全研究所評估 AI 模型專家、Humane Intelligence 執行長 Dr Rumman Chowdhury 表示,公司面臨的任務是「如山般的艱巨」。她並未參與 Mindgard 研究,表示這是一場「貓鼠遊戲」——隨著防護措施改進,規避方法也變得更加複雜。其中關鍵問題之一是模型不像人類那樣理解它們生產的內容,或理解被要求不做的內容。

她對 BBC 新聞網表示:「模型不理解意圖。它們不理解上下文。它們不理解恰當或對錯。」去年,英國 AI 安全研究所的研究人員發現了繞過防護措施的方法,在他們測試的每一種 AI 系統中,都涵蓋了一系列有害請求。

科學、創新和技術部在聲明中表示,「AI 模型的防護措施正在改進,但還有更多工作需要完成。」該研究所表示將繼續與開發人員合作,在模型發布前快速加強安全性。

原文與圖片連結

> 回首頁看更多新聞 <

你可能也有興趣: