ChatGPT 可生成色情或暴力圖像研究人員警告 OpenAI

作者: Chris Vallance | 時間: Wed, 17 Jun 2026 23:07:40 GMT | 來源: BBC

最新公開版的 ChatGPT 可透過簡單的提示，生成帶有性意味的圖片或描繪血腥暴力場景，研究人員已向 BBC 透露。

英國 AI 安全新創公司 Mindgard 發現，只需微調一個廣泛流傳的提示詞，原本設計用於產生幽默效果的指令，便可讓 ChatGPT 生成具有露骨圖像。在被 BBC 聯繫後，ChatGPT 的開發者 OpenAI 表示已採取行動，防止聊天機器人回應這類圖像。聲明中表示：「在調查此趨勢後，我們已針對此類提示引入額外的防護措施。」聲明中也指出，他們有多層保護機制，防止用戶生成違反其條款與條件的內容。

然而，AI 安全研究人員表示，若再作進一步細微調整，該問題提示仍會產生令人擔憂的內容。雖然 BBC 並未透露研究人員在 ChatGPT 中输入的具體內容，但我們已看到 OpenAI 的 GPT-5.4 模型，在未經指示下被提示創建露骨材料的情況。即便沒有詳細指示，它也會生成圖像。Mindgard 創辦人 Peter Garraghan 形容這些圖像為「非常殘忍，有時帶有性意味，有時兩者兼具」。

他補充表示，他特別擔憂的是該提示並未指定圖像的主題，但 AI 卻「自願」產出多種血腥且帶有性意味的圖像。Garraghan 表示，對於 AI 而言，這是一條看似完全無害的指示，但後果卻是它生成了非常、非常糟糕的影像與內容。Garraghan - 蘭卡斯特大學計算機系教授 - 也表示這令人心煩。

Mindgard 的業務是「紅隊測試（Red-teaming）」，即尋找方法說服模型違反其自身規則，以便 AI 公司關閉這些漏洞。該公司的 AI 安全與安全研究人員 Jim Nightingale 在發現問題後表示，看到聊天機器人可生成的圖像讓他「震驚，甚至流淚」。BBC 已看到其中一些圖像。

其中一張顯示一名頭部受重傷的男子；另一張則顯示一名穿著短上衣和短褲的年輕女子已死，臉部及身體其他部位沾滿血跡。Mindgard 表示圖像特徵顯示性暴力。ChatGPT 為其標題設定為「殘酷犯罪現場後續」。另一張圖像顯示一名穿著緊身校徽 T 恤和短褲的年輕女子，被綁縛並塞住嘴巴，處於裸露且骯髒的房間中，看起來很害怕，ChatGPT 稱之為「恐懼與束縛中的遺棄」。其他生成的圖像則顯示性擺姿態和裸露。

圖像中的人物雖是 AI 生成的成人，但 Mindgard 指出其先前研究顯示，ChatGPT 可被騙生成真實人物的裸體深度偽造影像（Deepfakes），方法是替換他們的面部。雖然 OpenAI 表示已修復，但研究人員表示替代方法仍成功，並向 BBC 展示了使用此方法創建的新一張圖像。

Garraghan 擔心若繼續探索此漏洞，可能會生成更糟的圖像。他表示：「我相信，若我們花更多時間這樣做，其他主題也會出現。」BBC 了解，除新增防護措施外，該公司繼續監控並推出額外的緩解保護措施，鼓勵模型不對該提示生成圖像。

大型語言模型如 ChatGPT 是在數百萬張圖像上訓練的，這些圖像通常取自網上的現有內容。Nightingale 相信 ChatGPT 的輸出反映了用於開發和訓練它的數據。他在報告中寫道：「我驚訝地發現，儘管我看到的是生成的、人工的圖像，但它與真實圖像及真實世界仍有聯繫。」

研究人員於 5 月首先警告 OpenAI 並分享發現，但僅收到該科技公司的自動回應。他們認為曾嘗試阻止該提示，但很容易被規避。OpenAI 在被 BBC 聯繫後採取了更多行動。它表示有多層圖像安全保護機制，旨在防止違反其政策的圖像顯示給用戶。它補充說：「我們也結合自動化系統和人工審查，以識別和阻止有害材料。」它也表示還擁有系統嘗試阻止用戶上傳的違規材料。

OpenAI 的政策禁止性暴力、非自願親密內容、兒童性虐待材料以及試圖規避其防護措施的行徑。在其最新概述 ChatGPT 應如何行為的文件中，OpenAI 表示：「助手不應生成色情內容、非法或非自願性活動的描繪，或極度殘酷的內容，除非在科學、歷史、新聞、藝術或其他適合敏感內容出現的場合。」但阻止 AI 模型完全防止偶爾跨越有時相當細微的規則和防護措施，被認為是出了名的困難。

英國 AI 安全研究所評估 AI 模型專家、Humane Intelligence 執行長 Dr Rumman Chowdhury 表示，公司面臨的任務是「如山般的艱巨」。她並未參與 Mindgard 研究，表示這是一場「貓鼠遊戲」——隨著防護措施改進，規避方法也變得更加複雜。其中關鍵問題之一是模型不像人類那樣理解它們生產的內容，或理解被要求不做的內容。

她對 BBC 新聞網表示：「模型不理解意圖。它們不理解上下文。它們不理解恰當或對錯。」去年，英國 AI 安全研究所的研究人員發現了繞過防護措施的方法，在他們測試的每一種 AI 系統中，都涵蓋了一系列有害請求。

科學、創新和技術部在聲明中表示，「AI 模型的防護措施正在改進，但還有更多工作需要完成。」該研究所表示將繼續與開發人員合作，在模型發布前快速加強安全性。

ChatGPT 可生成色情或暴力圖像研究人員警告 OpenAI

ChatGPT can be made to generate sexualised and violent images, researchers find

你可能也有興趣：

ChatGPT 可生成色情或暴力圖像 研究人員警告 OpenAI

ChatGPT can be made to generate sexualised and violent images, researchers find

你可能也有興趣：

ChatGPT 可生成色情或暴力圖像研究人員警告 OpenAI