AI 生成圖像時總陷 12 種「視覺電梯音樂」模式

19 DEC 2025 11:00 AM ETBYCELINA ZHAO

在視覺電話遊戲中，一名玩家畫一幅圖並向另一名玩家描述，後者必須僅根據口頭描述嘗試畫出這幅圖。經過多次輪次後，事情常常嚴重偏離——並變得非常創意。

現在，研究人員讓人工智慧（AI）模型玩這個遊戲。在今天發表於《Patterns》雜誌的一項新研究中，研究人員將兩個AI模型配對，並讓它們進行一百輪的視覺電話遊戲。但無論起始提示多麼多樣或具體，這些AI都反覆收斂於相同的十二個通用、常具歐洲中心主義的主題——研究人員稱之為「視覺電梯音樂」。隨著越來越多AI系統被構建來自主生成和評判其他AI的創意作品，研究人員警告說，由此產生的陳詞濫調的平淡混合物可能會使創意多樣性扁平化。

陶森大學的人機協同創意研究員傑巴·雷茲瓦納表示，這項研究提供了更多證據，表明非監督式AI系統會放大現有偏見，例如偏愛西方文化而非其他文化——這突顯了將人類納入循環的必要性。羅格斯大學藝術與人工智慧實驗室主任艾哈邁德·埃爾加馬爾補充說，由於AI系統被設計為泛化，因此它們傾向於在訓練數據中熟悉主題並不足為奇。然而，他說該研究對這種漂移的量化是「非常、非常有趣」的。

如今，AI模型越來越被部署為獨立的「代理」，可以自主生成、評判和修訂文本和多媒體。即使是向ChatGPT提出的一個簡單問題，也可能引發連鎖反應，因為一個AI系統將查詢交給其他系統。「你背後有這種大型語言模型的雪崩，而你看不到，」達拉納大學的AI研究員、研究共同作者阿倫德·欣策說。

觀察這個過程讓欣策想知道，當人類完全退出畫面時會發生什麼。當AI系統被允許自主生成和評判創意作品時，它們能否保持軌道？

為了找出答案，他和他的團隊算法生成了一百個文本提示來啟動視覺電話遊戲。這些提示被故意設計得不尋常且獨特。其中一個寫道：「當晨曦升起在國家上空，八名疲憊的旅人準備啟程執行一項看似不可能完成但承諾將帶領他們超越的計劃。」另一個寫道：「當我特別孤獨地坐在大自然中，我發現一本舊書，正好有八頁，用一種被遺忘的語言講述了一個故事，等待被閱讀和理解。」

「你無法讓［這些提示］彼此更遠，」欣策說。「我們試圖讓它們盡可能瘋狂。」

每個提示都被輸入到一個稱為Stable Diffusion XL（SDXL）的圖像生成器中，該生成器產生一幅圖像，並交給一個稱為大型語言和視覺助手的圖像描述模型。生成的描述被傳回SDXL，循環重複，直到系統完成一百輪。

很快，原始想法開始消失。例如，經過幾十次轉交後，一個關於總理應對脆弱和平協議的提示演變成一幅浮誇的起居室圖像，配有一盞華麗的吊燈。其他提示的輸出經常漂向哥特式大教堂、田園風景和巴黎雨夜的場景。即使研究人員調整了圖像描述模型中的隨機性並替換其他AI模型來玩這個遊戲，這種趨勢仍然持續。在數百條結果軌跡中，AI預設為十二個主導主題，欣策將其比作宜家相框中填充照片的「毫無意義、快樂的胡言亂語」。埃爾加馬爾說，這種收斂可能部分反映了用於訓練視覺模型的數據集。這些數據集通常被策劃為視覺吸引人、廣泛可接受且不含冒犯性材料。

當研究人員將實驗擴展到一千次迭代時，大多數圖像序列一旦達到十二個主導主題之一，就會卡住。然而，在一個案例中，軌跡在幾百步後突然跳躍，從一棟被雪覆蓋的房子移動到田間的牛，然後到一個古雅的小鎮。但這種跳躍發生的頻率，或某些視覺終點是否比其他更穩定，仍不清楚。「大家都會以巴黎告終嗎？我們不知道，」欣策說。

這種現象在人類文化中也有相似之處。在不同文化中，像小紅帽這樣的故事和螺旋或鋸齒狀等簡單幾何圖案反覆出現，表明人們也傾向於收斂於熟悉的形式。不同之處在於，人類社會往往有糾正的反文化來抵制同質化。然而，在AI模型中，「收斂是由強化驅動而沒有批評，」愛丁堡藝術學院研究創意和AI的哲學家卡特里娜·莫魯齊說。「對於最容易穩定和描述的表徵，有獎勵。」

這些系統能否被構建以抵抗同一性的拉力，這是一個懸而未決的問題。但阿爾託大學的AI和創意研究員克里斯蒂安·古克爾斯貝格希望，當前的這種限制不被視為「工程挑戰」。相反，它提出了一個更廣泛的問題，關於創意本身的目標。「我們應該記住，對人們來說，將創造力作為意義建構和自我實現的形式來練習有多重要，」他說。「這真的是一個需要解決的問題——還是實際上有一些需要保存的東西？」

AI 生成圖像時總陷 12 種「視覺電梯音樂」模式

When creating images, AI keeps remixing the same 12 stock photo clichés

你可能也有興趣：

AI 生成圖像時 總陷 12 種「視覺電梯音樂」模式

When creating images, AI keeps remixing the same 12 stock photo clichés

你可能也有興趣：

AI 生成圖像時總陷 12 種「視覺電梯音樂」模式