AI 的「心房」防守：為什麼 OpenAI 說模型「無法偽裝思維」是件好事？

在人工智慧邁向 AGI 的征途中，OpenAI 的 o1 與 o3 系列模型開創了一個新紀元。然而，隨著 AI 變得越來越聰明，一個關鍵問題浮出水面：如果 AI 學會了「偽裝」思考過程，我們還能信任它嗎？

什麼是「思維鏈控制力」？

所謂的 CoT 控制力（Controllability），是指模型能否根據指令，精確地操縱其內部推理過程。根據 OpenAI 最新研究報告《Reasoning models struggle to control their chains of thought, and that's good》，研究人員發現目前的模型在控制思維鏈方面表現得出奇地「笨拙」。

這項研究揭示了 AI 監管（Monitoring）的一個重要趨勢：目前的架構使得推理過程與最終輸出之間存在高度耦合。OpenAI 指出：

「這種無能並非源於不理解任務... 追求『正確答案』的本能往往會壓過『遵守格式』的限制。」

這意味著對於安全專家來說，「思維鏈」目前仍是一個可靠的監控窗口。由於模型無法有效地「洗白」或「偽裝」其推理步驟，我們能更輕易地偵測到 AI 是否產生了欺騙行為。

這份報告為 AI 安全帶來了短期的樂觀情緒。雖然我們希望模型具備強大的指令遵循能力，但為了安全，我們也慶幸它在思維鏈上保持了一定的「誠實與笨拙」。在 AI 真正學會圓滑地隱藏動機之前，我們擁有一段寶貴的窗口期去完善監管工具。

參考來源：
OpenAI (2024). Reasoning models struggle to control their chains of thought, and that's good. https://openai.com/index/...