Anthropic 回來了，
但贏的不只模型

Every 對 Opus 4.8 的 day zero vibe check 很直接：Anthropic 應該可以把它叫 Opus 5。它在程式、寫作與知識工作都變強，卻也暴露下一場競賽的重點：模型之外，使用環境正在決定誰會成為 daily driver。

來源：Every YouTube 頻道

SCROLL

PART 1 ｜這不是小更新

Every 的判斷：
Opus 4.8 讓 Anthropic 回到前排

影片一開始的結論很清楚。Every 團隊測了一週後，認為 Opus 4.8 不是普通的版本更新。主持人說 Anthropic 可以把它叫 Opus 5，因為這次不是只有 benchmark 變好，而是使用感回來了。

這個背景很重要。Opus 4.7 在 Every 的感受並不好：有分數進步，但速度慢、不好愛，很多人開始轉向 Codex 和 GPT 5.5。Every 內部原本有許多重度 Claude 使用者，過去一年很依賴 Claude，但最近連這些人都開始承認 Codex 夠快、夠順，GPT 5.5 也開始接手寫作與程式工作。

Opus 4.8 的意義不是 Anthropic 又出了一個模型，而是它把「我會想主動打開 Claude」這件事重新帶回來。

Every 用一個簡單標準測模型：reach test。問題不是你能不能在測試裡跑贏，而是人在真實工作中會不會伸手去用它。Opus 4.8 在這個測試裡拿到很高評價，甚至有人給出少見的 paradigm shift 等級。

PART 2 ｜三組分數

它強在同時跨過三種工作，
不是只會單點爆發

Every 的測試把 Opus 4.8 放進三個工作場景：資深工程師等級的程式重寫、寫作任務、以及簡報這類知識工作。重點不只是分數，而是它同時改善很多維度。過去模型常在不同版本之間擺盪：有時太保守，有時又過度行動。這次 Every 的感覺是，Anthropic 把平衡抓對了。

資深工程師 benchmark

比 Opus 4.7 高約 30 分，也略高於 GPT 5.5 的 62。

79.6

寫作 benchmark

Every 內部測到目前最佳，能延續作者語氣。

reach test

對部分使用者是 paradigm shift 等級，尤其是 Claude 重度用戶。

高

推理設定

high 和 extra high 表現明顯較好，medium 會掉一些。

程式測試裡，Every 把 vibe-coded codebase 丟給模型，要求從第一原理重寫。人類資深工程師通常落在 80 到 90 分，Opus 4.8 拿到 63，雖然還沒到人類水準，但已經接近 GPT 5.5，且比前一版大幅前進。

寫作測試裡，它會寫文章開頭、宣傳信、文章中段，也比較少露出常見的 AI 痕跡。主持人特別提到，若給它一段自己的文字再請它延續，它會抓到聲音和節奏。這對知識工作者的意義很大，因為模型不只是幫你填字，而是更接近能在同一套語氣裡共同工作。

PART 3 ｜程式能力

好的 coding model，
開始不只是把任務做完

Every 說 Opus 4.8 在 extra high reasoning 下是 coding powerhouse。Kieran Klassen 的 LFG bench 測了比較真實的程式任務，例如 SaaS、電商網站、3D 遊戲場景。結果不是只有可執行，而是程式可讀，輸出在工程能力與創造力之間取得平衡。

影片裡提到一個 cozy island benchmark：請模型做一個 3D 溫暖小島場景。Opus 4.8 的結果比較豐富、有層次、有角色感；GPT 5.5 也有很多細節，但比較像直接完成任務。這個差異對軟體產品很有意思。當 AI 開始參與前端、互動、遊戲和品牌體驗，模型不只要正確，還要能做出有質感的第一版。

工作類型

Every 看到的 Opus 4.8

對產品團隊的含義

重寫程式碼

能處理 vibe-coded codebase，分數逼近 GPT 5.5。

AI 更適合接手真實專案裡的清理、重構與補強。

建立介面

輸出不只功能完整，也比較有視覺深度和細節。

第一版產品原型可以更接近可展示、可討論的狀態。

長任務代理人

在高推理設定下更可靠，但設定會大幅影響成果。

團隊需要把推理預算視為產品設定，而不是隱藏參數。

這讓「工程師怎麼用 AI」的問題往前推了一步。早期大家問模型能不能寫出正確程式。現在更重要的是，模型能不能理解一個混亂專案、做出可維護的改動、在多輪工作中保留品質。Opus 4.8 的進步，剛好落在這個方向。

PART 4 ｜寫作與知識工作

模型開始像共同工作者，
不是只像內容產生器

Every 對 Opus 4.8 的寫作評價很高。它在 high reasoning 下比較少有 AI tells，能從上下文判斷作者聲音，也能用比較自然的方式延續段落。對寫作者來說，這代表模型不只是產生文案，而是能進入你的風格、幫你推進還沒完全成形的想法。

主持人還提到一個比較私人但重要的用途：人際、管理、心理上的思考。Opus 4.8 不是單純附和，而是會從多個角度推開使用者原本的框架。這種能力對 CEO、主管、創辦人很實用，因為很多知識工作不是找正確答案，而是看見自己漏掉的假設。

✍️

寫出像人的段落

高推理設定下，語氣更自然，較少出現一眼看穿的 AI 痕跡。

🧭

推開原本框架

它不一定反對你，但會展開不同情境，幫你重新看待管理與人際問題。

📊

做出有深度的簡報

Every 測到它能產生一份初學者簡報，不只是薄薄的自動生成內容。

知識工作測試裡，Every 讓模型做一份介紹 component engineering 的簡報。主持人說，這是他第一次看到自動生成簡報有足夠深度、樣式也能接受，像是一份很好的 first pass。這件事對公司內部工作流很關鍵，因為簡報、備忘錄、研究整理、決策草稿，都是白領工作每天花時間的地方。

當模型能在同一個 thread 裡從程式切到寫作，再切到簡報和策略討論，AI 工具就不再只是單點助理，而是工作桌面的一部分。這也是為什麼 Every 會用 daily driver 來描述它。

PART 5 ｜兩個限制

模型變強之後，
瓶頸轉向設定與使用環境

Every 給 Opus 4.8 的稱讚很高，但不是無條件。第一個限制是它很吃 reasoning 設定。hard coding challenge、重要寫作任務，都建議用 high 或 extra high。medium 的成果會差一些。這代表使用者不能只問「哪個模型最好」，還要知道要用哪個設定跑哪種工作。

第二個限制更像產品策略問題。主持人仍然把 Codex 當成 daily driver，不是因為模型一定更強，而是 Codex app 快、乾淨、簡單，還有好用的 in-app browser。相對地，Claude desktop app 有 chat、code、co-work 等不同 tab，感覺像把組織分工直接搬進產品裡，使用者進去反而要先想該去哪裡。

下一場 AI 競賽的四層

模型能力會寫、會改、會推理

推理預算何時用 high 或 extra high

工具環境瀏覽器、檔案、程式、終端機

日常習慣使用者每天自然打開哪個工具

這是這支影片最值得產品團隊注意的地方。當 frontier models 越來越接近，使用環境會放大或浪費模型能力。模型本身可能很強，但如果入口混亂、流程慢、工具接不上，使用者不一定會把它放進每天的工作裡。

PART 6 ｜對創業者與科技公司的提醒

AI 產品的勝負，
會從模型分數走向工作方式

Opus 4.8 的故事不是「Anthropic 又追上來了」這麼簡單。它說明模型公司仍能用一次好更新改變市場情緒，也說明使用者的忠誠度很薄。前一兩個月覺得 Claude 慢的人，會轉向 Codex；今天 Opus 4.8 變好，又會開始兩邊切換。

對創業者來說，這代表 AI 產品不能只押模型品牌。你要思考的是，使用者在什麼情境會伸手拿起你的工具：寫程式、寫文章、做簡報、做管理判斷、跑多個代理人，還是把這些工作串在一起。reach test 其實是一個很好的產品問題：你的工具在哪些時刻會被主動打開？

如果你在做 AI 產品

不要只問

更該問

模型選型

哪個模型分數最高？

哪個模型在我的核心任務和推理設定下最穩？

工作流

能不能把任務做完？

使用者會不會每天自然把它放進工作節奏？

產品設計

功能是不是很多？

入口是否清楚、切換是否快、工具是否真的接到現場？

Every 這支 vibe check 的價值，在於它不是只看榜單。它看模型在公司內部實際怎麼被拿來寫程式、寫文章、做簡報、跑代理人、做管理思考。這也比較接近 AI 產品會改變工作的方式：不是一個模型打敗另一個模型，而是哪個組合讓人願意改變每天的工作習慣。

Anthropic 回來了，
但贏的不只模型

Every 的判斷：
Opus 4.8 讓 Anthropic 回到前排

它強在同時跨過三種工作，
不是只會單點爆發

好的 coding model，
開始不只是把任務做完

模型開始像共同工作者，
不是只像內容產生器

模型變強之後，
瓶頸轉向設定與使用環境

AI 產品的勝負，
會從模型分數走向工作方式

如果你要導入 Opus 4.8，
會先拿來做什麼？

想看原始 vibe check？

Anthropic 回來了，但贏的不只模型

Every 的判斷：Opus 4.8 讓 Anthropic 回到前排

它強在同時跨過三種工作，不是只會單點爆發

好的 coding model，開始不只是把任務做完

模型開始像共同工作者，不是只像內容產生器

模型變強之後，瓶頸轉向設定與使用環境

AI 產品的勝負，會從模型分數走向工作方式

如果你要導入 Opus 4.8，會先拿來做什麼？

想看原始 vibe check？

區塊勢每週深入拆解一個你該知道的科技趨勢

Anthropic 回來了，
但贏的不只模型

Every 的判斷：
Opus 4.8 讓 Anthropic 回到前排

它強在同時跨過三種工作，
不是只會單點爆發

好的 coding model，
開始不只是把任務做完

模型開始像共同工作者，
不是只像內容產生器

模型變強之後，
瓶頸轉向設定與使用環境

AI 產品的勝負，
會從模型分數走向工作方式

如果你要導入 Opus 4.8，
會先拿來做什麼？

區塊勢每週深入拆解一個
你該知道的科技趨勢