Anthropic 回來了,
但贏的不只模型

Every 對 Opus 4.8 的 day zero vibe check 很直接:Anthropic 應該可以把它叫 Opus 5。它在程式、寫作與知識工作都變強,卻也暴露下一場競賽的重點:模型之外,使用環境正在決定誰會成為 daily driver。

來源:Every YouTube 頻道

SCROLL
PART 1 | 這不是小更新

Every 的判斷:
Opus 4.8 讓 Anthropic 回到前排

影片一開始的結論很清楚。Every 團隊測了一週後,認為 Opus 4.8 不是普通的版本更新。主持人說 Anthropic 可以把它叫 Opus 5,因為這次不是只有 benchmark 變好,而是使用感回來了。

這個背景很重要。Opus 4.7 在 Every 的感受並不好:有分數進步,但速度慢、不好愛,很多人開始轉向 Codex 和 GPT 5.5。Every 內部原本有許多重度 Claude 使用者,過去一年很依賴 Claude,但最近連這些人都開始承認 Codex 夠快、夠順,GPT 5.5 也開始接手寫作與程式工作。

Opus 4.8 的意義不是 Anthropic 又出了一個模型,而是它把「我會想主動打開 Claude」這件事重新帶回來。

Every 用一個簡單標準測模型:reach test。問題不是你能不能在測試裡跑贏,而是人在真實工作中會不會伸手去用它。Opus 4.8 在這個測試裡拿到很高評價,甚至有人給出少見的 paradigm shift 等級。

PART 2 | 三組分數

它強在同時跨過三種工作,
不是只會單點爆發

Every 的測試把 Opus 4.8 放進三個工作場景:資深工程師等級的程式重寫、寫作任務、以及簡報這類知識工作。重點不只是分數,而是它同時改善很多維度。過去模型常在不同版本之間擺盪:有時太保守,有時又過度行動。這次 Every 的感覺是,Anthropic 把平衡抓對了。

63
資深工程師 benchmark
比 Opus 4.7 高約 30 分,也略高於 GPT 5.5 的 62。
79.6
寫作 benchmark
Every 內部測到目前最佳,能延續作者語氣。
S
reach test
對部分使用者是 paradigm shift 等級,尤其是 Claude 重度用戶。
推理設定
high 和 extra high 表現明顯較好,medium 會掉一些。

程式測試裡,Every 把 vibe-coded codebase 丟給模型,要求從第一原理重寫。人類資深工程師通常落在 80 到 90 分,Opus 4.8 拿到 63,雖然還沒到人類水準,但已經接近 GPT 5.5,且比前一版大幅前進。

寫作測試裡,它會寫文章開頭、宣傳信、文章中段,也比較少露出常見的 AI 痕跡。主持人特別提到,若給它一段自己的文字再請它延續,它會抓到聲音和節奏。這對知識工作者的意義很大,因為模型不只是幫你填字,而是更接近能在同一套語氣裡共同工作。

PART 3 | 程式能力

好的 coding model,
開始不只是把任務做完

Every 說 Opus 4.8 在 extra high reasoning 下是 coding powerhouse。Kieran Klassen 的 LFG bench 測了比較真實的程式任務,例如 SaaS、電商網站、3D 遊戲場景。結果不是只有可執行,而是程式可讀,輸出在工程能力與創造力之間取得平衡。

影片裡提到一個 cozy island benchmark:請模型做一個 3D 溫暖小島場景。Opus 4.8 的結果比較豐富、有層次、有角色感;GPT 5.5 也有很多細節,但比較像直接完成任務。這個差異對軟體產品很有意思。當 AI 開始參與前端、互動、遊戲和品牌體驗,模型不只要正確,還要能做出有質感的第一版。

工作類型
Every 看到的 Opus 4.8
對產品團隊的含義
重寫程式碼
能處理 vibe-coded codebase,分數逼近 GPT 5.5。
AI 更適合接手真實專案裡的清理、重構與補強。
建立介面
輸出不只功能完整,也比較有視覺深度和細節。
第一版產品原型可以更接近可展示、可討論的狀態。
長任務代理人
在高推理設定下更可靠,但設定會大幅影響成果。
團隊需要把推理預算視為產品設定,而不是隱藏參數。

這讓「工程師怎麼用 AI」的問題往前推了一步。早期大家問模型能不能寫出正確程式。現在更重要的是,模型能不能理解一個混亂專案、做出可維護的改動、在多輪工作中保留品質。Opus 4.8 的進步,剛好落在這個方向。

PART 4 | 寫作與知識工作

模型開始像共同工作者,
不是只像內容產生器

Every 對 Opus 4.8 的寫作評價很高。它在 high reasoning 下比較少有 AI tells,能從上下文判斷作者聲音,也能用比較自然的方式延續段落。對寫作者來說,這代表模型不只是產生文案,而是能進入你的風格、幫你推進還沒完全成形的想法。

主持人還提到一個比較私人但重要的用途:人際、管理、心理上的思考。Opus 4.8 不是單純附和,而是會從多個角度推開使用者原本的框架。這種能力對 CEO、主管、創辦人很實用,因為很多知識工作不是找正確答案,而是看見自己漏掉的假設。

✍️
寫出像人的段落
高推理設定下,語氣更自然,較少出現一眼看穿的 AI 痕跡。
🧭
推開原本框架
它不一定反對你,但會展開不同情境,幫你重新看待管理與人際問題。
📊
做出有深度的簡報
Every 測到它能產生一份初學者簡報,不只是薄薄的自動生成內容。

知識工作測試裡,Every 讓模型做一份介紹 component engineering 的簡報。主持人說,這是他第一次看到自動生成簡報有足夠深度、樣式也能接受,像是一份很好的 first pass。這件事對公司內部工作流很關鍵,因為簡報、備忘錄、研究整理、決策草稿,都是白領工作每天花時間的地方。

當模型能在同一個 thread 裡從程式切到寫作,再切到簡報和策略討論,AI 工具就不再只是單點助理,而是工作桌面的一部分。這也是為什麼 Every 會用 daily driver 來描述它。

PART 5 | 兩個限制

模型變強之後,
瓶頸轉向設定與使用環境

Every 給 Opus 4.8 的稱讚很高,但不是無條件。第一個限制是它很吃 reasoning 設定。hard coding challenge、重要寫作任務,都建議用 high 或 extra high。medium 的成果會差一些。這代表使用者不能只問「哪個模型最好」,還要知道要用哪個設定跑哪種工作。

第二個限制更像產品策略問題。主持人仍然把 Codex 當成 daily driver,不是因為模型一定更強,而是 Codex app 快、乾淨、簡單,還有好用的 in-app browser。相對地,Claude desktop app 有 chat、code、co-work 等不同 tab,感覺像把組織分工直接搬進產品裡,使用者進去反而要先想該去哪裡。

下一場 AI 競賽的四層
模型能力會寫、會改、會推理
推理預算何時用 high 或 extra high
工具環境瀏覽器、檔案、程式、終端機
日常習慣使用者每天自然打開哪個工具

這是這支影片最值得產品團隊注意的地方。當 frontier models 越來越接近,使用環境會放大或浪費模型能力。模型本身可能很強,但如果入口混亂、流程慢、工具接不上,使用者不一定會把它放進每天的工作裡。

PART 6 | 對創業者與科技公司的提醒

AI 產品的勝負,
會從模型分數走向工作方式

Opus 4.8 的故事不是「Anthropic 又追上來了」這麼簡單。它說明模型公司仍能用一次好更新改變市場情緒,也說明使用者的忠誠度很薄。前一兩個月覺得 Claude 慢的人,會轉向 Codex;今天 Opus 4.8 變好,又會開始兩邊切換。

對創業者來說,這代表 AI 產品不能只押模型品牌。你要思考的是,使用者在什麼情境會伸手拿起你的工具:寫程式、寫文章、做簡報、做管理判斷、跑多個代理人,還是把這些工作串在一起。reach test 其實是一個很好的產品問題:你的工具在哪些時刻會被主動打開?

如果你在做 AI 產品
不要只問
更該問
模型選型
哪個模型分數最高?
哪個模型在我的核心任務和推理設定下最穩?
工作流
能不能把任務做完?
使用者會不會每天自然把它放進工作節奏?
產品設計
功能是不是很多?
入口是否清楚、切換是否快、工具是否真的接到現場?

Every 這支 vibe check 的價值,在於它不是只看榜單。它看模型在公司內部實際怎麼被拿來寫程式、寫文章、做簡報、跑代理人、做管理思考。這也比較接近 AI 產品會改變工作的方式:不是一個模型打敗另一個模型,而是哪個組合讓人願意改變每天的工作習慣。

Opus 4.8 讓 Anthropic 重新有了模型優勢,但下一場勝負會落在誰能把模型變成每天自然打開的工作環境。

Every 的 day zero vibe check 提醒我們:模型分數會吸引注意,reach test 才會改變工作。

如果你要導入 Opus 4.8,
會先拿來做什麼?

選完之後,分享你的觀點

你的觀點

想看原始 vibe check?

這頁整理自 Every YouTube 頻道。原始影片保留了團隊對 Opus 4.8 在程式、寫作、知識工作、推理設定與 Claude app 使用體驗上的完整評估。

前往 YouTube →