語音 AI,
終於要進公司了

Mati Staniszewski 在 Stripe Cheeky Pint 裡談的不是「聲音像不像真人」。ElevenLabs 真正在解的問題是:模型如何理解情境、企業如何放心部署、使用量如何變成生意,以及 AI 原生公司該怎麼運作。

SCROLL
PART 1 | 模型

語音模型不是把文字念出來,
而是把「怎麼說」一起生成

訪談一開始,John Collison 問 Mati:如果用 Karpathy 風格從零做一個玩具版語音模型,它怎麼運作?Mati 從早期模擬人類聲道的機器講起,再到用音素拼接聲音、把文字轉成梅爾頻譜圖,最後才進入今天的神經網路語音模型。

ElevenLabs 的突破不只在「下一個聲音」預測。模型要同時處理文字、音素、聲音波形、說話者參考,還要理解前後文。快樂句子、對話場景、英國口音、波蘭口音、停頓、緊張或安撫語氣,過去常被工程師寫成硬編碼參數;現在模型可以從資料裡自己推斷。

一句話變成聲音,中間有五個判斷
文字使用者要說的內容
情境前後文決定語氣
音素拆到更小的聲音單位
聲紋說話者的口音與韻律
波形最後輸出的聲音

這也是為什麼「人味」不是單一功能。它來自架構、算力與資料一起工作。Mati 說,很多音訊資料只標了「說了什麼」,沒有標「怎麼說」。ElevenLabs 因此建立自己的標註流程,訓練團隊理解情緒、口音、韻律與說話者切換。後來推出的 speech-to-text,也是一開始為了幫自己標資料才做出來的模型。

PART 2 | 落差

模型已經很強,
但日常語音體驗還像十年前

Collison 舉了兩個很直覺的例子:開車時想讓手機完整讀一份 PDF,很難;車上的語音控制,多數也不好用。Mati 同意,使用者每天感受到的語音體驗落後於前沿模型。原因不是只有模型品質,而是部署速度、裝置限制與產品整合都還沒跟上。

真正的語音代理人還要解一個難題:什麼時候該等你講完,什麼時候該插話確認,什麼時候該去查資料,什麼時候該執行動作。沉默長短、句子脈絡、工具呼叫、身分驗證、資料庫查詢,每一步都會影響使用者覺得它像不像一個能一起工作的對象。

場景
看起來像語音問題
實際卡住的地方
車內助理
聽懂導航、音樂、空調與開車中的自然說法。
車廠導入週期長,離線運算、雲端連線與車內系統整合都要到位。
讀 PDF
把文件完整念出來,不是摘要,也不要中途卡住。
閱讀器、檔案格式、語音播放與使用者偏好的串接不完整。
客服代理人
自然對話、確認問題、必要時安撫使用者。
要接知識庫、電話系統、內部工具、監控、評估與安全護欄。

這段讓語音 AI 的產品路線更清楚。單純的「會講話」已經不夠,企業要的是一套可控、可監測、能連到既有系統的工作流。這也是 ElevenLabs 把重心放在 voice agents 的原因。

PART 3 | 平台邊界

ElevenLabs 不只賣模型,
也賣把模型放進生意裡的管線

Mati 對 ElevenLabs 的定義是「研究與產品部署公司」。它先做 foundational audio and voice models,再把模型包成企業可以用的平台。產品線包括 text-to-speech、speech-to-text、對話模型、音樂與其他音訊模型;落地時,還要接知識庫、電話、系統整合、評估、監控與安全措施。

平台邊界的判斷也很明確。若是企業裡的水平用途,ElevenLabs 想自己提供完整能力;若需要很深的產業知識,則留給垂直應用公司。語音模型更新很快,Mati 也不希望客戶被卡在兩個版本前的模型上。當技術變化太快,模型公司有理由更直接碰到使用者與企業流程。

模型層
聲音生成與辨識
產生自然語音、轉錄超過 100 種語言、辨識說話者,並逐步加入個人化聽力、關鍵字與降噪能力。
代理人層
等待、查詢、回應、執行
企業場景需要可解釋的串接。ElevenLabs 目前偏好 cascaded approach,透過文字層保留可靠度與可見性。
企業層
從客服延伸到銷售
客服最成熟,但語音也能用在主動回撥、AI SDR、招募、訓練、行銷素材與品牌聲音。
創作層
從配音到語言橋接
低成本高品質配音會改變小語種內容分發,也能讓失去聲音的人重新用自己的聲音說話。

語音的商業價值來自雙向互動。Mati 提到 ElevenLabs 在自己的表單後面加上語音代理人後,使用者更願意留下資訊,也會用更開放的方式描述需求。文字表單像填欄位,語音互動比較像把情境說清楚。

PART 4 | 商業模式

語音模型比較小,
但成長靠的是用量與企業擴張

和大型語言模型相比,語音模型通常小很多。Mati 說前沿語音模型大約是數十億到低數百億參數,訓練成本低於大型語言模型、影像模型與影片模型。但這不代表它是輕資本生意。ElevenLabs 仍然需要研究人才、算力、資料管線,以及足夠快的產品部署。

定價也跟使用量綁在一起。text-to-speech 多半按文字 token 計費,voice agents 與轉錄常按分鐘計費;大型企業則會簽年度合約、承諾用量,再換取折扣。新模型剛出來時,ElevenLabs 會盡量用有吸引力的價格推給客戶,讓更多人測出新用途,也讓公司更快知道模型要修哪裡。

350M
訪談中提到的最近公告 ARR
Mati 說 2025 年底公告的年化經常性收入為 3.5 億美元。
100M
單季新增 ARR
他提到最近一季新增 ARR 達到 1 億美元,企業成長是主要動能。
50%+
sales-led 佔比
超過一半營收已由企業銷售帶動,但自助式使用仍負責分發與回饋。
470
公司人數
快速成長後,ElevenLabs 仍強調小團隊、平坦組織與高自主性。

自助式產品是 ElevenLabs 商業策略的重要部分。Mati 說,讓任何人直接試用,可以立刻知道技術好不好,也讓開發者與中小企業展示未來用途。Enterprise 需要可靠度、合規與規模;自助式使用者則提供早期回饋、社群分發與新場景。

PART 5 | 技術取捨

速度、可靠度、可控制性,
不能同時只靠一條路解

Collison 問到 speech-to-speech,也就是不經過文字中介,直接從語音輸入產生語音輸出。Mati 的答案很務實:speech-to-speech 速度快,適合低延遲、陪伴型、幻覺風險沒那麼嚴重的場景;但企業需要知道每一步發生什麼,需要接工具、查資料、做驗證,所以 ElevenLabs 目前重押 speech-to-text、LLM、text-to-speech 串起來的 cascaded approach。

語音生成也在變得更可控。以前模型會自己決定怎麼演出,使用者頂多重新生成。ElevenLabs 的 V3 開始加入 expressive mode,讓開發者可以要求說慢一點、停頓久一點、語氣更安撫。若另一端的使用者緊張,代理人不只要選對文字,也要用合適的情緒說出來。

路線
適合場景
代價
Cascaded
客服、銷售、醫療、金融、企業內部流程。
延遲較高,但可監控、可串接、可控性較強。
Speech-to-speech
陪伴、遊戲、低風險聊天與即時互動。
速度快,但可靠度、可見性與工具整合較弱。

個人化轉錄也是下一步。Mati 說,模型若知道某個人的口音、常用詞與場景,就不必每次都用全球平均模型猜。手術室裡要聽懂醫師、家中裝置要分辨主人與家人、吵雜場域要找對說話者,這些都是語音 AI 從玩具走向工具時必須解的問題。

PART 6 | 組織

AI 原生公司不是人比較少,
而是每個團隊都更會動手

訪談最後談到組織。ElevenLabs 成立於 2022 年,剛好在 AI 浪潮中長大。Mati 說公司保持小團隊與平坦組織,產品與研究專案常用不到 10 人的團隊推進。他和共同創辦人 Piotr 都有超過 15 位直屬同事,這不是每家公司都該照抄,但反映了他們對高自主性團隊的偏好。

更關鍵的是非工程團隊也要有技術資源。招募、營運、銷售與財務不只是買現成 SaaS,而是把資料變成可詢問的系統,讓代理人準備客戶會議、整理候選人、產生客製簡報、回收線索。Mati 在烏克蘭政府的數位服務團隊也看到類似做法:每個部會都有技術人員,再由中央數位轉型團隊整合。

Collison 把這段收成一句話:高自主性的人會是 AI 進步的贏家。Mati 同意。AI 不只放大資深或年輕,而是放大願意探索、願意把工具接進工作的人。

這讓 ElevenLabs 的故事不只是「語音模型變好」。它同時是一家模型公司、企業平台、自助式開發者工具、用量計費生意,也是一個剛在 AI 時代成長起來的組織實驗。

語音 AI 的關鍵不是會說話,而是在對的情境裡聽懂、等待、查資料、執行,再用人願意信任的聲音回應。

ElevenLabs 的策略,是把模型能力、部署管線、使用量定價與企業工作流接成同一個平台。

如果你要押語音 AI,
會先押哪一層?

選完之後,分享你的觀點

你的觀點

想聽原始訪談?

這頁整理自 Stripe 的 Cheeky Pint 系列。原始影片保留了 John Collison 與 Mati Staniszewski 對聲音模型、語音代理人、企業銷售、自助式產品與 AI 原生組織的完整對話。

前往 YouTube →