Mati Staniszewski 在 Stripe Cheeky Pint 裡談的不是「聲音像不像真人」。ElevenLabs 真正在解的問題是:模型如何理解情境、企業如何放心部署、使用量如何變成生意,以及 AI 原生公司該怎麼運作。
訪談一開始,John Collison 問 Mati:如果用 Karpathy 風格從零做一個玩具版語音模型,它怎麼運作?Mati 從早期模擬人類聲道的機器講起,再到用音素拼接聲音、把文字轉成梅爾頻譜圖,最後才進入今天的神經網路語音模型。
ElevenLabs 的突破不只在「下一個聲音」預測。模型要同時處理文字、音素、聲音波形、說話者參考,還要理解前後文。快樂句子、對話場景、英國口音、波蘭口音、停頓、緊張或安撫語氣,過去常被工程師寫成硬編碼參數;現在模型可以從資料裡自己推斷。
這也是為什麼「人味」不是單一功能。它來自架構、算力與資料一起工作。Mati 說,很多音訊資料只標了「說了什麼」,沒有標「怎麼說」。ElevenLabs 因此建立自己的標註流程,訓練團隊理解情緒、口音、韻律與說話者切換。後來推出的 speech-to-text,也是一開始為了幫自己標資料才做出來的模型。
Collison 舉了兩個很直覺的例子:開車時想讓手機完整讀一份 PDF,很難;車上的語音控制,多數也不好用。Mati 同意,使用者每天感受到的語音體驗落後於前沿模型。原因不是只有模型品質,而是部署速度、裝置限制與產品整合都還沒跟上。
真正的語音代理人還要解一個難題:什麼時候該等你講完,什麼時候該插話確認,什麼時候該去查資料,什麼時候該執行動作。沉默長短、句子脈絡、工具呼叫、身分驗證、資料庫查詢,每一步都會影響使用者覺得它像不像一個能一起工作的對象。
這段讓語音 AI 的產品路線更清楚。單純的「會講話」已經不夠,企業要的是一套可控、可監測、能連到既有系統的工作流。這也是 ElevenLabs 把重心放在 voice agents 的原因。
Mati 對 ElevenLabs 的定義是「研究與產品部署公司」。它先做 foundational audio and voice models,再把模型包成企業可以用的平台。產品線包括 text-to-speech、speech-to-text、對話模型、音樂與其他音訊模型;落地時,還要接知識庫、電話、系統整合、評估、監控與安全措施。
平台邊界的判斷也很明確。若是企業裡的水平用途,ElevenLabs 想自己提供完整能力;若需要很深的產業知識,則留給垂直應用公司。語音模型更新很快,Mati 也不希望客戶被卡在兩個版本前的模型上。當技術變化太快,模型公司有理由更直接碰到使用者與企業流程。
語音的商業價值來自雙向互動。Mati 提到 ElevenLabs 在自己的表單後面加上語音代理人後,使用者更願意留下資訊,也會用更開放的方式描述需求。文字表單像填欄位,語音互動比較像把情境說清楚。
和大型語言模型相比,語音模型通常小很多。Mati 說前沿語音模型大約是數十億到低數百億參數,訓練成本低於大型語言模型、影像模型與影片模型。但這不代表它是輕資本生意。ElevenLabs 仍然需要研究人才、算力、資料管線,以及足夠快的產品部署。
定價也跟使用量綁在一起。text-to-speech 多半按文字 token 計費,voice agents 與轉錄常按分鐘計費;大型企業則會簽年度合約、承諾用量,再換取折扣。新模型剛出來時,ElevenLabs 會盡量用有吸引力的價格推給客戶,讓更多人測出新用途,也讓公司更快知道模型要修哪裡。
自助式產品是 ElevenLabs 商業策略的重要部分。Mati 說,讓任何人直接試用,可以立刻知道技術好不好,也讓開發者與中小企業展示未來用途。Enterprise 需要可靠度、合規與規模;自助式使用者則提供早期回饋、社群分發與新場景。
Collison 問到 speech-to-speech,也就是不經過文字中介,直接從語音輸入產生語音輸出。Mati 的答案很務實:speech-to-speech 速度快,適合低延遲、陪伴型、幻覺風險沒那麼嚴重的場景;但企業需要知道每一步發生什麼,需要接工具、查資料、做驗證,所以 ElevenLabs 目前重押 speech-to-text、LLM、text-to-speech 串起來的 cascaded approach。
語音生成也在變得更可控。以前模型會自己決定怎麼演出,使用者頂多重新生成。ElevenLabs 的 V3 開始加入 expressive mode,讓開發者可以要求說慢一點、停頓久一點、語氣更安撫。若另一端的使用者緊張,代理人不只要選對文字,也要用合適的情緒說出來。
個人化轉錄也是下一步。Mati 說,模型若知道某個人的口音、常用詞與場景,就不必每次都用全球平均模型猜。手術室裡要聽懂醫師、家中裝置要分辨主人與家人、吵雜場域要找對說話者,這些都是語音 AI 從玩具走向工具時必須解的問題。
訪談最後談到組織。ElevenLabs 成立於 2022 年,剛好在 AI 浪潮中長大。Mati 說公司保持小團隊與平坦組織,產品與研究專案常用不到 10 人的團隊推進。他和共同創辦人 Piotr 都有超過 15 位直屬同事,這不是每家公司都該照抄,但反映了他們對高自主性團隊的偏好。
更關鍵的是非工程團隊也要有技術資源。招募、營運、銷售與財務不只是買現成 SaaS,而是把資料變成可詢問的系統,讓代理人準備客戶會議、整理候選人、產生客製簡報、回收線索。Mati 在烏克蘭政府的數位服務團隊也看到類似做法:每個部會都有技術人員,再由中央數位轉型團隊整合。
Collison 把這段收成一句話:高自主性的人會是 AI 進步的贏家。Mati 同意。AI 不只放大資深或年輕,而是放大願意探索、願意把工具接進工作的人。
這讓 ElevenLabs 的故事不只是「語音模型變好」。它同時是一家模型公司、企業平台、自助式開發者工具、用量計費生意,也是一個剛在 AI 時代成長起來的組織實驗。
語音 AI 的關鍵不是會說話,而是在對的情境裡聽懂、等待、查資料、執行,再用人願意信任的聲音回應。
ElevenLabs 的策略,是把模型能力、部署管線、使用量定價與企業工作流接成同一個平台。
選完之後,分享你的觀點
這頁整理自 Stripe 的 Cheeky Pint 系列。原始影片保留了 John Collison 與 Mati Staniszewski 對聲音模型、語音代理人、企業銷售、自助式產品與 AI 原生組織的完整對話。
前往 YouTube →喜歡這種分析嗎?
從 AI 代理人、平台策略到科技公司的商業模式,用台灣讀者看得懂的語言,把複雜的產業變局說清楚。目前已有超過 2 萬位讀者訂閱。
免費訂閱區塊勢 →也可以直接付費支持,解鎖每週完整文章