語音 AI 生意

PART 1 ｜模型

語音模型不是把文字念出來，
而是把「怎麼說」一起生成

訪談一開始，John Collison 問 Mati：如果用 Karpathy 風格從零做一個玩具版語音模型，它怎麼運作？Mati 從早期模擬人類聲道的機器講起，再到用音素拼接聲音、把文字轉成梅爾頻譜圖，最後才進入今天的神經網路語音模型。

ElevenLabs 的突破不只在「下一個聲音」預測。模型要同時處理文字、音素、聲音波形、說話者參考，還要理解前後文。快樂句子、對話場景、英國口音、波蘭口音、停頓、緊張或安撫語氣，過去常被工程師寫成硬編碼參數；現在模型可以從資料裡自己推斷。

一句話變成聲音，中間有五個判斷

文字使用者要說的內容

情境前後文決定語氣

音素拆到更小的聲音單位

聲紋說話者的口音與韻律

波形最後輸出的聲音

這也是為什麼「人味」不是單一功能。它來自架構、算力與資料一起工作。Mati 說，很多音訊資料只標了「說了什麼」，沒有標「怎麼說」。ElevenLabs 因此建立自己的標註流程，訓練團隊理解情緒、口音、韻律與說話者切換。後來推出的 speech-to-text，也是一開始為了幫自己標資料才做出來的模型。

PART 2 ｜落差

模型已經很強，
但日常語音體驗還像十年前

Collison 舉了兩個很直覺的例子：開車時想讓手機完整讀一份 PDF，很難；車上的語音控制，多數也不好用。Mati 同意，使用者每天感受到的語音體驗落後於前沿模型。原因不是只有模型品質，而是部署速度、裝置限制與產品整合都還沒跟上。

真正的語音代理人還要解一個難題：什麼時候該等你講完，什麼時候該插話確認，什麼時候該去查資料，什麼時候該執行動作。沉默長短、句子脈絡、工具呼叫、身分驗證、資料庫查詢，每一步都會影響使用者覺得它像不像一個能一起工作的對象。

場景

看起來像語音問題

實際卡住的地方

車內助理

聽懂導航、音樂、空調與開車中的自然說法。

車廠導入週期長，離線運算、雲端連線與車內系統整合都要到位。

讀 PDF

把文件完整念出來，不是摘要，也不要中途卡住。

閱讀器、檔案格式、語音播放與使用者偏好的串接不完整。

客服代理人

自然對話、確認問題、必要時安撫使用者。

要接知識庫、電話系統、內部工具、監控、評估與安全護欄。

這段讓語音 AI 的產品路線更清楚。單純的「會講話」已經不夠，企業要的是一套可控、可監測、能連到既有系統的工作流。這也是 ElevenLabs 把重心放在 voice agents 的原因。

PART 3 ｜平台邊界

ElevenLabs 不只賣模型，
也賣把模型放進生意裡的管線

Mati 對 ElevenLabs 的定義是「研究與產品部署公司」。它先做 foundational audio and voice models，再把模型包成企業可以用的平台。產品線包括 text-to-speech、speech-to-text、對話模型、音樂與其他音訊模型；落地時，還要接知識庫、電話、系統整合、評估、監控與安全措施。

平台邊界的判斷也很明確。若是企業裡的水平用途，ElevenLabs 想自己提供完整能力；若需要很深的產業知識，則留給垂直應用公司。語音模型更新很快，Mati 也不希望客戶被卡在兩個版本前的模型上。當技術變化太快，模型公司有理由更直接碰到使用者與企業流程。

模型層

聲音生成與辨識

產生自然語音、轉錄超過 100 種語言、辨識說話者，並逐步加入個人化聽力、關鍵字與降噪能力。

代理人層

等待、查詢、回應、執行

企業場景需要可解釋的串接。ElevenLabs 目前偏好 cascaded approach，透過文字層保留可靠度與可見性。

企業層

從客服延伸到銷售

客服最成熟，但語音也能用在主動回撥、AI SDR、招募、訓練、行銷素材與品牌聲音。

創作層

從配音到語言橋接

低成本高品質配音會改變小語種內容分發，也能讓失去聲音的人重新用自己的聲音說話。

語音的商業價值來自雙向互動。Mati 提到 ElevenLabs 在自己的表單後面加上語音代理人後，使用者更願意留下資訊，也會用更開放的方式描述需求。文字表單像填欄位，語音互動比較像把情境說清楚。

PART 4 ｜商業模式

語音模型比較小，
但成長靠的是用量與企業擴張

和大型語言模型相比，語音模型通常小很多。Mati 說前沿語音模型大約是數十億到低數百億參數，訓練成本低於大型語言模型、影像模型與影片模型。但這不代表它是輕資本生意。ElevenLabs 仍然需要研究人才、算力、資料管線，以及足夠快的產品部署。

定價也跟使用量綁在一起。text-to-speech 多半按文字 token 計費，voice agents 與轉錄常按分鐘計費；大型企業則會簽年度合約、承諾用量，再換取折扣。新模型剛出來時，ElevenLabs 會盡量用有吸引力的價格推給客戶，讓更多人測出新用途，也讓公司更快知道模型要修哪裡。

350M

訪談中提到的最近公告 ARR

Mati 說 2025 年底公告的年化經常性收入為 3.5 億美元。

100M

單季新增 ARR

他提到最近一季新增 ARR 達到 1 億美元，企業成長是主要動能。

50%+

sales-led 佔比

超過一半營收已由企業銷售帶動，但自助式使用仍負責分發與回饋。

470

公司人數

快速成長後，ElevenLabs 仍強調小團隊、平坦組織與高自主性。

自助式產品是 ElevenLabs 商業策略的重要部分。Mati 說，讓任何人直接試用，可以立刻知道技術好不好，也讓開發者與中小企業展示未來用途。Enterprise 需要可靠度、合規與規模；自助式使用者則提供早期回饋、社群分發與新場景。

PART 5 ｜技術取捨

速度、可靠度、可控制性，
不能同時只靠一條路解

Collison 問到 speech-to-speech，也就是不經過文字中介，直接從語音輸入產生語音輸出。Mati 的答案很務實：speech-to-speech 速度快，適合低延遲、陪伴型、幻覺風險沒那麼嚴重的場景；但企業需要知道每一步發生什麼，需要接工具、查資料、做驗證，所以 ElevenLabs 目前重押 speech-to-text、LLM、text-to-speech 串起來的 cascaded approach。

語音生成也在變得更可控。以前模型會自己決定怎麼演出，使用者頂多重新生成。ElevenLabs 的 V3 開始加入 expressive mode，讓開發者可以要求說慢一點、停頓久一點、語氣更安撫。若另一端的使用者緊張，代理人不只要選對文字，也要用合適的情緒說出來。

路線

適合場景

代價

Cascaded

客服、銷售、醫療、金融、企業內部流程。

延遲較高，但可監控、可串接、可控性較強。

Speech-to-speech

陪伴、遊戲、低風險聊天與即時互動。

速度快，但可靠度、可見性與工具整合較弱。

個人化轉錄也是下一步。Mati 說，模型若知道某個人的口音、常用詞與場景，就不必每次都用全球平均模型猜。手術室裡要聽懂醫師、家中裝置要分辨主人與家人、吵雜場域要找對說話者，這些都是語音 AI 從玩具走向工具時必須解的問題。

PART 6 ｜組織

AI 原生公司不是人比較少，
而是每個團隊都更會動手

訪談最後談到組織。ElevenLabs 成立於 2022 年，剛好在 AI 浪潮中長大。Mati 說公司保持小團隊與平坦組織，產品與研究專案常用不到 10 人的團隊推進。他和共同創辦人 Piotr 都有超過 15 位直屬同事，這不是每家公司都該照抄，但反映了他們對高自主性團隊的偏好。

更關鍵的是非工程團隊也要有技術資源。招募、營運、銷售與財務不只是買現成 SaaS，而是把資料變成可詢問的系統，讓代理人準備客戶會議、整理候選人、產生客製簡報、回收線索。Mati 在烏克蘭政府的數位服務團隊也看到類似做法：每個部會都有技術人員，再由中央數位轉型團隊整合。

Collison 把這段收成一句話：高自主性的人會是 AI 進步的贏家。Mati 同意。AI 不只放大資深或年輕，而是放大願意探索、願意把工具接進工作的人。

這讓 ElevenLabs 的故事不只是「語音模型變好」。它同時是一家模型公司、企業平台、自助式開發者工具、用量計費生意，也是一個剛在 AI 時代成長起來的組織實驗。

語音 AI，
終於要進公司了

語音模型不是把文字念出來，
而是把「怎麼說」一起生成

模型已經很強，
但日常語音體驗還像十年前

ElevenLabs 不只賣模型，
也賣把模型放進生意裡的管線

語音模型比較小，
但成長靠的是用量與企業擴張

速度、可靠度、可控制性，
不能同時只靠一條路解

AI 原生公司不是人比較少，
而是每個團隊都更會動手

如果你要押語音 AI，
會先押哪一層？

想聽原始訪談？

語音 AI，終於要進公司了

語音模型不是把文字念出來，而是把「怎麼說」一起生成

模型已經很強，但日常語音體驗還像十年前

ElevenLabs 不只賣模型，也賣把模型放進生意裡的管線

語音模型比較小，但成長靠的是用量與企業擴張

速度、可靠度、可控制性，不能同時只靠一條路解

AI 原生公司不是人比較少，而是每個團隊都更會動手

如果你要押語音 AI，會先押哪一層？

想聽原始訪談？

區塊勢每週深入拆解一個你該知道的科技趨勢

語音 AI，
終於要進公司了

語音模型不是把文字念出來，
而是把「怎麼說」一起生成

模型已經很強，
但日常語音體驗還像十年前

ElevenLabs 不只賣模型，
也賣把模型放進生意裡的管線

語音模型比較小，
但成長靠的是用量與企業擴張

速度、可靠度、可控制性，
不能同時只靠一條路解

AI 原生公司不是人比較少，
而是每個團隊都更會動手

如果你要押語音 AI，
會先押哪一層？

區塊勢每週深入拆解一個
你該知道的科技趨勢