詳細解釋
2022 年成立的英國 AI 語音合成公司,以其超逼真的文本轉語音(TTS)技術聞名,被譽為「語音界的 Midjourney」。
技術特點:
- 語音克隆:僅需 30 秒音頻樣本即可複製任何人聲音(包括語調、情感、口音)
- 多語言:支援 29 種語言,可實現跨語言語音保留(用某人聲音說他們不會的語言)
- 情感控制:調整語速、音調、激動程度
- 實時性:低延遲 API 適合對話應用
商業模式:
- 免費層:每月 10,000 字符(約 10 分鐘語音)
- 訂閱:$5-330/月,按字符和克隆數量分級
- API:開發者按字符付費
- 企業:定制語音、私有部署、SSO
應用場景:
- 有聲書:自動化旁白生成
- 遊戲:NPC 動態對話(無需預錄所有台詞)
- 播客:AI 生成的播客主持人(如 Google 的 NotebookLM 使用 ElevenLabs)
- 無障礙:為失語者重建聲音
- 電影配音:低成本本地化
爭議與風險:
- 深度偽造:被用於詐騙電話、政治虛假音頻
- 版權:配音演員擔心失業,已有工會罷工
- 安全措施:實施「語音驗證」要求用戶確認有權使用克隆聲音
競爭對手:OpenAI 的 Voice Engine、Amazon Polly、Google Cloud Text-to-Speech,但 ElevenLabs 在逼真度上領先。