Whisper

Whisper

OpenAI 開源的多語言語音識別模型

詳細解釋

Whisper 是 OpenAI 2022 年開源的自動語音識別(ASR)模型,支援多語言、多任務,效果優秀且免費。

特點:

  • 多語言:支援 99 種語言
  • 多任務:識別、翻譯、語言檢測
  • 強魯棒性:對噪音、口音、專業術語表現好
  • 開源:模型和代碼完全開放

模型規模:

  • tiny:39M 參數,最快
  • base:74M
  • small:244M
  • medium:769M
  • large:1.5B,效果最好

使用方法:

  • 命令行:whisper audio.mp3
  • Python API
  • 本地運行,無需網絡
  • 支援 GPU/CPU

應用:

  • 字幕生成:影片自動上字幕
  • 會議紀錄:轉錄會議內容
  • 語音輸入:替代打字
  • 多語言內容處理

與其他 ASR 的比較:

  • Google Speech-to-Text:雲端,需付費
  • 科大讯飞:中文強,商業
  • Whisper:開源、免費、多語言好

影響:

  • 開源 ASR 的里程碑
  • 許多應用的基礎組件
  • 證明大規模弱監督學習的效果

語音辨識 (ASR / 自動語音辨識)語音轉文字 (STT) 的現代標準工具。

標籤

開源

探索更多AI詞彙

查看所有分類,繼續學習AI知識