Whisper.cpp操作心得

Whisper則是openAI公司開發的開源程式,可以單機執行語音轉文字。只是Whisper轉譯的速度實在太慢了,開發者利用C/C++將其編寫成Whisper.cpp,比起原來用pythonWhisper速度快了不少。但無論是Whisper或是Whisper.cpp都是命令列介面(command line interface),使用者需要撰寫程式碼。

一般使用者福音

在windows作業系統中,已有使用者開發出WhisperDesktop。是圖形化介面的Whisper,也支援GPU,對使用者很友善。

Whisper.cpp安裝

兩種安裝方式:

  1. 依照Whisper.cppgithub網頁依步驟進行。
  2. 使用Homebrew進行安裝。詳見此
    - 這個方式安裝上比較簡易,但版本會比github網頁還要慢一點更新。

Whisper.cpp使用

支援的音檔格式

目前Whisper.cpp僅支援16-bit wav檔案,若非該格式則需要先經過轉檔。推薦使用Audacity軟體進行轉檔。

Whisper.cpp操作範例

單檔案轉譯

./main -m ./models/ggml-large-v3.bin -l en --output-vtt

多檔案轉譯

`for i in data/*.wav; do ./main -m ./models/ggml-large-v3.bin -l zh --output-txt -f "$i"; done`

使用心得

利用Whisper.cc轉譯了PEDro scale評分教學影片,共9個英文影片。對英文的轉譯幾乎百分之百正確。在M1的Macbook pro上,5分鐘的音檔5分鐘內就轉譯完成了,很快!