輝達 (NVDA.US) 於近日正式推出最新的語音識別模型「Parakeet-TDT-0.6B-v2」,並一舉登上 Hugging Face 的自動語音辨識排行榜(Open ASR Leaderboard)榜首。
這款擁有 6 億參數的模型,能在 1 秒鐘內完成 1 小時音訊的轉錄,對整個 AI 語音領域造成了震撼性的影響。其高效能與出色速度,使其成為語音識別技術的新標杆。
Parakeet-TDT-0.6B-v2 不僅在性能上領先業界,還採用了 Creative Commons CC-BY-4.0 授權進行開源,讓開發者、研究人員及商業機構可以免費下載並商業化使用,極大地降低了語音技術的入門門檻,並節省了大量開發成本。這對推動語音技術的普及和創新具有重要意義。
Parakeet-TDT-0.6B-v2 利用了 Fast Conformer 編碼器和 TDT 解碼器架構的組合,只要在輝達的 GPU 加速硬體上運行,它就能在 1 秒鐘內轉錄 1 小時的音訊。
在 Hugging Face 上的自動語音辨識排行榜中,Parakeet-TDT-0.6B-v2 以僅 6.05% 的平均詞錯誤率(WER)領先業界。與目前市場上的主流語音識別技術相比,其表現令人驚艷。
在 LibriSpeech clean 測試集上,Parakeet 的詞錯誤率更是低至 1.69%,展示了其卓越的精確度和強大的語音識別能力。
此外,此模型的處理效率遠超市場上其他語音識別解決方案,其 Real-Time Factor(RTFx)數據達到驚人的 3380。這一優異的性能表現使 Parakeet 成為語音識別領域的一顆新星,並為各類應用場景提供了可靠的技術支持。
Parakeet-TDT-0.6B-v2 針對輝達 GPU 硬體進行了優化,支持 A100、H100、T4 和 V100 等多款顯卡。
雖然高階 GPU 可實現最佳性能,但該模型也能在僅有 2GB RAM 的系統上運行,使其部署範圍大幅擴展,無論是小型企業還是大型機構,都能輕鬆部署。
同時,該模型還在多項英語語音識別基準測試中表現優異,包括 AMI、Earnings 22、Giga Speech 和 SPGI Speech。
無論是在高噪音環境還是處理電話音質的語音時,Parakeet-TDT-0.6B-v2 均能保持穩定的識別效果,僅在較低信噪比的情況下有輕微的性能下降。
然而,目前 Parakeet 僅支持英文語音識別,在多語言支持方面尚有提升空間。
輝達強調,Parakeet-TDT-0.6B-v2 的開發過程中未使用任何個人數據,並遵循其負責任的 AI 框架。儘管未針對人口偏見採取具體應對措施,但模型已通過內部品質標準,並提供了詳細的訓練過程和數據集來源文檔,確保隱私合規性。
此次輝達開源 Parakeet-TDT-0.6B-v2 被業界視為語音識別領域的重大突破,將大大促進 ASR 生態系統的創新與發展。業界專家認為,這一模型的出現將如同 Transformer 之於 NLP,對語音識別技術的發展起到加速作用,推動行業邊界的擴展與民主化。
(美股為即時串流報價; OTC市場股票除外,資料延遲最少15分鐘。)新聞來源 (不包括新聞圖片): 鉅亨網