一個保真度較高的文本生成語音模型:bark

2024年2月6日 20点热度 0人点赞

來自一個專門做音頻AI的公司suno,這個模型可以生成高度保真的多語言語音以及其他音頻:包括音樂、背景噪音和簡單的音效。該模型還可以產生非語言交流,如笑、嘆息和哭泣等,比較接近真人的效果。

推出後就一直比較火,目前GitHub上已經2萬5千多個贊了。試用中還是有些金屬音,不過確實相對其他的音頻模型,效果提升了不少。

體驗地址1https://huggingface.co/spaces/suno/bark
體驗地址2https://replicate.com/suno-ai/bark
開源地址:https://github.com/suno-ai/bark