本文 GitHub圈選 項目推薦:
- GPT-SoVits(新型音色克隆工具)
- Umi-OCR(文字識別工具)
- AI Gateway(AI 網關)
- DDColor(AI圖像著色工具)
- PhotoMaker(AI圖像生成工具)
1、GPT-SoVits
GPT-SoVits 是一款強大的支持少量語音轉換、文本到語音的音色克隆模型。支持中文、英文、日文的語音推理。
![](https://news.xinpengboligang.com/upload/keji/57063215c6a9021ef93b172e4e2f0b10.jpeg)
該項目是RVC-Boss 同Rcell (AI音色轉換技術Sovits開發者)共同研究,歷時半年開發出來的一款全新的低成本的易用的音色克隆工具。
據開發者及各大博主測驗,僅需提供 5 秒語音樣本即可體驗達到 80%~95% 像的聲音克隆。若提供 1 分鐘語音樣本可以逼近真人的效果,且訓練出高質量的 TTS 模型!
Star:2.7k
項目地址:
https://github.com/RVC-Boss/GPT-SoVITS
![](https://news.xinpengboligang.com/upload/keji/568b06f43c541041831db7891c8983af.jpeg)
特征:
- 零樣本 TTS:輸入 5 秒語音樣本並體驗即時文本到語音轉換。
- Few-shot TTS:僅用 1 分鐘的訓練數據即可微調模型,以提高語音相似度和真實感。
- 跨語言支持:用與訓練數據集不同的語言進行推理,目前支持英語、日語和中文。
- WebUI工具:集成工具包括語音伴奏分離、自動訓練集分割、中文ASR和文本標註,幫助初學者創建訓練數據集和GPT/SoVITS模型。
2、Umi-OCR
Umi-OCR 是一款基於百度自研的 PaddleOCR框架 開源的 OCR 項目源、免費的離線OCR軟件。
![](https://news.xinpengboligang.com/upload/keji/1832bc92f75978aa5e52317e8c415525.jpeg)
Star:17.2k
項目地址:
https://github.com/hiroi-sora/Umi-OCR
該工具開源至今,一直再對功能進行更新支持,截屏/粘貼/批量導入圖片、段落排版/去除水印、掃描/生成二維碼等功能都已支持,不可畏不強大!
最重要的是免費、離線!
功能特點:
- 免費:所有代碼開源,完全免費。
- 方便:解壓即用,離線運行,無需網絡。
- 高效:自帶高效率離線OCR引擎。隻要電腦性能足夠,可以比在線OCR服務更快。
- 靈活:支持命令行、HTTP接口等多種調用方式。
- 功能:截圖OCR / 批量OCR / 二維碼 / 數學公式識別
該工具很有很多優化的功能,還有體驗上的優化,比如:兼容windows7系統、支持多國語言切換、字體/背景更換、系統托盤/快捷鍵等等諸多優化。
![](https://news.xinpengboligang.com/upload/keji/29b192e58417537765365a226e4f7ba6.jpeg)
3、AI Gateway
AI Gateway 是一個AI領域的開源工具,是應用程序和托管 LLM 之間的接口,通過統一簡單的 API,讓用戶輕松快速接入 100 多種大語言模型,如 OpenAI、Anthropic、Mistral、LLama2、Google Gemini 等。
![](https://news.xinpengboligang.com/upload/keji/543053e0955c4afa14f4c621153bdc05.jpeg)
Star:2.9k
項目地址:
https://github.com/Portkey-AI/gateway
特色功能:
- ✅ 速度極快(快 9.9 倍),占用空間極小(已安裝約 45kb)
- ✅ 跨多個模型、提供程序和密鑰的負載平衡
- ✅ 回退確保您的應用程序保持彈性
- ✅ 默認情況下具有指數回退的 自動重試
- ✅ 插件中間件根據需要
- ✅ 經過超過100B 代幣的戰鬥測試
特征:
- 統一API簽名
- 倒退
- 自動重試
- 負載均衡
AI Gateway 適用於各種人工智能應用場景,包括自然語言處理、文本生成、語音識別等。無論是個人開發者還是企業級應用,都可以受益於該工具的便捷性和穩定性。
4、DDColor
DDColor 是一個由 阿裡達摩院 研究的基於深度學習技術的 圖像上色模型,它能夠自動將黑白或灰度圖像著色,使圖像更加生動逼真。
該模型采用了先進的神經網絡架構和訓練技術,能夠識別圖像中的物體和場景,並為其添加逼真的顏色。
![](https://news.xinpengboligang.com/upload/keji/b9fd9202c024f5b5ff6557ac231cf117.jpeg)
Star:402
項目地址:
https://github.com/piddnad/DDColor
DDColor 模型 采用雙解碼器技術,DDColor能夠同時考慮色彩分佈和像素級詳細信息,能實現高度真實的圖像上色效果。
其高質量的著色效果和快速的處理速度使其在多個領域都具有廣泛的應用前景,為圖像處理領域帶來了新的可能性。
5、PhotoMaker
PhotoMaker 是騰訊Arc實驗室同南開大學合作研發的一款通過 堆疊 ID技術嵌入 定制出逼真的人體照片的開源工具。
![](https://news.xinpengboligang.com/upload/keji/bab4f1f0a7f8ca1e9603c4667f86f6e2.jpeg)
Star:5.6k
項目地址:
https://github.com/TencentARC/PhotoMaker
一個可以創建任何風格的任何人的照片/繪畫/頭像的生成器。
能根據描述生成符合描述的人物照片。也能把幾個不同人的照片特征混合在一起,創造出一個全新的人物形象。
還能改變照片人物的性別、年齡和生成多種風格的其他照片。快速逼真,效果自然。更加無需訓練LoRA即可保持角色一致性。
以上就是本文 GitHub圈選 的5款開源項目,有興趣的同學可以前往了解探索哈!!