Spaces:

sheep52031
/

breezyvoice-tts

Runtime error

App Files Files Community

sheep52031 commited on Sep 4

Commit

6edcecd

verified ·

1 Parent(s): 3268a4e

🔧 修復語音克隆功能 - 使用真正的 BreezyVoice 推論邏輯

Browse files

Files changed (3) hide show

README.md +73 -6
app.py +275 -0
requirements.txt +17 -0

README.md CHANGED Viewed

@@ -1,12 +1,79 @@
 ---
-title: Breezyvoice Tts
-emoji: 📈
-colorFrom: yellow
-colorTo: gray
 sdk: gradio
-sdk_version: 5.44.1
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: MediaTek BreezyVoice 語音克隆
+emoji: 🎭
+colorFrom: purple
+colorTo: pink
 sdk: gradio
+sdk_version: "4.44.0"
 app_file: app.py
 pinned: false
+hardware: zerogpu
+startup_duration_timeout: 30m
+tags:
+- voice-cloning
+- zero-shot
+- taiwanese-mandarin
+- breezyvoice
+- mediatek
 ---
+# 🎭 MediaTek BreezyVoice 語音克隆
+## 📋 專案概述
+MediaTek BreezyVoice 零樣本語音克隆系統，專為台灣繁體中文優化。使用先進的語音合成技術，能夠從短短 5-20 秒的參考語音中學習聲音特徵，並合成任意文字內容。
+## 🎯 主要功能
+- **零樣本克隆**: 無需訓練，直接克隆任何聲音
+- **台灣優化**: 專門針對台灣國語和繁體中文優化
+- **高品質合成**: MediaTek 先進的語音合成技術
+- **GPU 加速**: 使用 ZeroGPU 實現快速處理
+## 🚀 使用方法
+1. **初始化**: 點擊「初始化 BreezyVoice」按鈕設置模型
+2. **上傳語音**: 上傳 5-20 秒清晰的中文語音作為參考
+3. **輸入文字**: 輸入要用克隆聲音說出的內容
+4. **轉錄參考** (可選): 輸入參考語音的轉錄文字以提高品質
+5. **開始克隆**: 點擊「開始語音克隆」按鈕
+## 💡 最佳效果建議
+- 🎙️ **音質**: 確保參考語音清晰、無雜音
+- 📏 **長度**: 推薦 5-20 秒的參考語音
+- 🗣️ **發音**: 自然清晰地朗讀，無需刻意
+- 📝 **轉錄**: 提供參考語音的轉錄文字可顯著提高克隆品質
+## ⚡ 技術規格
+- **模型**: MediaTek BreezyVoice 完整版
+- **硬體**: ZeroGPU (H200 70GB VRAM)
+- **支援格式**: WAV, MP3, M4A
+- **語言**: 繁體中文 (台灣)
+- **特色**: 零樣本學習、即時推論
+## 🔗 API 使用
+```python
+from gradio_client import Client
+client = Client("sheep52031/breezyvoice-tts")
+# 上傳參考語音和合成文字
+result = client.predict(
+    speaker_audio="reference_audio.wav",
+    content_text="要合成的文字內容",
+    speaker_transcription="參考語音轉錄 (可選)",
+    api_name="/predict"
+)
+synthesized_audio = result[0]  # 合成的語音
+status_info = result[1]        # 處理狀態
+```
+## 📊 應用場景
+- 🎬 **影片配音**: 製作個人化旁白
+- 🎤 **語音助手**: 創建專屬聲音的 AI 助手
+- 📚 **有聲書籍**: 用特定聲音朗讀文字內容
+- 🎮 **遊戲配音**: 角色語音生成
+- 🏢 **商業應用**: 品牌專屬語音系統
+## ⚠️ 使用須知
+- 僅供合法用途使用，請勿用於偽造他人聲音進行不當行為
+- 建議在使用前取得聲音原主人的同意
+- 系統生成的語音僅供學習和研究用途

app.py ADDED Viewed

	@@ -0,0 +1,275 @@

+"""
+MediaTek BreezyVoice 真實語音克隆 Space
+基於成功的本地測試實現真正的語音合成功能
+"""
+import gradio as gr
+import spaces
+import torch
+import torchaudio
+import tempfile
+import os
+import time
+import subprocess
+import sys
+from pathlib import Path
+# 全域變數
+cosyvoice = None
+bopomofo_converter = None
+setup_completed = False
+@spaces.GPU(duration=300)
+def setup_breezyvoice():
+    """設置 BreezyVoice 環境並載入模型"""
+    global cosyvoice, bopomofo_converter, setup_completed
+    if setup_completed:
+        return "✅ BreezyVoice 已準備就緒"
+    try:
+        print("🔧 正在設置 BreezyVoice...")
+        # 1. Clone BreezyVoice repository
+        repo_path = "/tmp/BreezyVoice"
+        if not os.path.exists(repo_path):
+            print("📥 下載 BreezyVoice repository...")
+            result = subprocess.run([
+                "git", "clone",
+                "https://github.com/mtkresearch/BreezyVoice.git",
+                repo_path
+            ], capture_output=True, text=True, timeout=300)
+            if result.returncode != 0:
+                raise Exception(f"下載失敗: {result.stderr}")
+        # 2. 添加模組路徑
+        sys.path.insert(0, repo_path)
+        # 3. 安裝必要依賴
+        print("📦 安裝依賴...")
+        dependencies = [
+            "g2pw", "WeTextProcessing", "opencc-python-reimplemented",
+            "hydra-core", "HyperPyYAML", "conformer", "lightning",
+            "diffusers", "einops"
+        ]
+        for dep in dependencies:
+            print(f"安裝 {dep}...")
+            result = subprocess.run(
+                ["pip", "install", dep, "--no-cache-dir"],
+                capture_output=True, timeout=120
+            )
+            if result.returncode != 0:
+                print(f"⚠️ {dep} 安裝失敗，繼續...")
+        # 4. 導入 BreezyVoice 模組
+        try:
+            from single_inference import CustomCosyVoice
+            from g2pw import G2PWConverter
+            print("✅ BreezyVoice 模組導入成功")
+        except ImportError as e:
+            raise Exception(f"模組導入失敗: {e}")
+        # 5. 載入模型
+        print("🔄 載入 BreezyVoice 完整版模型...")
+        cosyvoice = CustomCosyVoice("MediaTek-Research/BreezyVoice")
+        bopomofo_converter = G2PWConverter()
+        setup_completed = True
+        print("✅ BreezyVoice 設置完成!")
+        # 檢查 VRAM 使用
+        if torch.cuda.is_available():
+            vram_used = torch.cuda.memory_allocated() / 1024**3
+            return f"✅ BreezyVoice 設置完成！VRAM 使用: {vram_used:.2f}GB"
+        return "✅ BreezyVoice 設置完成！"
+    except Exception as e:
+        print(f"❌ 設置失敗: {str(e)}")
+        return f"❌ 設置失敗: {str(e)}"
+@spaces.GPU(duration=180)
+def breezy_voice_clone(speaker_audio, content_text, speaker_transcription=None):
+    """執行 BreezyVoice 語音克隆"""
+    global cosyvoice, bopomofo_converter
+    if speaker_audio is None:
+        return None, "❌ 請先上傳或錄製參考語音"
+    if not content_text.strip():
+        return None, "❌ 請輸入要合成的文字"
+    if not setup_completed or cosyvoice is None:
+        setup_status = setup_breezyvoice()
+        if "❌" in setup_status:
+            return None, setup_status
+    try:
+        with tempfile.TemporaryDirectory() as temp_dir:
+            # 處理輸入音訊
+            input_audio_path = os.path.join(temp_dir, "speaker_voice.wav")
+            output_audio_path = os.path.join(temp_dir, "cloned_voice.wav")
+            # 保存參考音訊
+            sample_rate, audio_data = speaker_audio
+            torchaudio.save(input_audio_path, torch.tensor(audio_data).unsqueeze(0), sample_rate)
+            # 如果沒有提供轉錄，使用預設
+            if not speaker_transcription or not speaker_transcription.strip():
+                speaker_transcription = "這是一段參考語音，用於語音克隆分析。"
+            print(f"🎤 合成文字: {content_text}")
+            print(f"📝 參考轉錄: {speaker_transcription}")
+            # 執行語音合成
+            synthesis_start = time.time()
+            try:
+                # 導入 single_inference 函數
+                from single_inference import single_inference
+                # 執行語音合成
+                single_inference(
+                    speaker_prompt_audio_path=input_audio_path,
+                    content_to_synthesize=content_text,
+                    output_path=output_audio_path,
+                    cosyvoice=cosyvoice,
+                    bopomofo_converter=bopomofo_converter,
+                    speaker_prompt_text_transcription=speaker_transcription
+                )
+                synthesis_time = time.time() - synthesis_start
+                # 檢查輸出
+                if os.path.exists(output_audio_path):
+                    # 讀取合成的音訊
+                    synthesized_audio, sample_rate = torchaudio.load(output_audio_path)
+                    synthesized_audio = synthesized_audio.numpy()
+                    # 計算音訊長度
+                    audio_duration = synthesized_audio.shape[1] / sample_rate
+                    rtf = synthesis_time / audio_duration if audio_duration > 0 else float('inf')
+                    # 檢查 VRAM 使用
+                    vram_info = ""
+                    if torch.cuda.is_available():
+                        vram_used = torch.cuda.memory_allocated() / 1024**3
+                        vram_info = f"💾 VRAM: {vram_used:.2f}GB"
+                    status = f"""✅ 語音克隆成功！
+🎙️ 參考語音: {len(audio_data)/sample_rate:.1f}秒
+📝 合成內容: {content_text}
+⏱️ 合成時間: {synthesis_time:.1f}秒
+🎵 輸出長度: {audio_duration:.1f}秒
+📊 RTF: {rtf:.3f} {'(實時)' if rtf < 1.0 else '(非實時)'}
+{vram_info}
+🤖 模型: MediaTek BreezyVoice 完整版"""
+                    return (sample_rate, synthesized_audio[0]), status
+                else:
+                    return None, "❌ 語音合成失敗：未生成輸出檔案"
+            except Exception as e:
+                return None, f"❌ 語音合成失敗: {str(e)}"
+    except Exception as e:
+        return None, f"❌ 處理錯誤: {str(e)}"
+# 創建 Gradio 界面
+with gr.Blocks(title="BreezyVoice 語音克隆", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🎭 MediaTek BreezyVoice 語音克隆")
+    gr.Markdown("**零樣本語音克隆系統** - 專為台灣繁體中文優化")
+    # 初始化狀態顯示
+    setup_status = gr.Textbox(
+        label="🔧 系統狀態",
+        value="⏳ 準備初始化 BreezyVoice...",
+        interactive=False
+    )
+    # 初始化按鈕
+    init_btn = gr.Button("🚀 初始化 BreezyVoice", variant="primary")
+    with gr.Row():
+        with gr.Column(scale=1):
+            gr.Markdown("### 🎙️ 步驟 1: 上傳參考語音")
+            gr.Markdown("上傳 5-20 秒清晰的中文語音作為聲音特徵參考")
+            speaker_audio = gr.Audio(
+                sources=["microphone", "upload"],
+                type="numpy",
+                label="參考語音 (5-20秒)"
+            )
+            gr.Markdown("### 📝 步驟 2: 輸入文字內容")
+            content_text = gr.Textbox(
+                lines=3,
+                placeholder="請輸入要用克隆聲音說出的內容...",
+                label="合成文字內容",
+                value="哈囉！這裡是光鈦廣告的小陳啦，我是林家任創造出來的AI Agent,不是詐騙集團啦。"
+            )
+            gr.Markdown("### 🔤 步驟 3: 參考語音轉錄 (可選)")
+            speaker_transcription = gr.Textbox(
+                lines=2,
+                placeholder="如果知道參考語音的內容，請輸入轉錄文字以提高品質...",
+                label="參考語音轉錄 (可選)",
+                value=""
+            )
+            clone_btn = gr.Button("🎭 開始語音克隆", variant="primary", size="lg")
+        with gr.Column(scale=1):
+            gr.Markdown("### 🎵 克隆結果")
+            result_audio = gr.Audio(
+                label="克隆的語音",
+                type="numpy"
+            )
+            result_status = gr.Textbox(
+                label="📋 處理狀態",
+                lines=12,
+                max_lines=15,
+                interactive=False
+            )
+    # 使用說明
+    with gr.Accordion("📖 使用說明", open=False):
+        gr.Markdown("""
+        ## 🎯 操作步驟
+        1. **初始化**: 點擊「初始化 BreezyVoice」按鈕設置模型
+        2. **上傳語音**: 上傳 5-20 秒的清晰中文語音作為參考
+        3. **輸入文字**: 輸入要用克隆聲音說出的內容
+        4. **開始克隆**: 點擊「開始語音克隆」按鈕
+        ## 💡 最佳效果建議
+        - 🎙️ 參考語音清晰、無雜音
+        - 📏 長度適中（5-20秒）
+        - 🗣️ 自然朗讀，發音清楚
+        - 📝 如果知道參考語音的轉錄內容，填寫可提高品質
+        ## ⚡ 技術特色
+        - 🇹🇼 台灣繁體中文專門優化
+        - 🎯 零樣本克隆（無需訓練）
+        - ⚡ ZeroGPU 加速處理
+        - 🔊 MediaTek 先進語音合成技術
+        """)
+    # 事件綁定
+    init_btn.click(
+        fn=setup_breezyvoice,
+        outputs=[setup_status]
+    )
+    clone_btn.click(
+        fn=breezy_voice_clone,
+        inputs=[speaker_audio, content_text, speaker_transcription],
+        outputs=[result_audio, result_status]
+    )
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+gradio>=4.40.0
+spaces>=0.28.0
+torch>=2.0.0
+torchaudio>=2.0.0
+transformers>=4.40.0
+soundfile>=0.12.1
+numpy>=1.21.0
+librosa>=0.10.0
+g2pw
+WeTextProcessing
+opencc-python-reimplemented
+hydra-core>=1.3.0
+HyperPyYAML>=1.2.0
+conformer>=0.3.0
+pytorch-lightning
+diffusers
+einops