MoTTS / CLAUDE.md
Mo2294's picture
Upload 619 files
92e51ac verified

A newer version of the Gradio SDK is available: 6.1.0

Upgrade

IndexTTS Projekt - Claude Erinnerungen

Aktueller Status ✅

  • IndexTTS2 Repository erfolgreich geklont
  • Abhängigkeiten installiert (ohne DeepSpeed wegen Windows CUDA-Problemen)
  • Modelle heruntergeladen (IndexTeam/IndexTTS-2)
  • WebUI läuft erfolgreich auf http://localhost:7860
  • GPU-Inferenz funktioniert

Projektplan 🎯

Phase 1: Lokales Testen (AKTUELL)

  • Setup und erste Tests mit GPU
  • Verschiedene Stimmen und Emotionen testen
  • Performance und Qualität bewerten
  • Verstehen welche Features benötigt werden

Phase 2: Optimierung für HuggingFace Spaces

  • CPU-Version optimieren (ohne GPU-Abhängigkeiten)
  • Modellgröße reduzieren falls möglich
  • Memory-Usage optimieren
  • Simplified WebUI für HF Spaces erstellen
  • Requirements für CPU-only deployment anpassen

Phase 3: HuggingFace Space Deployment

  • Dockerfile/requirements.txt für HF Spaces anpassen
  • Space erstellen und deployen
  • Testen der CPU-Performance
  • Public/Private Space Konfiguration

Phase 4: Automatisierung

  • API-Interface entwickeln
  • Batch-Processing für Audio-Generierung
  • Automatisierte Workflows einrichten
  • Integration in bestehende Systeme

Technische Details 📋

Installierte Komponenten

  • Python 3.10+
  • UV Package Manager
  • IndexTTS2 Modelle (2.3GB+ Gesamtgröße)
  • WebUI mit Gradio
  • Ohne DeepSpeed (Windows CUDA-Probleme)

Wichtige Befehle

# WebUI starten
python -m uv run webui.py

# Mit CPU-only (für HF Spaces später)
python -m uv run webui.py --device cpu

# Abhängigkeiten für HF Spaces (nur WebUI)
python -m uv sync --extra webui

HF Spaces Considerations

  • CPU-only deployment wird deutlich langsamer sein
  • Modellgröße könnte problematisch werden (2GB+ Limit?)
  • Eventuell kleinere Modelle nutzen (IndexTTS-1.5?)
  • Memory-Limits beachten

Nächste Schritte 🚀

  1. Lokale Tests fortsetzen - verschiedene Inputs ausprobieren
  2. Performance-Benchmarks mit GPU vs CPU
  3. Modellalternativen evaluieren für HF Spaces
  4. Simplified Interface design für automatisierte Nutzung

Notizen 📝

  • DeepSpeed funktioniert nicht auf Windows ohne CUDA Toolkit
  • WebUI läuft auf localhost:7860 (nicht 0.0.0.0:7860)
  • Xet Storage Warnungen sind normal und beeinflussen Funktionalität nicht
  • Projekt unterstützt Emotionserkennung und -steuerung
  • Mehrsprachig (Chinesisch/Englisch)