Spaces:

channelcorp
/

Ko-TTS-Arena

Sleeping

blackhole1218 commited on 15 days ago

Commit

d88128c

1 Parent(s): 9cb156b

feat: Add CLOVA TTS, update OpenAI to gpt-4o-mini-tts, re-enable Supertone

- Add CLOVA Voice (nara) with CLOVA_CLIENT_ID and CLOVA_API_KEY env vars
- Update OpenAI TTS to gpt-4o-mini-tts with Korean-optimized instructions
- Re-enable Supertone Sona model
- Remove old OpenAI tts-1 and tts-1-hd models

Files changed (2) hide show

models.py +22 -20
tts.py +70 -20

models.py CHANGED Viewed

@@ -571,6 +571,7 @@ def insert_initial_models():
     has_elevenlabs = bool(os.getenv("ELEVENLABS_API_KEY"))
     has_google = bool(os.getenv("GOOGLE_API_KEY"))
     has_supertone = bool(os.getenv("SUPERTONE_API_KEY"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
@@ -591,18 +592,10 @@ def insert_initial_models():
             is_active=has_elevenlabs,
             model_url="https://elevenlabs.io/",
         ),
-        # OpenAI TTS - API 키 있을 때만 활성화
         Model(
-            id="openai-tts-1",
-            name="OpenAI TTS-1",
-            model_type=ModelType.TTS,
-            is_open=False,
-            is_active=has_openai,
-            model_url="https://platform.openai.com/docs/guides/text-to-speech",
-        ),
-        Model(
-            id="openai-tts-1-hd",
-            name="OpenAI TTS-1-HD",
             model_type=ModelType.TTS,
             is_open=False,
             is_active=has_openai,
@@ -625,15 +618,24 @@ def insert_initial_models():
             is_active=has_google,
             model_url="https://cloud.google.com/text-to-speech",
         ),
-        # Supertone TTS (한국어 특화) - 임시 비활성화 (크레딧 부족)
-        # Model(
-        #     id="supertone-sona",
-        #     name="Supertone Sona",
-        #     model_type=ModelType.TTS,
-        #     is_open=False,
-        #     is_active=has_supertone,
-        #     model_url="https://supertone.ai/",
-        # ),
     ]
     for model in tts_models:

     has_elevenlabs = bool(os.getenv("ELEVENLABS_API_KEY"))
     has_google = bool(os.getenv("GOOGLE_API_KEY"))
     has_supertone = bool(os.getenv("SUPERTONE_API_KEY"))
+    has_clova = bool(os.getenv("CLOVA_CLIENT_ID") and os.getenv("CLOVA_API_KEY"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
             is_active=has_elevenlabs,
             model_url="https://elevenlabs.io/",
         ),
+        # OpenAI TTS (gpt-4o-mini-tts) - API 키 있을 때만 활성화
         Model(
+            id="openai-gpt-4o-mini-tts",
+            name="OpenAI GPT-4o Mini TTS",
             model_type=ModelType.TTS,
             is_open=False,
             is_active=has_openai,
             is_active=has_google,
             model_url="https://cloud.google.com/text-to-speech",
         ),
+        # CLOVA TTS (네이버 클라우드 - 한국어 특화) - API 키 있을 때만 활성화
+        Model(
+            id="clova-nara",
+            name="CLOVA Voice (나라)",
+            model_type=ModelType.TTS,
+            is_open=False,
+            is_active=has_clova,
+            model_url="https://clova.ai/",
+        ),
+        # Supertone TTS (한국어 특화) - API 키 있을 때만 활성화
+        Model(
+            id="supertone-sona",
+            name="Supertone Sona",
+            model_type=ModelType.TTS,
+            is_open=False,
+            is_active=has_supertone,
+            model_url="https://supertone.ai/",
+        ),
     ]
     for model in tts_models:

tts.py CHANGED Viewed

@@ -4,6 +4,8 @@ import json
 import base64
 import tempfile
 import requests
 from dotenv import load_dotenv
 load_dotenv()
@@ -11,8 +13,10 @@ load_dotenv()
 # 한국어 지원 TTS 제공자 매핑
 # - 채널톡: 자체 API
 # - ElevenLabs: 직접 API
-# - OpenAI: API
 # - Google: API
 CHANNEL_TTS_URL = os.getenv(
     "CHANNEL_TTS_URL",
@@ -25,6 +29,10 @@ ELEVENLABS_VOICE_ID = os.getenv("ELEVENLABS_VOICE_ID", "21m00Tcm4TlvDq8ikWAM")
 SUPERTONE_API_KEY = os.getenv("SUPERTONE_API_KEY")
 SUPERTONE_VOICE_ID = os.getenv("SUPERTONE_VOICE_ID", "91992bbd4758bdcf9c9b01")  # 기본 보이스
 model_mapping = {
     # 채널톡 TTS (한국어 특화)
     "channel-hana": {
@@ -36,16 +44,11 @@ model_mapping = {
         "provider": "elevenlabs",
         "model": "eleven_multilingual_v2",
     },
-    # OpenAI TTS
-    "openai-tts-1": {
-        "provider": "openai",
-        "model": "tts-1",
-        "voice": "alloy",
-    },
-    "openai-tts-1-hd": {
         "provider": "openai",
-        "model": "tts-1-hd",
-        "voice": "alloy",
     },
     # Google Cloud TTS
     "google-wavenet": {
@@ -56,6 +59,11 @@ model_mapping = {
         "provider": "google",
         "voice": "ko-KR-Neural2-A",
     },
     # Supertone TTS (한국어 특화)
     "supertone-sona": {
         "provider": "supertone",
@@ -114,24 +122,37 @@ def predict_elevenlabs_tts(text: str, model: str = "eleven_multilingual_v2") ->
         return f.name
-def predict_openai_tts(text: str, model: str = "tts-1", voice: str = "alloy") -> str:
-    """OpenAI TTS API 호출"""
     api_key = os.getenv("OPENAI_API_KEY")
     if not api_key:
         raise ValueError("OPENAI_API_KEY 환경 변수가 설정되지 않았습니다.")
     response = requests.post(
         "https://api.openai.com/v1/audio/speech",
         headers={
             "Authorization": f"Bearer {api_key}",
             "Content-Type": "application/json",
         },
-        json={
-            "model": model,
-            "input": text,
-            "voice": voice,
-            "response_format": "wav",
-        },
         timeout=60,
     )
     response.raise_for_status()
@@ -141,6 +162,32 @@ def predict_openai_tts(text: str, model: str = "tts-1", voice: str = "alloy") ->
         return f.name
 def predict_supertone_tts(text: str, model: str = "sona_speech_1") -> str:
     """Supertone TTS API 호출"""
     api_key = SUPERTONE_API_KEY
@@ -234,8 +281,8 @@ def predict_tts(text: str, model: str) -> str:
     elif provider == "openai":
         return predict_openai_tts(
             text,
-            config.get("model", "tts-1"),
-            config.get("voice", "alloy"),
         )
     elif provider == "google":
@@ -247,6 +294,9 @@ def predict_tts(text: str, model: str) -> str:
     elif provider == "supertone":
         return predict_supertone_tts(text, config.get("model", "sona_speech_1"))
     else:
         raise ValueError(f"알 수 없는 provider: {provider}")

 import base64
 import tempfile
 import requests
+import urllib.request
+import urllib.parse
 from dotenv import load_dotenv
 load_dotenv()
 # 한국어 지원 TTS 제공자 매핑
 # - 채널톡: 자체 API
 # - ElevenLabs: 직접 API
+# - OpenAI: API (gpt-4o-mini-tts)
 # - Google: API
+# - CLOVA: 네이버 클라우드 API
+# - Supertone: API
 CHANNEL_TTS_URL = os.getenv(
     "CHANNEL_TTS_URL",
 SUPERTONE_API_KEY = os.getenv("SUPERTONE_API_KEY")
 SUPERTONE_VOICE_ID = os.getenv("SUPERTONE_VOICE_ID", "91992bbd4758bdcf9c9b01")  # 기본 보이스
+# CLOVA TTS (네이버 클라우드)
+CLOVA_CLIENT_ID = os.getenv("CLOVA_CLIENT_ID")
+CLOVA_API_KEY = os.getenv("CLOVA_API_KEY")
 model_mapping = {
     # 채널톡 TTS (한국어 특화)
     "channel-hana": {
         "provider": "elevenlabs",
         "model": "eleven_multilingual_v2",
     },
+    # OpenAI TTS (gpt-4o-mini-tts)
+    "openai-gpt-4o-mini-tts": {
         "provider": "openai",
+        "model": "gpt-4o-mini-tts",
+        "voice": "coral",
     },
     # Google Cloud TTS
     "google-wavenet": {
         "provider": "google",
         "voice": "ko-KR-Neural2-A",
     },
+    # CLOVA TTS (네이버 클라우드 - 한국어 특화)
+    "clova-nara": {
+        "provider": "clova",
+        "speaker": "nara",
+    },
     # Supertone TTS (한국어 특화)
     "supertone-sona": {
         "provider": "supertone",
         return f.name
+def predict_openai_tts(text: str, model: str = "gpt-4o-mini-tts", voice: str = "coral") -> str:
+    """OpenAI TTS API 호출 (gpt-4o-mini-tts 지원)"""
     api_key = os.getenv("OPENAI_API_KEY")
     if not api_key:
         raise ValueError("OPENAI_API_KEY 환경 변수가 설정되지 않았습니다.")
+    # gpt-4o-mini-tts용 instructions (한국어 TTS에 최적화)
+    instructions = """Voice: Natural and clear Korean voice, with appropriate intonation and rhythm.
+Punctuation: Well-structured with natural pauses for clarity.
+Delivery: Calm, professional, and easy to understand.
+Phrasing: Clear pronunciation with proper Korean phonetics.
+Tone: Friendly yet professional, suitable for various contexts."""
+    payload = {
+        "model": model,
+        "input": text,
+        "voice": voice,
+        "response_format": "wav",
+    }
+    # gpt-4o-mini-tts 모델은 instructions 지원
+    if model == "gpt-4o-mini-tts":
+        payload["instructions"] = instructions
     response = requests.post(
         "https://api.openai.com/v1/audio/speech",
         headers={
             "Authorization": f"Bearer {api_key}",
             "Content-Type": "application/json",
         },
+        json=payload,
         timeout=60,
     )
     response.raise_for_status()
         return f.name
+def predict_clova_tts(text: str, speaker: str = "nara") -> str:
+    """네이버 클라우드 CLOVA TTS API 호출"""
+    client_id = CLOVA_CLIENT_ID
+    client_secret = CLOVA_API_KEY
+    if not client_id or not client_secret:
+        raise ValueError("CLOVA_CLIENT_ID 또는 CLOVA_API_KEY 환경 변수가 설정되지 않았습니다.")
+    enc_text = urllib.parse.quote(text)
+    data = f"speaker={speaker}&volume=0&speed=0&pitch=0&format=mp3&text={enc_text}"
+    url = "https://naveropenapi.apigw.ntruss.com/tts-premium/v1/tts"
+    request = urllib.request.Request(url)
+    request.add_header("X-NCP-APIGW-API-KEY-ID", client_id)
+    request.add_header("X-NCP-APIGW-API-KEY", client_secret)
+    response = urllib.request.urlopen(request, data=data.encode('utf-8'), timeout=60)
+    if response.getcode() != 200:
+        raise ValueError(f"CLOVA TTS API 오류: {response.getcode()}")
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".mp3") as f:
+        f.write(response.read())
+        return f.name
 def predict_supertone_tts(text: str, model: str = "sona_speech_1") -> str:
     """Supertone TTS API 호출"""
     api_key = SUPERTONE_API_KEY
     elif provider == "openai":
         return predict_openai_tts(
             text,
+            config.get("model", "gpt-4o-mini-tts"),
+            config.get("voice", "coral"),
         )
     elif provider == "google":
     elif provider == "supertone":
         return predict_supertone_tts(text, config.get("model", "sona_speech_1"))
+    elif provider == "clova":
+        return predict_clova_tts(text, config.get("speaker", "nara"))
     else:
         raise ValueError(f"알 수 없는 provider: {provider}")