Spaces:

channelcorp
/

Ko-TTS-Arena

Sleeping

App Files Files Community

Ko-TTS-Arena Contributors commited on 11 days ago

Commit

673d09e

1 Parent(s): b0bdfc9

feat: Enable Gemini TTS with service account JSON authentication

Browse files

Files changed (3) hide show

models.py +10 -10
requirements.txt +2 -1
tts.py +41 -36

models.py CHANGED Viewed

@@ -566,7 +566,7 @@ def insert_initial_models():
     has_clova = bool(os.getenv("CLOVA_CLIENT_ID") and os.getenv("CLOVA_API_KEY"))
     has_humelo = bool(os.getenv("HUMELO_API_KEY"))
     has_typecast = bool(os.getenv("TYPECAST_API_KEY"))
-    has_gemini_tts = bool(os.getenv("GEMINI_TTS_API_KEY"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
@@ -649,15 +649,15 @@ def insert_initial_models():
             is_active=has_typecast,
             model_url="https://typecast.ai/",
         ),
-        # Gemini TTS (Google Cloud - 다국어 지원) - OAuth2 인증 필요, 현재 비활성화
-        # Model(
-        #     id="gemini-tts-aoede",
-        #     name="Gemini TTS (Aoede)",
-        #     model_type=ModelType.TTS,
-        #     is_open=False,
-        #     is_active=has_gemini_tts,
-        #     model_url="https://cloud.google.com/text-to-speech/docs/gemini-tts",
-        # ),
     ]
     for model in tts_models:

     has_clova = bool(os.getenv("CLOVA_CLIENT_ID") and os.getenv("CLOVA_API_KEY"))
     has_humelo = bool(os.getenv("HUMELO_API_KEY"))
     has_typecast = bool(os.getenv("TYPECAST_API_KEY"))
+    has_gemini_tts = bool(os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON"))
     tts_models = [
         # 채널톡 TTS (한국어 특화) - 항상 활성화
             is_active=has_typecast,
             model_url="https://typecast.ai/",
         ),
+        # Gemini TTS (Google Cloud - 다국어 지원) - 서비스 계정 JSON 필요
+        Model(
+            id="gemini-tts-aoede",
+            name="Gemini TTS (Aoede)",
+            model_type=ModelType.TTS,
+            is_open=False,
+            is_active=has_gemini_tts,
+            model_url="https://cloud.google.com/text-to-speech/docs/gemini-tts",
+        ),
     ]
     for model in tts_models:

requirements.txt CHANGED Viewed

@@ -14,4 +14,5 @@ huggingface-hub
 scipy
 numpy
 pydub
-typecast-python

 scipy
 numpy
 pydub
+typecast-python
+google-cloud-texttospeech

tts.py CHANGED Viewed

@@ -55,8 +55,20 @@ HUMELO_API_URL = "https://agitvxptajouhvoatxio.supabase.co/functions/v1/dive-syn
 # Typecast TTS
 TYPECAST_API_KEY = os.getenv("TYPECAST_API_KEY")
-# Gemini TTS (Google Cloud)
-GEMINI_TTS_API_KEY = os.getenv("GEMINI_TTS_API_KEY")
 def resample_wav_to_16khz(input_path: str) -> str:
     """
@@ -448,50 +460,43 @@ def predict_typecast_tts(text: str, voice_id: str = "tc_612ed01c7eb720fddd3ddedf
 def predict_gemini_tts(text: str, voice: str = "Aoede", model: str = "gemini-2.5-flash-tts") -> str:
-    """Gemini TTS API 호출 (REST API 방식)"""
-    api_key = GEMINI_TTS_API_KEY
-    if not api_key:
-        raise ValueError("GEMINI_TTS_API_KEY 환경 변수가 설정되지 않았습니다.")
     try:
-        # REST API 엔드포인트
-        url = f"https://texttospeech.googleapis.com/v1beta1/text:synthesize?key={api_key}"
-        payload = {
-            "input": {
-                "text": text,
-                "prompt": "친절하고 자연스러운 톤으로 말해주세요"
-            },
-            "voice": {
-                "languageCode": "ko-kr",
-                "name": voice,
-                "modelName": model
-            },
-            "audioConfig": {
-                "audioEncoding": "LINEAR16",
-                "sampleRateHertz": 24000
-            }
-        }
-        response = requests.post(
-            url,
-            headers={"Content-Type": "application/json"},
-            json=payload,
-            timeout=60
         )
-        response.raise_for_status()
-        audio_content = response.json().get("audioContent")
-        if not audio_content:
-            raise ValueError("Gemini TTS API가 오디오를 반환하지 않았습니다.")
-        audio_bytes = base64.b64decode(audio_content)
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
-            f.write(audio_bytes)
             return f.name
-    except requests.exceptions.RequestException as e:
-        raise ValueError(f"Gemini TTS API 요청 오류: {str(e)}")
     except Exception as e:
         raise ValueError(f"Gemini TTS API 오류: {str(e)}")

 # Typecast TTS
 TYPECAST_API_KEY = os.getenv("TYPECAST_API_KEY")
+# Gemini TTS (Google Cloud) - 서비스 계정 JSON 인증
+GOOGLE_CREDENTIALS_JSON = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
+# 서비스 계정 JSON이 있으면 임시 파일로 저장
+if GOOGLE_CREDENTIALS_JSON:
+    import json as _json
+    _credentials_path = "/tmp/google_credentials.json"
+    try:
+        with open(_credentials_path, "w") as f:
+            f.write(GOOGLE_CREDENTIALS_JSON)
+        os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = _credentials_path
+        print(f"[Gemini TTS] Credentials loaded from environment variable")
+    except Exception as e:
+        print(f"[Gemini TTS] Error saving credentials: {e}")
 def resample_wav_to_16khz(input_path: str) -> str:
     """
 def predict_gemini_tts(text: str, voice: str = "Aoede", model: str = "gemini-2.5-flash-tts") -> str:
+    """Gemini TTS API 호출 (서비스 계정 인증)"""
+    if not GOOGLE_CREDENTIALS_JSON:
+        raise ValueError("GOOGLE_APPLICATION_CREDENTIALS_JSON 환경 변수가 설정되지 않았습니다.")
     try:
+        from google.api_core.client_options import ClientOptions
+        from google.cloud import texttospeech_v1beta1 as texttospeech
+        client = texttospeech.TextToSpeechClient(
+            client_options=ClientOptions(api_endpoint='texttospeech.googleapis.com')
+        )
+        voice_params = texttospeech.VoiceSelectionParams(
+            name=voice,
+            language_code='ko-kr',
+            model_name=model
         )
+        # Synthesize speech with natural prompt
+        response = client.synthesize_speech(
+            input=texttospeech.SynthesisInput(
+                text=text,
+                prompt='친절하고 자연스러운 톤으로 말해주세요'
+            ),
+            voice=voice_params,
+            audio_config=texttospeech.AudioConfig(
+                audio_encoding=texttospeech.AudioEncoding.LINEAR16,
+                sample_rate_hertz=24000
+            ),
+        )
         with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as f:
+            f.write(response.audio_content)
             return f.name
+    except ImportError:
+        raise ValueError("google-cloud-texttospeech 패키지가 설치되지 않았습니다.")
     except Exception as e:
         raise ValueError(f"Gemini TTS API 오류: {str(e)}")