Spaces:

herimor
/

voxtream

Running on Zero

App Files Files Community

herimor commited on Sep 28

Commit

07fe0e2

1 Parent(s): 0d0d952

Add input validation and examples

Browse files

Files changed (4) hide show

.gitattributes +2 -0
app.py +48 -7
assets/app/female.wav +3 -0
assets/app/male.wav +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+assets/app/male.wav filter=lfs diff=lfs merge=lfs -text
+assets/app/female.wav filter=lfs diff=lfs merge=lfs -text

app.py CHANGED Viewed

@@ -96,7 +96,7 @@ def main():
                 prompt_text = gr.Textbox(
                     lines=3,
                     max_length=config.max_prompt_chars,
-                    label=f"Prompt transcript. Max characters: {config.max_prompt_chars} (Required)",
                     placeholder="Text that matches the prompt audio",
                 )
@@ -104,7 +104,7 @@ def main():
                 target_text = gr.Textbox(
                     lines=3,
                     max_length=config.max_phone_tokens,
-                    label=f"Target text. Max characters: {config.max_phone_tokens}",
                     placeholder="What you want the model to say",
                 )
                 output_audio = gr.Audio(
@@ -116,19 +116,60 @@ def main():
         with gr.Row():
             clear_btn = gr.Button("Clear", elem_id="clear", variant="secondary")
             submit_btn = gr.Button("Submit", elem_id="submit", variant="primary")
-        # wire up actions
         submit_btn.click(
             fn=synthesize_fn,
             inputs=[prompt_audio, prompt_text, target_text],
             outputs=output_audio,
         )
-        # reset everything
         clear_btn.click(
-            fn=lambda: (None, "", "", None),
             inputs=[],
-            outputs=[prompt_audio, prompt_text, target_text, output_audio],
         )
     demo.launch()

                 prompt_text = gr.Textbox(
                     lines=3,
                     max_length=config.max_prompt_chars,
+                    label=f"Prompt transcript (Required, max {config.max_prompt_chars} chars)",
                     placeholder="Text that matches the prompt audio",
                 )
                 target_text = gr.Textbox(
                     lines=3,
                     max_length=config.max_phone_tokens,
+                    label=f"Target text (Required, max {config.max_phone_tokens} chars)",
                     placeholder="What you want the model to say",
                 )
                 output_audio = gr.Audio(
         with gr.Row():
             clear_btn = gr.Button("Clear", elem_id="clear", variant="secondary")
             submit_btn = gr.Button("Submit", elem_id="submit", variant="primary")
+        # Message box for validation errors
+        validation_msg = gr.Markdown("", visible=False)
+        # --- Validation logic ---
+        def validate_inputs(audio, ptext, ttext):
+            if not audio:
+                return gr.update(visible=True, value="⚠️ Please provide a prompt audio."), gr.update(interactive=False)
+            if not ptext.strip():
+                return gr.update(visible=True, value="⚠️ Please provide a prompt transcript."), gr.update(interactive=False)
+            if not ttext.strip():
+                return gr.update(visible=True, value="⚠️ Please provide target text."), gr.update(interactive=False)
+            return gr.update(visible=False, value=""), gr.update(interactive=True)
+        # Live validation whenever inputs change
+        for inp in [prompt_audio, prompt_text, target_text]:
+            inp.change(
+                fn=validate_inputs,
+                inputs=[prompt_audio, prompt_text, target_text],
+                outputs=[validation_msg, submit_btn],
+            )
+        # --- Wire up actions ---
         submit_btn.click(
             fn=synthesize_fn,
             inputs=[prompt_audio, prompt_text, target_text],
             outputs=output_audio,
         )
         clear_btn.click(
+            fn=lambda: (None, "", "", None, gr.update(visible=False, value=""), gr.update(interactive=False)),
             inputs=[],
+            outputs=[prompt_audio, prompt_text, target_text, output_audio, validation_msg, submit_btn],
+        )
+        # --- Add Examples ---
+        gr.Markdown("### Examples")
+        gr.Examples(
+            examples=[
+                [
+                    "assets/app/male.wav",
+                    "You could take the easy route or a situation that makes sense which a lot of you do",
+                    "Hey, how are you doing? I just uhm want to make sure everything is okay."
+                ],
+                [
+                    "assets/app/female.wav",
+                    "I would certainly anticipate some pushback whereas most people know if you followed my work.",
+                    "Hello, hello. Let's have a quick chat, uh, in an hour. I need to share something with you."
+                ],
+            ],
+            inputs=[prompt_audio, prompt_text, target_text],
+            outputs=output_audio,
+            fn=synthesize_fn,
+            cache_examples=True,
         )
     demo.launch()

assets/app/female.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11b998e35bb346f7512c6ceef1ea343cc2f612fe6ee25e2028d05ff52651a8b0
+size 228716

assets/app/male.wav ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3e2776fb252ad6794107493531e5d1854c8ca1ae9df4feabfb19746bc1cc702
+size 225644