Spaces:

ACE-Step
/

Ace-Step-v1.5

Building on Zero

App Files Files Community

ChuxiJ commited on Jan 15

Commit

f4d9d31

1 Parent(s): de88c1d

add infer_method

Browse files

Files changed (9) hide show

acestep/api_server.py +3 -0
acestep/gradio_ui/events/generation_handlers.py +4 -3
acestep/gradio_ui/events/results_handlers.py +2 -1
acestep/gradio_ui/i18n/en.json +2 -0
acestep/gradio_ui/i18n/ja.json +2 -0
acestep/gradio_ui/i18n/zh.json +2 -0
acestep/gradio_ui/interfaces/generation.py +7 -0
acestep/handler.py +2 -0
acestep/inference.py +2 -0

acestep/api_server.py CHANGED Viewed

@@ -94,6 +94,7 @@ class GenerateMusicRequest(BaseModel):
     use_adg: bool = False
     cfg_interval_start: float = 0.0
     cfg_interval_end: float = 1.0
     audio_format: str = "mp3"
     use_tiled_decode: bool = True
@@ -584,6 +585,7 @@ def create_app() -> FastAPI:
                     use_adg=req.use_adg,
                     cfg_interval_start=req.cfg_interval_start,
                     cfg_interval_end=req.cfg_interval_end,
                     repainting_start=req.repainting_start,
                     repainting_end=req.repainting_end if req.repainting_end else -1,
                     audio_cover_strength=req.audio_cover_strength,
@@ -854,6 +856,7 @@ def create_app() -> FastAPI:
                 use_adg=_to_bool(get("use_adg"), False),
                 cfg_interval_start=_to_float(get("cfg_interval_start"), 0.0) or 0.0,
                 cfg_interval_end=_to_float(get("cfg_interval_end"), 1.0) or 1.0,
                 audio_format=str(get("audio_format", "mp3") or "mp3"),
                 use_tiled_decode=_to_bool(_get_any("use_tiled_decode", "useTiledDecode"), True),
                 lm_model_path=str(get("lm_model_path") or "").strip() or None,

     use_adg: bool = False
     cfg_interval_start: float = 0.0
     cfg_interval_end: float = 1.0
+    infer_method: str = "ode"  # "ode" or "sde" - diffusion inference method
     audio_format: str = "mp3"
     use_tiled_decode: bool = True
                     use_adg=req.use_adg,
                     cfg_interval_start=req.cfg_interval_start,
                     cfg_interval_end=req.cfg_interval_end,
+                    infer_method=req.infer_method,
                     repainting_start=req.repainting_start,
                     repainting_end=req.repainting_end if req.repainting_end else -1,
                     audio_cover_strength=req.audio_cover_strength,
                 use_adg=_to_bool(get("use_adg"), False),
                 cfg_interval_start=_to_float(get("cfg_interval_start"), 0.0) or 0.0,
                 cfg_interval_end=_to_float(get("cfg_interval_end"), 1.0) or 1.0,
+                infer_method=str(_get_any("infer_method", "inferMethod", default="ode") or "ode"),
                 audio_format=str(get("audio_format", "mp3") or "mp3"),
                 use_tiled_decode=_to_bool(_get_any("use_tiled_decode", "useTiledDecode"), True),
                 lm_model_path=str(get("lm_model_path") or "").strip() or None,

acestep/gradio_ui/events/generation_handlers.py CHANGED Viewed

@@ -86,6 +86,7 @@ def load_metadata(file_obj):
         track_name = metadata.get('track_name')
         complete_track_classes = metadata.get('complete_track_classes', [])
         shift = metadata.get('shift', 3.0)  # Default 3.0 for base models
         instrumental = metadata.get('instrumental', False)  # Added: read instrumental
         gr.Info(t("messages.params_loaded", filename=os.path.basename(filepath)))
@@ -93,7 +94,7 @@ def load_metadata(file_obj):
         return (
             task_type, captions, lyrics, vocal_language, bpm, key_scale, time_signature,
             audio_duration, batch_size, inference_steps, guidance_scale, seed, random_seed,
-            use_adg, cfg_interval_start, cfg_interval_end, shift, audio_format,
             lm_temperature, lm_cfg_scale, lm_top_k, lm_top_p, lm_negative_prompt,
             use_cot_metas, use_cot_caption, use_cot_language, audio_cover_strength,
             think, audio_codes, repainting_start, repainting_end,
@@ -103,10 +104,10 @@ def load_metadata(file_obj):
     except json.JSONDecodeError as e:
         gr.Warning(t("messages.invalid_json", error=str(e)))
-        return [None] * 34 + [False]
     except Exception as e:
         gr.Warning(t("messages.load_error", error=str(e)))
-        return [None] * 34 + [False]
 def load_random_example(task_type: str):

         track_name = metadata.get('track_name')
         complete_track_classes = metadata.get('complete_track_classes', [])
         shift = metadata.get('shift', 3.0)  # Default 3.0 for base models
+        infer_method = metadata.get('infer_method', 'ode')  # Default 'ode' for diffusion inference
         instrumental = metadata.get('instrumental', False)  # Added: read instrumental
         gr.Info(t("messages.params_loaded", filename=os.path.basename(filepath)))
         return (
             task_type, captions, lyrics, vocal_language, bpm, key_scale, time_signature,
             audio_duration, batch_size, inference_steps, guidance_scale, seed, random_seed,
+            use_adg, cfg_interval_start, cfg_interval_end, shift, infer_method, audio_format,
             lm_temperature, lm_cfg_scale, lm_top_k, lm_top_p, lm_negative_prompt,
             use_cot_metas, use_cot_caption, use_cot_language, audio_cover_strength,
             think, audio_codes, repainting_start, repainting_end,
     except json.JSONDecodeError as e:
         gr.Warning(t("messages.invalid_json", error=str(e)))
+        return [None] * 35 + [False]
     except Exception as e:
         gr.Warning(t("messages.load_error", error=str(e)))
+        return [None] * 35 + [False]
 def load_random_example(task_type: str):

acestep/gradio_ui/events/results_handlers.py CHANGED Viewed

@@ -452,7 +452,7 @@ def generate_with_progress(
     reference_audio, audio_duration, batch_size_input, src_audio,
     text2music_audio_code_string, repainting_start, repainting_end,
     instruction_display_gen, audio_cover_strength, task_type,
-    use_adg, cfg_interval_start, cfg_interval_end, shift, audio_format, lm_temperature,
     think_checkbox, lm_cfg_scale, lm_top_k, lm_top_p, lm_negative_prompt,
     use_cot_metas, use_cot_caption, use_cot_language, is_format_caption,
     constrained_decoding_debug,
@@ -495,6 +495,7 @@ def generate_with_progress(
         cfg_interval_start=cfg_interval_start,
         cfg_interval_end=cfg_interval_end,
         shift=shift,
         repainting_start=repainting_start,
         repainting_end=repainting_end,
         audio_cover_strength=audio_cover_strength,

     reference_audio, audio_duration, batch_size_input, src_audio,
     text2music_audio_code_string, repainting_start, repainting_end,
     instruction_display_gen, audio_cover_strength, task_type,
+    use_adg, cfg_interval_start, cfg_interval_end, shift, infer_method, audio_format, lm_temperature,
     think_checkbox, lm_cfg_scale, lm_top_k, lm_top_p, lm_negative_prompt,
     use_cot_metas, use_cot_caption, use_cot_language, is_format_caption,
     constrained_decoding_debug,
         cfg_interval_start=cfg_interval_start,
         cfg_interval_end=cfg_interval_end,
         shift=shift,
+        infer_method=infer_method,
         repainting_start=repainting_start,
         repainting_end=repainting_end,
         audio_cover_strength=audio_cover_strength,

acestep/gradio_ui/i18n/en.json CHANGED Viewed

@@ -128,6 +128,8 @@
     "use_adg_info": "Enable Angle Domain Guidance",
     "shift_label": "Shift",
     "shift_info": "Timestep shift factor for base models (range 1.0~5.0, default 3.0). Not effective for turbo models.",
     "cfg_interval_start": "CFG Interval Start",
     "cfg_interval_end": "CFG Interval End",
     "lm_params_title": "🤖 LM Generation Parameters",

     "use_adg_info": "Enable Angle Domain Guidance",
     "shift_label": "Shift",
     "shift_info": "Timestep shift factor for base models (range 1.0~5.0, default 3.0). Not effective for turbo models.",
+    "infer_method_label": "Inference Method",
+    "infer_method_info": "Diffusion inference method. ODE (Euler) is faster, SDE (stochastic) may produce different results.",
     "cfg_interval_start": "CFG Interval Start",
     "cfg_interval_end": "CFG Interval End",
     "lm_params_title": "🤖 LM Generation Parameters",

acestep/gradio_ui/i18n/ja.json CHANGED Viewed

@@ -128,6 +128,8 @@
     "use_adg_info": "角度ドメインガイダンスを有効化",
     "shift_label": "シフト",
     "shift_info": "baseモデル用タイムステップシフト係数 (範囲 1.0~5.0、デフォルト 3.0)。turboモデルには無効。",
     "cfg_interval_start": "CFG 間隔開始",
     "cfg_interval_end": "CFG 間隔終了",
     "lm_params_title": "🤖 LM 生成パラメータ",

     "use_adg_info": "角度ドメインガイダンスを有効化",
     "shift_label": "シフト",
     "shift_info": "baseモデル用タイムステップシフト係数 (範囲 1.0~5.0、デフォルト 3.0)。turboモデルには無効。",
+    "infer_method_label": "推論方法",
+    "infer_method_info": "拡散推論方法。ODE (オイラー) は高速、SDE (確率的) は異なる結果を生成する可能性があります。",
     "cfg_interval_start": "CFG 間隔開始",
     "cfg_interval_end": "CFG 間隔終了",
     "lm_params_title": "🤖 LM 生成パラメータ",

acestep/gradio_ui/i18n/zh.json CHANGED Viewed

@@ -128,6 +128,8 @@
     "use_adg_info": "启用角域引导",
     "shift_label": "Shift",
     "shift_info": "时间步偏移因子，仅对 base 模型生效 (范围 1.0~5.0，默认 3.0)。对 turbo 模型无效。",
     "cfg_interval_start": "CFG 间隔开始",
     "cfg_interval_end": "CFG 间隔结束",
     "lm_params_title": "🤖 LM 生成参数",

     "use_adg_info": "启用角域引导",
     "shift_label": "Shift",
     "shift_info": "时间步偏移因子，仅对 base 模型生效 (范围 1.0~5.0，默认 3.0)。对 turbo 模型无效。",
+    "infer_method_label": "推理方法",
+    "infer_method_info": "扩散推理方法。ODE (欧拉) 更快，SDE (随机) 可能产生不同结果。",
     "cfg_interval_start": "CFG 间隔开始",
     "cfg_interval_end": "CFG 间隔结束",
     "lm_params_title": "🤖 LM 生成参数",

acestep/gradio_ui/interfaces/generation.py CHANGED Viewed

@@ -455,6 +455,12 @@ def create_generation_section(dit_handler, llm_handler, init_params=None, langua
                     info=t("generation.shift_info"),
                     visible=False
                 )
             with gr.Row():
                 cfg_interval_start = gr.Slider(
@@ -691,6 +697,7 @@ def create_generation_section(dit_handler, llm_handler, init_params=None, langua
         "cfg_interval_start": cfg_interval_start,
         "cfg_interval_end": cfg_interval_end,
         "shift": shift,
         "audio_format": audio_format,
         "output_alignment_preference": output_alignment_preference,
         "think_checkbox": think_checkbox,

                     info=t("generation.shift_info"),
                     visible=False
                 )
+                infer_method = gr.Dropdown(
+                    choices=["ode", "sde"],
+                    value="ode",
+                    label=t("generation.infer_method_label"),
+                    info=t("generation.infer_method_info"),
+                )
             with gr.Row():
                 cfg_interval_start = gr.Slider(
         "cfg_interval_start": cfg_interval_start,
         "cfg_interval_end": cfg_interval_end,
         "shift": shift,
+        "infer_method": infer_method,
         "audio_format": audio_format,
         "output_alignment_preference": output_alignment_preference,
         "think_checkbox": think_checkbox,

acestep/handler.py CHANGED Viewed

@@ -2079,6 +2079,7 @@ class AceStepHandler:
         cfg_interval_start: float = 0.0,
         cfg_interval_end: float = 1.0,
         shift: float = 1.0,
         use_tiled_decode: bool = True,
         progress=None
     ) -> Dict[str, Any]:
@@ -2227,6 +2228,7 @@ class AceStepHandler:
                 cfg_interval_start=cfg_interval_start,  # Pass CFG interval start
                 cfg_interval_end=cfg_interval_end,  # Pass CFG interval end
                 shift=shift,  # Pass shift parameter
                 audio_code_hints=audio_code_hints_batch,  # Pass audio code hints as list
                 return_intermediate=should_return_intermediate
             )

         cfg_interval_start: float = 0.0,
         cfg_interval_end: float = 1.0,
         shift: float = 1.0,
+        infer_method: str = "ode",
         use_tiled_decode: bool = True,
         progress=None
     ) -> Dict[str, Any]:
                 cfg_interval_start=cfg_interval_start,  # Pass CFG interval start
                 cfg_interval_end=cfg_interval_end,  # Pass CFG interval end
                 shift=shift,  # Pass shift parameter
+                infer_method=infer_method,  # Pass infer method (ode or sde)
                 audio_code_hints=audio_code_hints_batch,  # Pass audio code hints as list
                 return_intermediate=should_return_intermediate
             )

acestep/inference.py CHANGED Viewed

@@ -96,6 +96,7 @@ class GenerationParams:
     cfg_interval_start: float = 0.0
     cfg_interval_end: float = 1.0
     shift: float = 1.0
     repainting_start: float = 0.0
     repainting_end: float = -1
@@ -532,6 +533,7 @@ def generate_music(
             cfg_interval_start=params.cfg_interval_start,
             cfg_interval_end=params.cfg_interval_end,
             shift=params.shift,
             progress=progress,
         )

     cfg_interval_start: float = 0.0
     cfg_interval_end: float = 1.0
     shift: float = 1.0
+    infer_method: str = "ode"  # "ode" or "sde" - diffusion inference method
     repainting_start: float = 0.0
     repainting_end: float = -1
             cfg_interval_start=params.cfg_interval_start,
             cfg_interval_end=params.cfg_interval_end,
             shift=params.shift,
+            infer_method=params.infer_method,
             progress=progress,
         )