Spaces:

peiranli0930
/

VisArena

Sleeping

App Files Files Community

Peiran commited on Oct 23

Commit

579bdeb

1 Parent(s): 6a51e6d

Ensure no duplicate evaluations: idempotent submit, update pair_state to remove evaluated pair, and clear UI on completion; add graceful returns when no pairs

Browse files

Files changed (1) hide show

app.py +40 -16

app.py CHANGED Viewed

@@ -379,6 +379,7 @@ def on_submit(
 ):
     if not task_name:
         return (
             gr.update(value=0),
             gr.update(value=""),
             gr.update(value=None),
@@ -391,6 +392,7 @@ def on_submit(
     if not pairs:
         return (
             gr.update(value=0, minimum=0, maximum=0, visible=False),
             gr.update(value=""),
             gr.update(value=None),
@@ -427,21 +429,40 @@ def on_submit(
             "model2_semantic_functional_alignment_score": int(a_semantic_score),
             "model2_overall_photorealism_score": int(a_overall_score),
         }
     row = _build_eval_row(pair, score_map)
-    ok_local = _append_local_persist_csv(task_name, row)
-    ok_hub, hub_msg = _upload_eval_record_to_dataset(task_name, row)
-    next_index = min(index + 1, len(pairs) - 1)
-    info = f"Saved evaluation for Test ID {pair['test_id']}."
-    info += " Local persistence " + ("succeeded" if ok_local else "failed") + "."
     info += " Dataset upload " + ("succeeded" if ok_hub else "failed") + (f" ({hub_msg})" if hub_msg else "") + "."
-    if next_index != index:
-        pair = pairs[next_index]
         header = _format_pair_header(pair)
         a_path = pair["model2_path"] if pair.get("swap") else pair["model1_path"]
         b_path = pair["model1_path"] if pair.get("swap") else pair["model2_path"]
         return (
             gr.update(value=next_index),
             gr.update(value=header),
             _resolve_image_path(pair["org_img"]),
@@ -449,18 +470,20 @@ def on_submit(
             _resolve_image_path(b_path),
             3, 3, 3, 3,
             3, 3, 3, 3,
-            gr.update(value=info + f" Moved to next pair ({next_index + 1}/{len(pairs)})."),
         )
     return (
-        gr.update(),
-        gr.update(),
-        gr.update(),
-        gr.update(),
-        gr.update(),
         3, 3, 3, 3,
         3, 3, 3, 3,
-        gr.update(value=info + " This is the last pair."),
     )
@@ -512,8 +535,8 @@ with gr.Blocks(title="VisArena Human Evaluation") as demo:
             b_semantic_input = gr.Slider(1, 5, value=3, step=1, label="B: Semantic/Functional Alignment")
             b_overall_input = gr.Slider(1, 5, value=3, step=1, label="B: Overall Photorealism")
-    submit_button = gr.Button("Submit Evaluation", variant="primary")
-    feedback_box = gr.Markdown("")
     # Event bindings
     task_selector.change(
@@ -574,6 +597,7 @@ with gr.Blocks(title="VisArena Human Evaluation") as demo:
             b_overall_input,
         ],
         outputs=[
             index_slider,
             pair_header,
             orig_image,

 ):
     if not task_name:
         return (
+            pairs,
             gr.update(value=0),
             gr.update(value=""),
             gr.update(value=None),
     if not pairs:
         return (
+            pairs,
             gr.update(value=0, minimum=0, maximum=0, visible=False),
             gr.update(value=""),
             gr.update(value=None),
             "model2_semantic_functional_alignment_score": int(a_semantic_score),
             "model2_overall_photorealism_score": int(a_overall_score),
         }
+    # Build record
     row = _build_eval_row(pair, score_map)
+    # Idempotency: check if this pair already evaluated; if so, skip writing
+    done_keys = _read_existing_eval_keys(task_name)
+    eval_key = (pair["test_id"], frozenset({pair["model1_name"], pair["model2_name"]}), pair["org_img"])
+    if eval_key in done_keys:
+        ok_local = False
+        ok_hub, hub_msg = (False, "Skipped duplicate; already evaluated.")
+        info_prefix = "Skipped duplicate submission."
+    else:
+        ok_local = _append_local_persist_csv(task_name, row)
+        # add key locally for subsequent filtering in this call
+        if ok_local:
+            done_keys.add(eval_key)
+        ok_hub, hub_msg = _upload_eval_record_to_dataset(task_name, row)
+        info_prefix = "Saved evaluation."
+    # Recompute remaining pairs by filtering current state against done_keys
+    def key_of(p: Dict[str, str]):
+        return (p["test_id"], frozenset({p["model1_name"], p["model2_name"]}), p["org_img"])
+    remaining_pairs = [p for p in pairs if key_of(p) not in done_keys]
+    info = f"{info_prefix} Local persistence " + ("succeeded" if ok_local else "skipped/failed") + "."
     info += " Dataset upload " + ("succeeded" if ok_hub else "failed") + (f" ({hub_msg})" if hub_msg else "") + "."
+    if remaining_pairs:
+        next_index = min(index, len(remaining_pairs) - 1)
+        pair = remaining_pairs[next_index]
         header = _format_pair_header(pair)
         a_path = pair["model2_path"] if pair.get("swap") else pair["model1_path"]
         b_path = pair["model1_path"] if pair.get("swap") else pair["model2_path"]
         return (
+            remaining_pairs,
             gr.update(value=next_index),
             gr.update(value=header),
             _resolve_image_path(pair["org_img"]),
             _resolve_image_path(b_path),
             3, 3, 3, 3,
             3, 3, 3, 3,
+            gr.update(value=info + f" Next pair ({next_index + 1}/{len(remaining_pairs)})."),
         )
+    # No remaining pairs: clear UI, hide slider, and return updated empty state
     return (
+        [],
+        gr.update(value=0, minimum=0, maximum=0, visible=False),
+        gr.update(value=""),
+        gr.update(value=None),
+        gr.update(value=None),
+        gr.update(value=None),
         3, 3, 3, 3,
         3, 3, 3, 3,
+        gr.update(value=info + " All pairs completed."),
     )
             b_semantic_input = gr.Slider(1, 5, value=3, step=1, label="B: Semantic/Functional Alignment")
             b_overall_input = gr.Slider(1, 5, value=3, step=1, label="B: Overall Photorealism")
+submit_button = gr.Button("Submit Evaluation", variant="primary")
+feedback_box = gr.Markdown("")
     # Event bindings
     task_selector.change(
             b_overall_input,
         ],
         outputs=[
+            pair_state,
             index_slider,
             pair_header,
             orig_image,