embeddings-benchmark · isaac-chung · Dec 22, 2024 · Dec 20, 2024 · Dec 20, 2024 · Dec 21, 2024
diff --git a/mteb/evaluation/MTEB.py b/mteb/evaluation/MTEB.py
@@ -470,35 +470,46 @@ def run(
 
             existing_results = None
             save_path = None
+            final_splits_to_run = task_eval_splits
+            missing_evaluations = self._get_missing_evaluations(
+                existing_results,
+                task_eval_splits,
+                task_subsets,
+                eval_subsets,
+            )
 
             if output_path:
                 save_path = output_path / f"{task.metadata.name}{task.save_suffix}.json"
                 if save_path.exists():
                     existing_results = TaskResult.from_disk(save_path)
 
-                    if not overwrite_results:
+                    # Unified call to get missing splits and subsets
+                    missing_evaluations = self._get_missing_evaluations(
+                        existing_results,
+                        task_eval_splits,
+                        task_subsets,
+                        eval_subsets,
+                    )
+
+                    # Determine final splits to run
+                    final_splits_to_run = []
+                    # We need to run any split that is fully missing or has missing subsets
+                    for sp, info in missing_evaluations.items():
+                        if info["whole_split_missing"] or info["missing_subsets"]:
+                            final_splits_to_run.append(sp)
+
+                    if overwrite_results:
+                        final_splits_to_run = task_eval_splits
+
+                    if not overwrite_results and len(final_splits_to_run) == 0:
                         logger.info(
-                            f"{task.metadata.name} results already exists. Loading results from disk. Set overwrite_results=True to overwrite."
+                            f"{task.metadata.name} results already exists. Loading results from disk."
+                            f" Set overwrite_results=True to overwrite or `--overwrite`."
                         )
                         evaluation_results.append(existing_results)
                         del self.tasks[0]  # empty memory
                         continue
 
-            # Unified call to get missing splits and subsets
-            missing_evaluations = self._get_missing_evaluations(
-                existing_results,
-                task_eval_splits,
-                task_subsets,
-                eval_subsets,
-            )
-
-            # Determine final splits to run
-            final_splits_to_run = []
-            # We need to run any split that is fully missing or has missing subsets
-            for sp, info in missing_evaluations.items():
-                if info["whole_split_missing"] or info["missing_subsets"]:
-                    final_splits_to_run.append(sp)
-
             # If no splits need to be run and results exist, skip
             if not final_splits_to_run:
                 if existing_results is not None:
@@ -513,7 +524,7 @@ def run(
 
             try:
                 task.check_if_dataset_is_superseded()
-                task.load_data(eval_splits=task_eval_splits, **kwargs)
+                task.load_data(**kwargs)
 
                 task_results = {}
                 evaluation_time = 0
@@ -527,8 +538,15 @@ def run(
                     # Determine subsets to run for this split
                     # If the whole split is missing, run all required subsets
                     # If only some subsets are missing, run only those
-                    subsets_to_run = info["missing_subsets"]
-                    if info["whole_split_missing"] and task_subsets is None:
+                    subsets_to_run = (
+                        info["missing_subsets"]
+                        if not overwrite_results
+                        else (eval_subsets or task_subsets)
+                    )
+
+                    if (
+                        info["whole_split_missing"] or overwrite_results
+                    ) and task_subsets is None:
                         subsets_to_run = ["default"]
 
                     if co2_tracker:

diff --git a/tests/test_evaluation/test_split_evaluation.py b/tests/test_evaluation/test_split_evaluation.py
@@ -63,7 +63,6 @@ def test_one_missing_split(model, tasks, tmp_path):
         eval_splits=["val", "test"],
         output_folder=str(tmp_path / "testcase2"),
         verbosity=2,
-        overwrite_results=True,
     )
 
     assert "MockRetrievalTask" == results2[0].task_name
@@ -93,12 +92,10 @@ def test_no_missing_splits(model, tasks, tmp_path):
         eval_splits=["val", "test"],
         output_folder=str(tmp_path / "testcase3"),
         verbosity=2,
-        overwrite_results=True,
     )
 
     last_evaluated_splits = evaluation.get_last_evaluated_splits()
-    assert "MockRetrievalTask" in last_evaluated_splits
-    assert len(last_evaluated_splits["MockRetrievalTask"]) == 0
+    assert len(last_evaluated_splits) == 0
     assert results[0].scores.keys() == {"test", "val"}
 
 
@@ -144,7 +141,6 @@ def test_missing_language(model, multilingual_tasks, tmp_path):
         output_folder=str(tmp_path / "missing_lang_test"),
         verbosity=2,
         eval_subsets=["eng", "fra"],
-        overwrite_results=True,
     )
 
     last_evaluated_splits = evaluation.get_last_evaluated_splits()
@@ -178,11 +174,9 @@ def test_no_missing_languages(model, multilingual_tasks, tmp_path):
         output_folder=str(tmp_path / "no_missing_lang_test"),
         verbosity=2,
         eval_subsets=["eng", "fra"],
-        overwrite_results=True,
     )
     last_evaluated_splits = evaluation.get_last_evaluated_splits()
-    assert "MockMultilingualRetrievalTask" in last_evaluated_splits
-    assert len(last_evaluated_splits["MockMultilingualRetrievalTask"]) == 0
+    assert len(last_evaluated_splits) == 0
     assert results[0].scores.keys() == {"test"}
     assert len(results[0].scores["test"]) == 2
     assert sorted(results[0].languages) == ["eng", "fra"]
@@ -210,7 +204,6 @@ def test_partial_languages(model, multilingual_tasks, tmp_path):
         output_folder=str(tmp_path / "partial_lang_test"),
         verbosity=2,
         eval_subsets=["fra", "eng"],
-        overwrite_results=True,
     )
     last_evaluated_splits = evaluation.get_last_evaluated_splits()
     assert len(last_evaluated_splits["MockMultilingualRetrievalTask"]) == 1
@@ -245,7 +238,6 @@ def test_multilingual_one_missing_split_no_missing_lang(
         output_folder=str(tmp_path / "partial_langs_partial_splits"),
         verbosity=2,
         eval_subsets=["eng", "fra"],
-        overwrite_results=True,
     )
 
     last_evaluated_splits = evaluation.get_last_evaluated_splits()
@@ -280,7 +272,6 @@ def test_multilingual_one_missing_lang_in_one_split(
         output_folder=str(tmp_path / "one_lang_one_split"),
         verbosity=2,
         eval_subsets=["eng"],
-        overwrite_results=True,
     )
 
     last_evaluated_splits = evaluation.get_last_evaluated_splits()
@@ -296,7 +287,6 @@ def test_multilingual_one_missing_lang_in_one_split(
         output_folder=str(tmp_path / "one_lang_one_split"),
         verbosity=2,
         eval_subsets=["eng", "fra"],
-        overwrite_results=True,
     )
 
     last_evaluated_splits = evaluation.get_last_evaluated_splits()
@@ -305,3 +295,70 @@ def test_multilingual_one_missing_lang_in_one_split(
     # output merged result with previous results
     assert results[0].scores.keys() == {"test", "val"}
     assert len(results[0].scores["test"]) == 2
+
+
+def test_all_splits_evaluated_with_overwrite(model, tasks, tmp_path):
+    evaluation = MTEB(tasks=tasks)
+    results = evaluation.run(
+        model,
+        eval_splits=["val"],
+        output_folder=str(tmp_path / "all_splits_evaluated_with_overwrite"),
+        verbosity=2,
+    )
+
+    assert "MockRetrievalTask" == results[0].task_name
+    last_evaluated_splits = evaluation.get_last_evaluated_splits()
+    assert set(last_evaluated_splits["MockRetrievalTask"]) == {"val"}
+    assert len(last_evaluated_splits["MockRetrievalTask"]) == 1
+    assert results[0].scores.keys() == {"val"}
+
+    results2 = evaluation.run(
+        model,
+        eval_splits=["val"],
+        output_folder=str(tmp_path / "all_splits_evaluated_with_overwrite"),
+        verbosity=2,
+        overwrite_results=True,
+    )
+    assert "MockRetrievalTask" == results2[0].task_name
+    last_evaluated_splits = evaluation.get_last_evaluated_splits()
+    assert set(last_evaluated_splits["MockRetrievalTask"]) == {"val"}
+    assert len(last_evaluated_splits["MockRetrievalTask"]) == 1
+    assert results2[0].scores.keys() == {"val"}
+
+
+def test_all_splits_subsets_evaluated_with_overwrite(
+    model, multilingual_tasks, tmp_path
+):
+    evaluation = MTEB(tasks=multilingual_tasks)
+    results = evaluation.run(
+        model,
+        eval_splits=[
+            "test",
+        ],
+        output_folder=str(tmp_path / "all_splits_subsets_evaluated_with_overwrite"),
+        verbosity=2,
+        eval_subsets=["fra"],
+    )
+    last_evaluated_splits = evaluation.get_last_evaluated_splits()
+    assert "MockMultilingualRetrievalTask" in last_evaluated_splits
+    assert len(last_evaluated_splits["MockMultilingualRetrievalTask"]) == 1
+    assert results[0].scores.keys() == {"test"}
+    for split in ["test"]:
+        assert len(results[0].scores[split]) == 1
+        assert sorted(results[0].languages) == ["fra"]
+
+    results2 = evaluation.run(
+        model,
+        eval_splits=["test"],
+        output_folder=str(tmp_path / "all_splits_subsets_evaluated_with_overwrite"),
+        verbosity=2,
+        eval_subsets=["fra"],
+        overwrite_results=True,
+    )
+    last_evaluated_splits = evaluation.get_last_evaluated_splits()
+    assert "MockMultilingualRetrievalTask" in last_evaluated_splits
+    assert len(last_evaluated_splits["MockMultilingualRetrievalTask"]) == 1
+    assert results2[0].scores.keys() == {"test"}
+    for split in ["test"]:
+        assert len(results2[0].scores[split]) == 1
+        assert sorted(results2[0].languages) == ["fra"]