change all measures into str repr to avoid black problem

capreolus-ir · andrewyates · Aug 6, 2022 · Sep 2, 2021 · Sep 8, 2021 · Sep 8, 2021
commit 2691d76722e03e70a6989b16b65dc5714f9bfad8
diff --git a/capreolus/evaluator.py b/capreolus/evaluator.py
@@ -6,7 +6,6 @@
 
 from capreolus.searcher import Searcher
 from capreolus.utils.loginit import get_logger
-from capreolus.eval.msmarco_eval import compute_metrics_from_files
 
 from ir_measures import *
 from ir_measures.measures import Measure

diff --git a/capreolus/task/rank.py b/capreolus/task/rank.py
@@ -1,6 +1,7 @@
 from capreolus import ConfigOption, Dependency, evaluator
 from capreolus.task import Task
 from capreolus.utils.loginit import get_logger
+from capreolus.evaluator import log_metrics_verbose
 from capreolus.utils.trec import load_qrels, convert_metric, DEFAULT_METRICS
 
 logger = get_logger(__name__)  # pylint: disable=invalid-name

diff --git a/capreolus/task/rerank.py b/capreolus/task/rerank.py
@@ -10,7 +10,7 @@
 from capreolus.searcher import Searcher
 from capreolus.evaluator import log_metrics_verbose, format_metrics_string
 from capreolus.task import Task
-from capreolus.utils.trec import DEFAULT_METRICS
+from capreolus.utils.trec import convert_metric, DEFAULT_METRICS
 from capreolus.utils.loginit import get_logger
 
 logger = get_logger(__name__)

diff --git a/capreolus/trainer/pytorch.py b/capreolus/trainer/pytorch.py
@@ -274,9 +274,10 @@ def train(self, reranker, train_dataset, train_output_path, dev_data, dev_output
                 # log dev metrics
                 metrics = benchmark.evaluate(preds, qrels)
                 logger.info("dev metrics: %s", format_metrics_string(metrics))
-                summary_writer.add_scalar("ndcg_cut_20", metrics[NDCG@20], niter)
-                summary_writer.add_scalar("map", metrics[AP], niter)
-                summary_writer.add_scalar("P_20", metrics[P@20], niter)
+                for metric_str in ["AP", "P@20", "NDCG@20"]:
+                    metric = convert_metric(metric_str)
+                    summary_writer.add_scalar(metric_str, metrics[metric], niter)
+
                 # write best dev weights to file
                 if metrics[metric] > dev_best_metric:
                     dev_best_metric = metrics[metric]

diff --git a/capreolus/utils/trec.py b/capreolus/utils/trec.py
@@ -3,27 +3,28 @@
 import xml.etree.ElementTree as ET
 from collections import defaultdict
 from ir_measures import *
+from ir_measures.measures import Measure
 
 from capreolus.utils.loginit import get_logger
 
 logger = get_logger(__name__)
 
 DEFAULT_METRICS = [
-    P@1,
-    P@5,
-    P@10,
-    P@20,
-    Judged@10,
-    Judged@20,
-    Judged@200,
-    AP,
-    NDCG@5,
-    NDCG@10,
-    NDCG@20,
-    Recall@100,
-    Recall@1000,
-    RR,
-    RR@10,
+    "P@1",
+    "P@5",
+    "P@10",
+    "P@20",
+    "Judged@10",
+    "Judged@20",
+    "Judged@200",
+    "AP",
+    "NDCG@5",
+    "NDCG@10",
+    "NDCG@20",
+    "R@100",
+    "R@1000",
+    "RR",
+    "RR@10",
 ]