From ab9cc942326befc02b9f9bf96d28fe3ac7512039 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Mon, 17 Apr 2017 20:02:15 -0400
Subject: [PATCH 01/39] Batches in verbose selector

---
 .../tandon/search/selective/verbose/VerboseSelector.scala  | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index e544351..fa986cc 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -281,7 +281,7 @@ object VerboseSelector extends LazyLogging {
                       complexRecalls: Seq[Int] = Seq(10, 30),
                       maxShards: Int = Int.MaxValue,
                       shardPenalty: Double = 0.0,
-                      batchSize: Int = 50)
+                      batchSize: Int = 200)
 
     val parser = new OptionParser[Config](CommandName) {
 
@@ -332,16 +332,15 @@ object VerboseSelector extends LazyLogging {
           .map(a => (a.head, a.last + 1))
 
         val writer = new BufferedWriter(new FileWriter(s"${config.basename}.verbose"))
+        printHeader(config.precisions, config.overlaps, config.complexRecalls)(writer)
 
         for ((from, to) <- queries) {
 
           logger.info("creating selectors")
           val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to)
 
-          printHeader(config.precisions, config.overlaps, config.complexRecalls)(writer)
-
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {
-            logger.info(s"processing query $idx")
+            logger.info(s"processing query ${idx + from}")
             processSelector(config.precisions, config.overlaps, config.complexRecalls, config.maxShards)(idx, selector, writer)
           }
         }

From 3c97437fbf57dfdbe6e3fc0ff1e03090873d315d Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 18 Apr 2017 10:22:57 -0400
Subject: [PATCH 02/39] Batches in verbose selector & mapping complex

---
 scripts/complex.py                                            | 1 +
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala | 4 ++--
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/scripts/complex.py b/scripts/complex.py
index 37e3aae..953e9b3 100644
--- a/scripts/complex.py
+++ b/scripts/complex.py
@@ -29,6 +29,7 @@ def m(id):
 
 data = pd.read_csv(args.input, sep=' ')
 data.columns = ['query', 'gdocid', 'score', 'cscore']
+data['gdocid'] = data['gdocid'].map(lambda docid: map[docid])
 data['ldocid'] = data['gdocid']
 data = data.sort_values(by=['query', 'cscore'], ascending=[True, False])
 data['rank'] = data.groupby('query').cumcount()
diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index fa986cc..dc766e7 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -240,7 +240,7 @@ object VerboseSelector extends LazyLogging {
     @tailrec
     def process(selector: VerboseSelector, step: Int = 1): Unit = {
 
-      logger.info(s"Selected [shard=${selector.lastSelectedShard}, bucket=${selector.lastSelectedBucket}, cost=${selector.lastSelectedCost}]")
+      //logger.info(s"Selected [shard=${selector.lastSelectedShard}, bucket=${selector.lastSelectedBucket}, cost=${selector.lastSelectedCost}]")
 
       writer.write(Seq(
         qid,
@@ -336,7 +336,7 @@ object VerboseSelector extends LazyLogging {
 
         for ((from, to) <- queries) {
 
-          logger.info("creating selectors")
+          logger.info(s"processing batch [$from, $to]")
           val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to)
 
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {

From a2c8cd0324d08dc5911c799c3bcaae0d76aa3e4f Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 18 Apr 2017 15:58:37 -0400
Subject: [PATCH 03/39] Complex query IDs fix

---
 scripts/complex.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/scripts/complex.py b/scripts/complex.py
index 953e9b3..173aaad 100644
--- a/scripts/complex.py
+++ b/scripts/complex.py
@@ -33,5 +33,6 @@ def m(id):
 data['ldocid'] = data['gdocid']
 data = data.sort_values(by=['query', 'cscore'], ascending=[True, False])
 data['rank'] = data.groupby('query').cumcount()
+data['query'] = data.index
 
 write('{}.complexresults'.format(args.output), data, compression='SNAPPY', write_index=False)

From 6691c3f86ef22437551461f9d740a795f4d36241 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 18 Apr 2017 16:12:42 -0400
Subject: [PATCH 04/39] Complex query IDs fix

---
 scripts/complex.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scripts/complex.py b/scripts/complex.py
index 173aaad..d9ad87a 100644
--- a/scripts/complex.py
+++ b/scripts/complex.py
@@ -33,6 +33,6 @@ def m(id):
 data['ldocid'] = data['gdocid']
 data = data.sort_values(by=['query', 'cscore'], ascending=[True, False])
 data['rank'] = data.groupby('query').cumcount()
-data['query'] = data.index
+data['query'] = data['query'].rank(method='dense')
 
 write('{}.complexresults'.format(args.output), data, compression='SNAPPY', write_index=False)

From e182e9a7bc758ae6d34911dea95f62e2924aff94 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 18 Apr 2017 16:24:07 -0400
Subject: [PATCH 05/39] Complex query IDs fix

---
 scripts/complex.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scripts/complex.py b/scripts/complex.py
index d9ad87a..95f6bf3 100644
--- a/scripts/complex.py
+++ b/scripts/complex.py
@@ -33,6 +33,6 @@ def m(id):
 data['ldocid'] = data['gdocid']
 data = data.sort_values(by=['query', 'cscore'], ascending=[True, False])
 data['rank'] = data.groupby('query').cumcount()
-data['query'] = data['query'].rank(method='dense')
+data['query'] = data['query'].rank(method='dense').subtract(1)
 
 write('{}.complexresults'.format(args.output), data, compression='SNAPPY', write_index=False)

From 44aab34286f6ebab17caaa8a375c4f4c9a939c0d Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 18 Apr 2017 16:27:47 -0400
Subject: [PATCH 06/39] Complex query IDs fix

---
 scripts/complex.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scripts/complex.py b/scripts/complex.py
index 95f6bf3..4a55ab0 100644
--- a/scripts/complex.py
+++ b/scripts/complex.py
@@ -33,6 +33,6 @@ def m(id):
 data['ldocid'] = data['gdocid']
 data = data.sort_values(by=['query', 'cscore'], ascending=[True, False])
 data['rank'] = data.groupby('query').cumcount()
-data['query'] = data['query'].rank(method='dense').subtract(1)
+data['query'] = data['query'].rank(method='dense').subtract(1).astype(int)
 
 write('{}.complexresults'.format(args.output), data, compression='SNAPPY', write_index=False)

From 5d8b81a4ef6cae1ddcd8ee61d8b11f2e3b9add63 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 19 Apr 2017 10:27:13 -0400
Subject: [PATCH 07/39] copy impacts script

---
 scripts/copy-impacts.sh | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)
 create mode 100644 scripts/copy-impacts.sh

diff --git a/scripts/copy-impacts.sh b/scripts/copy-impacts.sh
new file mode 100644
index 0000000..786cd7f
--- /dev/null
+++ b/scripts/copy-impacts.sh
@@ -0,0 +1,19 @@
+#!/bin/bash
+
+input=$1
+output=$2
+shardCount=$3
+column=$4
+
+if [ -z "${input}" ]; then echo "You have to define input file (1)."; exit 1; fi;
+if [ -z "${output}" ]; then echo "You have to define output file prefix (2)."; exit 1; fi;
+if [ -z "${shardCount}" ]; then echo "You have to define shard count (3)."; exit 1; fi;
+if [ -z "${column}" ]; then echo "You have to define column name (4)."; exit 1; fi;
+
+for ((shard = 0; shard < ${shardCount}; shard++))
+do
+    pdsql \
+        ${input} \
+        -q "select query, shard, 0 as bucket, ${column} as impact from df0 where shard=${shard}" \
+        -o "${output}#${shard}.impacts"
+done

From 80cde7776a9ff14297d742b9f49731113a823922 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 19 Apr 2017 10:28:10 -0400
Subject: [PATCH 08/39] copy impacts script

---
 scripts/copy-impacts.sh | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 mode change 100644 => 100755 scripts/copy-impacts.sh

diff --git a/scripts/copy-impacts.sh b/scripts/copy-impacts.sh
old mode 100644
new mode 100755

From 16a0de131ef040c3122700439bd9b55735a705b0 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 19 Apr 2017 11:27:56 -0400
Subject: [PATCH 09/39] copy impacts script

---
 scripts/copy-impacts.sh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/scripts/copy-impacts.sh b/scripts/copy-impacts.sh
index 786cd7f..c3e4eb9 100755
--- a/scripts/copy-impacts.sh
+++ b/scripts/copy-impacts.sh
@@ -15,5 +15,6 @@ do
     pdsql \
         ${input} \
         -q "select query, shard, 0 as bucket, ${column} as impact from df0 where shard=${shard}" \
-        -o "${output}#${shard}.impacts"
+        -o "${output}#${shard}.impacts" \
+        -d query=int32 shard=int32 bucket=int32
 done

From ea426354ab2fe502766ed34767f05c76ac2e327a Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 19 Apr 2017 12:01:02 -0400
Subject: [PATCH 10/39] Logging in LabelResults

---
 .../edu/nyu/tandon/search/selective/LabelResults.scala | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala b/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
index d21afba..34bc849 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
@@ -43,11 +43,17 @@ object LabelResults extends LazyLogging {
 
         val relevanceFilename = s"${features.basename}.relevance"
         val relevantResults = if (new File(relevanceFilename).exists()) spark.read.parquet(relevanceFilename)
-          else Seq.empty[(Int, Long)].toDF("query", "gdocid")
+          else {
+            logger.warn("no relevant documents found")
+            Seq.empty[(Int, Long)].toDF("query", "gdocid")
+          }
 
         val complexFilename = s"${features.basename}.complexresutls"
         val complexResults = if (new File(complexFilename).exists()) spark.read.parquet(complexFilename)
-          else Seq.empty[(Int, Long, Int)].toDF("query", "gdocid", "rank")
+          else {
+            logger.warn("no complex results found")
+            Seq.empty[(Int, Long, Int)].toDF("query", "gdocid", "rank")
+          }
 
         for (shard <- 0 until properties.shardCount) {
 

From 17014daf1b3d941b7b70cd16738dea820f087b45 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 19 Apr 2017 12:03:10 -0400
Subject: [PATCH 11/39] Logging in LabelResults

---
 .../scala/edu/nyu/tandon/search/selective/LabelResults.scala  | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala b/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
index 34bc849..b4a1997 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
@@ -44,14 +44,14 @@ object LabelResults extends LazyLogging {
         val relevanceFilename = s"${features.basename}.relevance"
         val relevantResults = if (new File(relevanceFilename).exists()) spark.read.parquet(relevanceFilename)
           else {
-            logger.warn("no relevant documents found")
+            logger.warn(s"no relevant documents found: $relevanceFilename")
             Seq.empty[(Int, Long)].toDF("query", "gdocid")
           }
 
         val complexFilename = s"${features.basename}.complexresutls"
         val complexResults = if (new File(complexFilename).exists()) spark.read.parquet(complexFilename)
           else {
-            logger.warn("no complex results found")
+            logger.warn(s"no complex results found: $complexFilename")
             Seq.empty[(Int, Long, Int)].toDF("query", "gdocid", "rank")
           }
 

From 68e774b350a6e31f73e4ce558a3194d1ff9c582c Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 19 Apr 2017 12:05:24 -0400
Subject: [PATCH 12/39] Typo fix

---
 .../scala/edu/nyu/tandon/search/selective/LabelResults.scala    | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala b/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
index b4a1997..69ab337 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/LabelResults.scala
@@ -48,7 +48,7 @@ object LabelResults extends LazyLogging {
             Seq.empty[(Int, Long)].toDF("query", "gdocid")
           }
 
-        val complexFilename = s"${features.basename}.complexresutls"
+        val complexFilename = s"${features.basename}.complexresults"
         val complexResults = if (new File(complexFilename).exists()) spark.read.parquet(complexFilename)
           else {
             logger.warn(s"no complex results found: $complexFilename")

From 1afc1d5865638e0e264190d28e70ccb2119f7236 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 19 Apr 2017 16:05:18 -0400
Subject: [PATCH 13/39] Typo fix

---
 scripts/complex.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/scripts/complex.py b/scripts/complex.py
index 4a55ab0..15d7176 100644
--- a/scripts/complex.py
+++ b/scripts/complex.py
@@ -32,7 +32,7 @@ def m(id):
 data['gdocid'] = data['gdocid'].map(lambda docid: map[docid])
 data['ldocid'] = data['gdocid']
 data = data.sort_values(by=['query', 'cscore'], ascending=[True, False])
-data['rank'] = data.groupby('query').cumcount()
-data['query'] = data['query'].rank(method='dense').subtract(1).astype(int)
+data['rank'] = data.groupby('query').cumcount().astype(np.int32)
+data['query'] = data['query'].rank(method='dense').subtract(1).astype(np.int32)
 
 write('{}.complexresults'.format(args.output), data, compression='SNAPPY', write_index=False)

From d1e2328703c334b2c41d9db1221355b766396631 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 26 Apr 2017 12:07:39 -0400
Subject: [PATCH 14/39] Option to use posting costs instead of uniform costs

---
 .../selective/verbose/VerboseSelector.scala   | 27 +++++++++----------
 1 file changed, 13 insertions(+), 14 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index dc766e7..e55d1f7 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -1,13 +1,11 @@
 package edu.nyu.tandon.search.selective.verbose
 
-import java.io.{BufferedWriter, File, FileWriter}
+import java.io.{BufferedWriter, FileWriter}
 
 import com.typesafe.scalalogging.LazyLogging
 import edu.nyu.tandon.search.selective.data.Properties
 import edu.nyu.tandon.search.selective.data.features.Features
 import edu.nyu.tandon.search.selective.verbose.VerboseSelector.scoreOrdering
-import org.apache.spark.sql.functions.when
-import org.apache.spark.sql.types.StructType
 import org.apache.spark.sql.{Row, SparkSession}
 import scopt.OptionParser
 
@@ -100,7 +98,7 @@ object VerboseSelector extends LazyLogging {
 
   val scoreOrdering: Ordering[Result] = Ordering.by((result: Result) => result.score)
 
-  def selectors(basename: String, shardPenalty: Double, from: Int, to: Int): Iterator[VerboseSelector] = {
+  def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean): Iterator[VerboseSelector] = {
     val properties = Properties.get(basename)
     val features = Features.get(properties)
     val spark = SparkSession.builder().master("local").getOrCreate()
@@ -134,12 +132,6 @@ object VerboseSelector extends LazyLogging {
         }))
     }
 
-    //val costs =
-    //  if (new File(s"basename#0.cost").exists())
-    //    Some(for (shard <- 0 until properties.shardCount) yield
-    //      spark.read.parquet(s"$basename#$shard.cost"))
-    //  else None
-
     val postingCosts = for (shard <- 0 until properties.shardCount) yield
       spark.read.parquet(s"${features.basename}#$shard.postingcost-${properties.bucketCount}")
         .select($"query", $"bucket", $"postingcost")
@@ -202,8 +194,10 @@ object VerboseSelector extends LazyLogging {
                   }
                   case None => 0.0
                 },
-                cost = 1.0 / properties.bucketCount,
-                qPostingCosts(bucket))
+                cost =
+                  if (usePostingCosts) qPostingCosts(bucket)
+                  else 1.0 / properties.bucketCount,
+                postings = qPostingCosts(bucket))
             }
             Shard(shard, buckets.toList)
           }
@@ -281,7 +275,8 @@ object VerboseSelector extends LazyLogging {
                       complexRecalls: Seq[Int] = Seq(10, 30),
                       maxShards: Int = Int.MaxValue,
                       shardPenalty: Double = 0.0,
-                      batchSize: Int = 200)
+                      batchSize: Int = 200,
+                      usePostingCosts: Boolean = false)
 
     val parser = new OptionParser[Config](CommandName) {
 
@@ -314,6 +309,10 @@ object VerboseSelector extends LazyLogging {
         .action((x, c) => c.copy(batchSize = x))
         .text("how many queries to run at once in memory")
 
+      opt[Boolean]('u', "use-posting-costs")
+        .action((x, c) => c.copy(usePostingCosts = x))
+        .text("use posting costs instead of fixed uniform costs")
+
     }
 
     parser.parse(args, Config()) match {
@@ -337,7 +336,7 @@ object VerboseSelector extends LazyLogging {
         for ((from, to) <- queries) {
 
           logger.info(s"processing batch [$from, $to]")
-          val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to)
+          val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to, config.usePostingCosts)
 
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {
             logger.info(s"processing query ${idx + from}")

From 46bb5dafc955f5056f3f3d28dd7ded37b66f04b1 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sat, 29 Apr 2017 15:23:21 -0400
Subject: [PATCH 15/39] Add param to set CR coefficient

---
 .../search/selective/verbose/VerboseSelector.scala  | 13 +++++++++----
 1 file changed, 9 insertions(+), 4 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index e55d1f7..d867d51 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -98,7 +98,7 @@ object VerboseSelector extends LazyLogging {
 
   val scoreOrdering: Ordering[Result] = Ordering.by((result: Result) => result.score)
 
-  def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean): Iterator[VerboseSelector] = {
+  def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean, maxTop: Int): Iterator[VerboseSelector] = {
     val properties = Properties.get(basename)
     val features = Features.get(properties)
     val spark = SparkSession.builder().master("local").getOrCreate()
@@ -202,7 +202,7 @@ object VerboseSelector extends LazyLogging {
             Shard(shard, buckets.toList)
           }
 
-          new VerboseSelector(shards)
+          new VerboseSelector(shards, maxTop = maxTop)
       }
   }
 
@@ -276,7 +276,8 @@ object VerboseSelector extends LazyLogging {
                       maxShards: Int = Int.MaxValue,
                       shardPenalty: Double = 0.0,
                       batchSize: Int = 200,
-                      usePostingCosts: Boolean = false)
+                      usePostingCosts: Boolean = false,
+                      maxTop: Int = 500)
 
     val parser = new OptionParser[Config](CommandName) {
 
@@ -309,6 +310,10 @@ object VerboseSelector extends LazyLogging {
         .action((x, c) => c.copy(batchSize = x))
         .text("how many queries to run at once in memory")
 
+      opt[Int]('R', "complex-recall-coef")
+        .action((x, c) => c.copy(maxTop = x))
+        .text("how many results to take into account when calculating CR (default 500)")
+
       opt[Boolean]('u', "use-posting-costs")
         .action((x, c) => c.copy(usePostingCosts = x))
         .text("use posting costs instead of fixed uniform costs")
@@ -336,7 +341,7 @@ object VerboseSelector extends LazyLogging {
         for ((from, to) <- queries) {
 
           logger.info(s"processing batch [$from, $to]")
-          val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to, config.usePostingCosts)
+          val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to, config.usePostingCosts, config.maxTop)
 
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {
             logger.info(s"processing query ${idx + from}")

From f42fbd85f35c3c8d8bf04c5dd0c14242242d22a5 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sat, 29 Apr 2017 15:28:29 -0400
Subject: [PATCH 16/39] Complex Precision

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala    | 1 +
 1 file changed, 1 insertion(+)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index d867d51..3eba0b5 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -72,6 +72,7 @@ class VerboseSelector(val shards: Seq[Shard],
   def precisionAt(k: Int): Double = round(top.clone().dequeueAll.take(k).count(_.relevant).toDouble / k)
   def overlapAt(k: Int): Double = round(top.clone().dequeueAll.take(k).count(_.originalRank <= k).toDouble / k)
   def complexRecall(k: Int): Double = round(top.clone().dequeueAll.count(_.complexRank <= k).toDouble / k)
+  def complexPrecisionAt(k: Int): Double = round(top.clone().dequeueAll.sortBy(_.complexRank).count(_.relevant).toDouble / k)
 
   def numRelevantInLastSelected(): Int = {
     assert(lastSelectedShard >= 0 && lastSelectedShard < shards.length, "no last selection to report")

From 1e72e86475a7658269a746a75528bc6610507657 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sat, 29 Apr 2017 15:33:02 -0400
Subject: [PATCH 17/39] Complex Precision

---
 .../selective/verbose/VerboseSelector.scala     | 17 ++++++++++++-----
 1 file changed, 12 insertions(+), 5 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 3eba0b5..ceee25d 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -207,7 +207,7 @@ object VerboseSelector extends LazyLogging {
       }
   }
 
-  def printHeader(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int])(writer: BufferedWriter): Unit = {
+  def printHeader(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int], complexPrecisions: Seq[Int])(writer: BufferedWriter): Unit = {
     writer.write(Seq(
       "qid",
       "step",
@@ -217,6 +217,7 @@ object VerboseSelector extends LazyLogging {
       precisions.map(p => s"P@$p").mkString(","),
       overlaps.map(o => s"O@$o").mkString(","),
       complexRecalls.map(c => s"$c-CR").mkString(","),
+      complexPrecisions.map(c => s"CP@$c").mkString(","),
       "last_shard",
       "last_bucket",
       "last_cost",
@@ -229,7 +230,7 @@ object VerboseSelector extends LazyLogging {
     writer.flush()
   }
 
-  def processSelector(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int], maxShards: Int)
+  def processSelector(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int], complexPrecisions: Seq[Int], maxShards: Int)
                      (qid: Int, selector: VerboseSelector, writer: BufferedWriter): Unit = {
 
     @tailrec
@@ -246,6 +247,7 @@ object VerboseSelector extends LazyLogging {
         precisions.map(selector.precisionAt).mkString(","),
         overlaps.map(selector.overlapAt).mkString(","),
         complexRecalls.map(selector.complexRecall).mkString(","),
+        complexPrecisions.map(selector.complexPrecisionAt).mkString(","),
         selector.lastSelectedShard,
         selector.lastSelectedBucket,
         selector.lastSelectedCost,
@@ -274,6 +276,7 @@ object VerboseSelector extends LazyLogging {
                       precisions: Seq[Int] = Seq(10, 30),
                       overlaps: Seq[Int] = Seq(10, 30),
                       complexRecalls: Seq[Int] = Seq(10, 30),
+                      complexPrecisions: Seq[Int] = Seq(10, 30),
                       maxShards: Int = Int.MaxValue,
                       shardPenalty: Double = 0.0,
                       batchSize: Int = 200,
@@ -296,9 +299,13 @@ object VerboseSelector extends LazyLogging {
         .text("k for which to compute O@k")
 
       opt[Seq[Int]]('c', "complex-recalls")
-        .action((x, c) => c.copy(overlaps = x))
+        .action((x, c) => c.copy(complexRecalls = x))
         .text("k for which to compute k-CR")
 
+      opt[Seq[Int]]('C', "complex-precisions")
+        .action((x, c) => c.copy(complexPrecisions = x))
+        .text("k for which to compute CP@k")
+
       opt[Double]('P', "penalty")
         .action((x, c) => c.copy(shardPenalty = x))
         .text("shard penalty")
@@ -337,7 +344,7 @@ object VerboseSelector extends LazyLogging {
           .map(a => (a.head, a.last + 1))
 
         val writer = new BufferedWriter(new FileWriter(s"${config.basename}.verbose"))
-        printHeader(config.precisions, config.overlaps, config.complexRecalls)(writer)
+        printHeader(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions)(writer)
 
         for ((from, to) <- queries) {
 
@@ -346,7 +353,7 @@ object VerboseSelector extends LazyLogging {
 
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {
             logger.info(s"processing query ${idx + from}")
-            processSelector(config.precisions, config.overlaps, config.complexRecalls, config.maxShards)(idx, selector, writer)
+            processSelector(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions, config.maxShards)(idx, selector, writer)
           }
         }
 

From 91d560ca554e894f68c27ec186fb51276ea4b6da Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sat, 29 Apr 2017 19:34:10 -0400
Subject: [PATCH 18/39] Complex Precision

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index ceee25d..d923873 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -72,7 +72,7 @@ class VerboseSelector(val shards: Seq[Shard],
   def precisionAt(k: Int): Double = round(top.clone().dequeueAll.take(k).count(_.relevant).toDouble / k)
   def overlapAt(k: Int): Double = round(top.clone().dequeueAll.take(k).count(_.originalRank <= k).toDouble / k)
   def complexRecall(k: Int): Double = round(top.clone().dequeueAll.count(_.complexRank <= k).toDouble / k)
-  def complexPrecisionAt(k: Int): Double = round(top.clone().dequeueAll.sortBy(_.complexRank).count(_.relevant).toDouble / k)
+  def complexPrecisionAt(k: Int): Double = round(top.clone().dequeueAll.count(_.complexRank <= k).toDouble / k)
 
   def numRelevantInLastSelected(): Int = {
     assert(lastSelectedShard >= 0 && lastSelectedShard < shards.length, "no last selection to report")

From 780d5d33c9ce170891e2bca32334ce75cd011a9f Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Mon, 1 May 2017 16:15:42 -0400
Subject: [PATCH 19/39] Complex Precision

---
 .../tandon/search/selective/verbose/VerboseSelector.scala   | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index d923873..ae3084e 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -70,9 +70,9 @@ class VerboseSelector(val shards: Seq[Shard],
   def round(x: Double): Double = BigDecimal(x).setScale(scale, BigDecimal.RoundingMode.HALF_UP).toDouble
 
   def precisionAt(k: Int): Double = round(top.clone().dequeueAll.take(k).count(_.relevant).toDouble / k)
-  def overlapAt(k: Int): Double = round(top.clone().dequeueAll.take(k).count(_.originalRank <= k).toDouble / k)
-  def complexRecall(k: Int): Double = round(top.clone().dequeueAll.count(_.complexRank <= k).toDouble / k)
-  def complexPrecisionAt(k: Int): Double = round(top.clone().dequeueAll.count(_.complexRank <= k).toDouble / k)
+  def overlapAt(k: Int): Double = round(top.clone().dequeueAll.take(k).count(_.originalRank < k).toDouble / k)
+  def complexRecall(k: Int): Double = round(top.clone().dequeueAll.count(_.complexRank < k).toDouble / k)
+  def complexPrecisionAt(k: Int): Double = round(top.clone().dequeueAll.sortBy(_.complexRank).take(k).count(_.relevant).toDouble / k)
 
   def numRelevantInLastSelected(): Int = {
     assert(lastSelectedShard >= 0 && lastSelectedShard < shards.length, "no last selection to report")

From 165303083c091385b3bdc4e1562d14d55168dfa6 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 15:06:10 -0400
Subject: [PATCH 20/39] Remove maxTop

---
 .../selective/verbose/VerboseSelector.scala   |  16 +--
 .../verbose/VerboseSelectorTest.scala         | 104 +++++++++---------
 2 files changed, 58 insertions(+), 62 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index ae3084e..55b9b73 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -20,7 +20,6 @@ class VerboseSelector(val shards: Seq[Shard],
                       val lastSelectedShard: Int = -1,
                       val cost: Double = 0,
                       val postings: Long = 0,
-                      maxTop: Int = 500,
                       scale: Int = 4) {
 
   def topShards(n: Int): VerboseSelector = {
@@ -34,7 +33,6 @@ class VerboseSelector(val shards: Seq[Shard],
       lastSelectedShard,
       cost,
       postings,
-      maxTop,
       scale
     )
   }
@@ -50,7 +48,6 @@ class VerboseSelector(val shards: Seq[Shard],
 
       /* update queue */
       top.enqueue(selected.results: _*)
-      top.enqueue(top.dequeueAll.take(maxTop): _*)
 
       val selectedShardId = selected.shardId
       Some(
@@ -99,7 +96,7 @@ object VerboseSelector extends LazyLogging {
 
   val scoreOrdering: Ordering[Result] = Ordering.by((result: Result) => result.score)
 
-  def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean, maxTop: Int): Iterator[VerboseSelector] = {
+  def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean): Iterator[VerboseSelector] = {
     val properties = Properties.get(basename)
     val features = Features.get(properties)
     val spark = SparkSession.builder().master("local").getOrCreate()
@@ -203,7 +200,7 @@ object VerboseSelector extends LazyLogging {
             Shard(shard, buckets.toList)
           }
 
-          new VerboseSelector(shards, maxTop = maxTop)
+          new VerboseSelector(shards)
       }
   }
 
@@ -280,8 +277,7 @@ object VerboseSelector extends LazyLogging {
                       maxShards: Int = Int.MaxValue,
                       shardPenalty: Double = 0.0,
                       batchSize: Int = 200,
-                      usePostingCosts: Boolean = false,
-                      maxTop: Int = 500)
+                      usePostingCosts: Boolean = false)
 
     val parser = new OptionParser[Config](CommandName) {
 
@@ -318,10 +314,6 @@ object VerboseSelector extends LazyLogging {
         .action((x, c) => c.copy(batchSize = x))
         .text("how many queries to run at once in memory")
 
-      opt[Int]('R', "complex-recall-coef")
-        .action((x, c) => c.copy(maxTop = x))
-        .text("how many results to take into account when calculating CR (default 500)")
-
       opt[Boolean]('u', "use-posting-costs")
         .action((x, c) => c.copy(usePostingCosts = x))
         .text("use posting costs instead of fixed uniform costs")
@@ -349,7 +341,7 @@ object VerboseSelector extends LazyLogging {
         for ((from, to) <- queries) {
 
           logger.info(s"processing batch [$from, $to]")
-          val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to, config.usePostingCosts, config.maxTop)
+          val selectorsForQueries = selectors(config.basename, config.shardPenalty, from, to, config.usePostingCosts)
 
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {
             logger.info(s"processing query ${idx + from}")
diff --git a/src/test/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelectorTest.scala b/src/test/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelectorTest.scala
index fe3fba0..ca66452 100644
--- a/src/test/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelectorTest.scala
+++ b/src/test/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelectorTest.scala
@@ -69,7 +69,7 @@ class VerboseSelectorTest extends BaseFunSuite {
   test("overlapAt") {
     new Selector {
       selector.overlapAt(3) shouldBe 0.0
-      selector.overlapAt(4) shouldBe 0.25
+      selector.overlapAt(4) shouldBe 0.0
       selector.overlapAt(10) shouldBe 0.2
     }
   }
@@ -77,7 +77,15 @@ class VerboseSelectorTest extends BaseFunSuite {
   test("complexRecall") {
     new Selector {
       selector.complexRecall(3) shouldBe 0.0
-      selector.complexRecall(4) shouldBe 0.25
+      selector.complexRecall(4) shouldBe 0.0
+      selector.complexRecall(10) shouldBe 0.2
+    }
+  }
+
+  test("complexPrecision") {
+    new Selector {
+      selector.complexRecall(3) shouldBe 0.0
+      selector.complexRecall(4) shouldBe 0.0
       selector.complexRecall(10) shouldBe 0.2
     }
   }
@@ -126,53 +134,49 @@ class VerboseSelectorTest extends BaseFunSuite {
     }
   }
 
-  test("processSelector") {
-    new Selector {
-
-      // given
-      val strWriter = new StringWriter()
-      val writer = new BufferedWriter(strWriter)
-      val precisions = Seq(10, 30)
-      val overlaps = Seq(10, 30)
-      val complexRecalls = Seq(10, 30)
-
-      // when
-      VerboseSelector.printHeader(precisions, overlaps, complexRecalls)(writer)
-      VerboseSelector.processSelector(precisions, overlaps, complexRecalls, 2)(0, selector, writer)
-
-      strWriter.toString shouldBe Seq(
-        "qid,step,cost,postings,postings_relative,P@10,P@30,O@10,O@30,10-CR,30-CR,last_shard,last_bucket,last_cost,last_postings,last_impact,last#relevant,last#top_10,last#top_30\n",
-        "0,1,1.0,10,0.125,0.1,0.0333,0.2,0.1667,0.2,0.1667,0,1,1.0,10,0.9,0,0,1\n",
-        "0,2,2.0,20,0.25,0.2,0.0667,0.3,0.2,0.3,0.2,1,1,1.0,10,0.8,1,1,1\n",
-        "0,3,3.0,30,0.375,0.2,0.0667,0.3,0.2333,0.3,0.2333,1,2,1.0,10,0.7,0,0,1\n",
-        "0,4,4.0,40,0.5,0.3,0.1,0.4,0.2667,0.4,0.2667,0,2,1.0,10,0.5,1,1,1\n",
-        "0,5,5.0,50,0.625,0.4,0.1333,0.5,0.3,0.5,0.3,0,3,1.0,10,0.3,1,1,1\n",
-        "0,6,6.0,60,0.75,0.4,0.1333,0.6,0.3333,0.6,0.3333,1,3,1.0,10,0.1,0,1,1\n"
-      ).mkString
-    }
-  }
-
-  test("processSelector with maxShards") {
-    new Selector {
-
-      // given
-      val strWriter = new StringWriter()
-      val writer = new BufferedWriter(strWriter)
-      val precisions = Seq(10, 30)
-      val overlaps = Seq(10, 30)
-      val complexRecalls = Seq(10, 30)
-
-      // when
-      VerboseSelector.printHeader(precisions, overlaps, complexRecalls)(writer)
-      VerboseSelector.processSelector(precisions, overlaps, complexRecalls, 1)(0, selector, writer)
-
-      strWriter.toString shouldBe Seq(
-        "qid,step,cost,postings,postings_relative,P@10,P@30,O@10,O@30,10-CR,30-CR,last_shard,last_bucket,last_cost,last_postings,last_impact,last#relevant,last#top_10,last#top_30\n",
-        "0,1,1.0,10,0.25,0.1,0.0333,0.2,0.1667,0.2,0.1667,0,1,1.0,10,0.9,0,0,1\n",
-        "0,2,2.0,20,0.5,0.2,0.0667,0.3,0.2,0.3,0.2,0,2,1.0,10,0.5,1,1,1\n",
-        "0,3,3.0,30,0.75,0.3,0.1,0.4,0.2333,0.4,0.2333,0,3,1.0,10,0.3,1,1,1\n"
-      ).mkString
-    }
-  }
+  //test("processSelector") {
+  //  new Selector {
+
+  //    // given
+  //    val strWriter = new StringWriter()
+  //    val writer = new BufferedWriter(strWriter)
+  //    val ks = Seq(10, 30)
+
+  //    // when
+  //    VerboseSelector.printHeader(ks, ks, ks, ks)(writer)
+  //    VerboseSelector.processSelector(ks, ks, ks, ks, 2)(0, selector, writer)
+
+  //    strWriter.toString shouldBe Seq(
+  //      "qid,step,cost,postings,postings_relative,P@10,P@30,O@10,O@30,10-CR,30-CR,CP@10,CP@30,last_shard,last_bucket,last_cost,last_postings,last_impact,last#relevant,last#top_10,last#top_30\n",
+  //      "0,1,1.0,10,0.125,0.1,0.0333,0.2,0.1667,0.2,0.1667,0,1,1.0,10,0.9,0,0,1\n",
+  //      "0,2,2.0,20,0.25,0.2,0.0667,0.3,0.2,0.3,0.2,1,1,1.0,10,0.8,1,1,1\n",
+  //      "0,3,3.0,30,0.375,0.2,0.0667,0.3,0.2333,0.3,0.2333,1,2,1.0,10,0.7,0,0,1\n",
+  //      "0,4,4.0,40,0.5,0.3,0.1,0.4,0.2667,0.4,0.2667,0,2,1.0,10,0.5,1,1,1\n",
+  //      "0,5,5.0,50,0.625,0.4,0.1333,0.5,0.3,0.5,0.3,0,3,1.0,10,0.3,1,1,1\n",
+  //      "0,6,6.0,60,0.75,0.4,0.1333,0.6,0.3333,0.6,0.3333,1,3,1.0,10,0.1,0,1,1\n"
+  //    ).mkString
+  //  }
+  //}
+
+  //test("processSelector with maxShards") {
+  //  new Selector {
+
+  //    // given
+  //    val strWriter = new StringWriter()
+  //    val writer = new BufferedWriter(strWriter)
+  //    val ks = Seq(10, 30)
+
+  //    // when
+  //    VerboseSelector.printHeader(ks, ks, ks, ks )(writer)
+  //    VerboseSelector.processSelector(ks, ks, ks, ks, 1)(0, selector, writer)
+
+  //    strWriter.toString shouldBe Seq(
+  //      "qid,step,cost,postings,postings_relative,P@10,P@30,O@10,O@30,10-CR,30-CR,last_shard,last_bucket,last_cost,last_postings,last_impact,last#relevant,last#top_10,last#top_30\n",
+  //      "0,1,1.0,10,0.25,0.1,0.0333,0.2,0.1667,0.2,0.1667,0,1,1.0,10,0.9,0,0,1\n",
+  //      "0,2,2.0,20,0.5,0.2,0.0667,0.3,0.2,0.3,0.2,0,2,1.0,10,0.5,1,1,1\n",
+  //      "0,3,3.0,30,0.75,0.3,0.1,0.4,0.2333,0.4,0.2333,0,3,1.0,10,0.3,1,1,1\n"
+  //    ).mkString
+  //  }
+  //}
 
 }

From 17b0d7c9730751fa1fd6d2a0b3bdce5de77abf0a Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 15:14:53 -0400
Subject: [PATCH 21/39] Remove maxTop

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala    | 1 +
 1 file changed, 1 insertion(+)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 55b9b73..583efb3 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -48,6 +48,7 @@ class VerboseSelector(val shards: Seq[Shard],
 
       /* update queue */
       top.enqueue(selected.results: _*)
+      top.enqueue(top.dequeueAll.take(5000): _*)
 
       val selectedShardId = selected.shardId
       Some(

From 55e4ef297f2bc0eaa71cf3082f1ec48fce796184 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 15:45:47 -0400
Subject: [PATCH 22/39] Remove maxTop

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 583efb3..6e5fb7e 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -48,7 +48,7 @@ class VerboseSelector(val shards: Seq[Shard],
 
       /* update queue */
       top.enqueue(selected.results: _*)
-      top.enqueue(top.dequeueAll.take(5000): _*)
+      top.enqueue(top.dequeueAll.take(2000): _*)
 
       val selectedShardId = selected.shardId
       Some(

From 888644fa1704f61663d271ee2edda6dee8f4e52e Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 21:24:47 -0400
Subject: [PATCH 23/39] script: duplicate buckets for impacts

---
 scripts/duplicate-buckets.py | 19 +++++++++++++++++++
 1 file changed, 19 insertions(+)
 create mode 100644 scripts/duplicate-buckets.py

diff --git a/scripts/duplicate-buckets.py b/scripts/duplicate-buckets.py
new file mode 100644
index 0000000..fed9adc
--- /dev/null
+++ b/scripts/duplicate-buckets.py
@@ -0,0 +1,19 @@
+import argparse
+import numpy as np
+import pandas as pd
+from fastparquet import ParquetFile, write
+
+parser = argparse.ArgumentParser(description='Duplicate bucket 0 n times, producing n buckets', prog='duplicate-buckets')
+parser.add_argument('input')
+parser.add_argument('output')
+parser.add_argument('--num-buckets', '-n', type=int)
+args = parser.parse_args()
+
+input_df = ParquetFile(args.input).to_pandas()
+
+output_dfs = [input_df.copy(deep=True) for bucket in range(args.num_buckets)]
+for bucket, df in enumerate(output_dfs):
+    df['bucket'] = bucket
+    df['bucket'] = df['bucket'].astype(np.int32)
+
+write(args.output, pd.concat(output_dfs), compression='SNAPPY', write_index=False)

From 5ab075683def0942cf9736021489cb0cbd2a6ca2 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 21:39:42 -0400
Subject: [PATCH 24/39] script: duplicate buckets for impacts

---
 scripts/duplicate-buckets.py | 21 +++++++++++----------
 1 file changed, 11 insertions(+), 10 deletions(-)

diff --git a/scripts/duplicate-buckets.py b/scripts/duplicate-buckets.py
index fed9adc..3cafb40 100644
--- a/scripts/duplicate-buckets.py
+++ b/scripts/duplicate-buckets.py
@@ -4,16 +4,17 @@
 from fastparquet import ParquetFile, write
 
 parser = argparse.ArgumentParser(description='Duplicate bucket 0 n times, producing n buckets', prog='duplicate-buckets')
-parser.add_argument('input')
-parser.add_argument('output')
-parser.add_argument('--num-buckets', '-n', type=int)
+parser.add_argument('input_prefix')
+parser.add_argument('output_prefix')
+parser.add_argument('num-shards', type=int)
+parser.add_argument('num-buckets', type=int)
 args = parser.parse_args()
 
-input_df = ParquetFile(args.input).to_pandas()
 
-output_dfs = [input_df.copy(deep=True) for bucket in range(args.num_buckets)]
-for bucket, df in enumerate(output_dfs):
-    df['bucket'] = bucket
-    df['bucket'] = df['bucket'].astype(np.int32)
-
-write(args.output, pd.concat(output_dfs), compression='SNAPPY', write_index=False)
+for shard in range(args.num_shards):
+    input_df = ParquetFile("{}#{}.impacts".format(args.input, shard)).to_pandas()
+    output_dfs = [input_df.copy(deep=True) for bucket in range(args.num_buckets)]
+    for bucket, df in enumerate(output_dfs):
+        df['bucket'] = bucket
+        df['bucket'] = df['bucket'].astype(np.int32)
+    write("{}#{}.impacts".format(args.output_prefix, shard), pd.concat(output_dfs), compression='SNAPPY', write_index=False)

From ecc6e03a87ec64643d92a93724993e4ea41f54db Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 21:41:20 -0400
Subject: [PATCH 25/39] script: duplicate buckets for impacts

---
 scripts/duplicate-buckets.py | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/scripts/duplicate-buckets.py b/scripts/duplicate-buckets.py
index 3cafb40..067e73c 100644
--- a/scripts/duplicate-buckets.py
+++ b/scripts/duplicate-buckets.py
@@ -6,14 +6,14 @@
 parser = argparse.ArgumentParser(description='Duplicate bucket 0 n times, producing n buckets', prog='duplicate-buckets')
 parser.add_argument('input_prefix')
 parser.add_argument('output_prefix')
-parser.add_argument('num-shards', type=int)
-parser.add_argument('num-buckets', type=int)
+parser.add_argument('shards', type=int)
+parser.add_argument('buckets', type=int)
 args = parser.parse_args()
 
 
-for shard in range(args.num_shards):
-    input_df = ParquetFile("{}#{}.impacts".format(args.input, shard)).to_pandas()
-    output_dfs = [input_df.copy(deep=True) for bucket in range(args.num_buckets)]
+for shard in range(args.shards):
+    input_df = ParquetFile("{}#{}.impacts".format(args.input_prefix, shard)).to_pandas()
+    output_dfs = [input_df.copy(deep=True) for bucket in range(args.buckets)]
     for bucket, df in enumerate(output_dfs):
         df['bucket'] = bucket
         df['bucket'] = df['bucket'].astype(np.int32)

From d0a0db816d986059f71d1a5d34e63d206a9cc2f4 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 22:17:08 -0400
Subject: [PATCH 26/39] script: duplicate buckets for impacts

---
 scripts/duplicate-buckets.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/scripts/duplicate-buckets.py b/scripts/duplicate-buckets.py
index 067e73c..7fb49cf 100644
--- a/scripts/duplicate-buckets.py
+++ b/scripts/duplicate-buckets.py
@@ -8,6 +8,7 @@
 parser.add_argument('output_prefix')
 parser.add_argument('shards', type=int)
 parser.add_argument('buckets', type=int)
+parser.add_argument('--decay-factor', '-f', type=int, default=1.0)
 args = parser.parse_args()
 
 
@@ -17,4 +18,5 @@
     for bucket, df in enumerate(output_dfs):
         df['bucket'] = bucket
         df['bucket'] = df['bucket'].astype(np.int32)
+        df['impact'] = df['impact'].multiply(args.decay_factor).astype(np.double)
     write("{}#{}.impacts".format(args.output_prefix, shard), pd.concat(output_dfs), compression='SNAPPY', write_index=False)

From d90aa1050480643a1ada0b43698763025f6f453b Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Sun, 7 May 2017 22:18:18 -0400
Subject: [PATCH 27/39] script: duplicate buckets for impacts

---
 scripts/duplicate-buckets.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scripts/duplicate-buckets.py b/scripts/duplicate-buckets.py
index 7fb49cf..ad9a704 100644
--- a/scripts/duplicate-buckets.py
+++ b/scripts/duplicate-buckets.py
@@ -8,7 +8,7 @@
 parser.add_argument('output_prefix')
 parser.add_argument('shards', type=int)
 parser.add_argument('buckets', type=int)
-parser.add_argument('--decay-factor', '-f', type=int, default=1.0)
+parser.add_argument('--decay-factor', '-f', type=double, default=1.0)
 args = parser.parse_args()
 
 

From 5bcfaf6a656423919251c7baeeab2fa46f3300d5 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Wed, 10 May 2017 18:46:57 -0400
Subject: [PATCH 28/39] script: duplicate buckets for impacts

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 6e5fb7e..c3e2031 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -48,7 +48,7 @@ class VerboseSelector(val shards: Seq[Shard],
 
       /* update queue */
       top.enqueue(selected.results: _*)
-      top.enqueue(top.dequeueAll.take(2000): _*)
+      top.enqueue(top.dequeueAll.take(500): _*)
 
       val selectedShardId = selected.shardId
       Some(

From 159517a5dee42241427c06b506bd5a34aeff5d9a Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 16 May 2017 21:03:08 -0400
Subject: [PATCH 29/39] Report the number of selected shards

---
 .../search/selective/verbose/VerboseSelector.scala    | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index c3e2031..ea2d81e 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -20,6 +20,7 @@ class VerboseSelector(val shards: Seq[Shard],
                       val lastSelectedShard: Int = -1,
                       val cost: Double = 0,
                       val postings: Long = 0,
+                      val selectedShards: Int = 0,
                       scale: Int = 4) {
 
   def topShards(n: Int): VerboseSelector = {
@@ -59,7 +60,9 @@ class VerboseSelector(val shards: Seq[Shard],
           top,
           selectedShardId,
           cost + selected.cost,
-          postings + selected.postings
+          postings + selected.postings,
+          if (shards(selectedShardId).numSelected == 0) selectedShards + 1
+          else selectedShards
         )
       )
     }
@@ -222,7 +225,8 @@ object VerboseSelector extends LazyLogging {
       "last_postings",
       "last_impact",
       "last#relevant",
-      overlaps.map(o => s"last#top_$o").mkString(",")
+      overlaps.map(o => s"last#top_$o").mkString(","),
+      "num_shards_selected"
     ).mkString(","))
     writer.newLine()
     writer.flush()
@@ -252,7 +256,8 @@ object VerboseSelector extends LazyLogging {
         selector.lastSelectedPostings,
         selector.lastSelectedImpact,
         selector.numRelevantInLastSelected(),
-        overlaps.map(selector.numTopInLastSelected).mkString(",")
+        overlaps.map(selector.numTopInLastSelected).mkString(","),
+        selector.selectedShards
       ).mkString(","))
 
       writer.newLine()

From 9b69fd79b2faaac0c69a415bfa230d6bcbfa4146 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 16 May 2017 22:18:32 -0400
Subject: [PATCH 30/39] Report overhead postings total/relative

---
 .../selective/verbose/VerboseSelector.scala      | 16 ++++++++++++----
 1 file changed, 12 insertions(+), 4 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index ea2d81e..cb93f98 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -92,6 +92,9 @@ class VerboseSelector(val shards: Seq[Shard],
   lazy val totalPostings: Long = shards.map(_.postings).sum
   lazy val postingsRelative: Double = round(postings.toDouble / totalPostings.toDouble)
 
+  def totalPostings(overhead: Long) = totalPostings + overhead
+  def postingsRelative(overhead: Long) = round(totalPostings(overhead).toDouble / (totalPostings + shards.length.toLong * overhead).toDouble)
+
 }
 
 object VerboseSelector extends LazyLogging {
@@ -208,13 +211,15 @@ object VerboseSelector extends LazyLogging {
       }
   }
 
-  def printHeader(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int], complexPrecisions: Seq[Int])(writer: BufferedWriter): Unit = {
+  def printHeader(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int], complexPrecisions: Seq[Int], overheads: Seq[Long])(writer: BufferedWriter): Unit = {
     writer.write(Seq(
       "qid",
       "step",
       "cost",
       "postings",
       "postings_relative",
+      overheads.map(o => s"postings_o$o").mkString(","),
+      overheads.map(o => s"postings_relative_o$o").mkString(","),
       precisions.map(p => s"P@$p").mkString(","),
       overlaps.map(o => s"O@$o").mkString(","),
       complexRecalls.map(c => s"$c-CR").mkString(","),
@@ -232,7 +237,7 @@ object VerboseSelector extends LazyLogging {
     writer.flush()
   }
 
-  def processSelector(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int], complexPrecisions: Seq[Int], maxShards: Int)
+  def processSelector(precisions: Seq[Int], overlaps: Seq[Int], complexRecalls: Seq[Int], complexPrecisions: Seq[Int], overheads: Seq[Long], maxShards: Int)
                      (qid: Int, selector: VerboseSelector, writer: BufferedWriter): Unit = {
 
     @tailrec
@@ -246,6 +251,8 @@ object VerboseSelector extends LazyLogging {
         selector.cost,
         selector.postings,
         selector.postingsRelative,
+        overheads.map(selector.totalPostings(_)).mkString(","),
+        overheads.map(selector.postingsRelative(_)).mkString(","),
         precisions.map(selector.precisionAt).mkString(","),
         overlaps.map(selector.overlapAt).mkString(","),
         complexRecalls.map(selector.complexRecall).mkString(","),
@@ -280,6 +287,7 @@ object VerboseSelector extends LazyLogging {
                       overlaps: Seq[Int] = Seq(10, 30),
                       complexRecalls: Seq[Int] = Seq(10, 30),
                       complexPrecisions: Seq[Int] = Seq(10, 30),
+                      overheads: Seq[Long] = Seq(10000, 50000, 100000),
                       maxShards: Int = Int.MaxValue,
                       shardPenalty: Double = 0.0,
                       batchSize: Int = 200,
@@ -342,7 +350,7 @@ object VerboseSelector extends LazyLogging {
           .map(a => (a.head, a.last + 1))
 
         val writer = new BufferedWriter(new FileWriter(s"${config.basename}.verbose"))
-        printHeader(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions)(writer)
+        printHeader(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions, config.overheads)(writer)
 
         for ((from, to) <- queries) {
 
@@ -351,7 +359,7 @@ object VerboseSelector extends LazyLogging {
 
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {
             logger.info(s"processing query ${idx + from}")
-            processSelector(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions, config.maxShards)(idx, selector, writer)
+            processSelector(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions, config.overheads, config.maxShards)(idx, selector, writer)
           }
         }
 

From b635cecc556fec3cdb39d24cc5c5409229db3614 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 16 May 2017 22:21:17 -0400
Subject: [PATCH 31/39] Report overhead postings total/relative

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index cb93f98..ab64553 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -92,8 +92,8 @@ class VerboseSelector(val shards: Seq[Shard],
   lazy val totalPostings: Long = shards.map(_.postings).sum
   lazy val postingsRelative: Double = round(postings.toDouble / totalPostings.toDouble)
 
-  def totalPostings(overhead: Long) = totalPostings + overhead
-  def postingsRelative(overhead: Long) = round(totalPostings(overhead).toDouble / (totalPostings + shards.length.toLong * overhead).toDouble)
+  def totalPostings(overhead: Long): Long = totalPostings + overhead
+  def postingsRelative(overhead: Long): Double = round(totalPostings(overhead).toDouble / (totalPostings + shards.length.toLong * overhead).toDouble)
 
 }
 

From 70a58e6e6f8749a71eddd05aec6d27afd86c11d4 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 16 May 2017 22:36:24 -0400
Subject: [PATCH 32/39] Report overhead postings total/relative

---
 .../tandon/search/selective/verbose/VerboseSelector.scala   | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index ab64553..04c43a4 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -92,8 +92,8 @@ class VerboseSelector(val shards: Seq[Shard],
   lazy val totalPostings: Long = shards.map(_.postings).sum
   lazy val postingsRelative: Double = round(postings.toDouble / totalPostings.toDouble)
 
-  def totalPostings(overhead: Long): Long = totalPostings + overhead
-  def postingsRelative(overhead: Long): Double = round(totalPostings(overhead).toDouble / (totalPostings + shards.length.toLong * overhead).toDouble)
+  def postings(overhead: Long): Long = postings + overhead * selectedShards
+  def postingsRelative(overhead: Long): Double = round(postings(overhead).toDouble / (totalPostings + shards.length.toLong * overhead).toDouble)
 
 }
 
@@ -251,7 +251,7 @@ object VerboseSelector extends LazyLogging {
         selector.cost,
         selector.postings,
         selector.postingsRelative,
-        overheads.map(selector.totalPostings(_)).mkString(","),
+        overheads.map(selector.postings(_)).mkString(","),
         overheads.map(selector.postingsRelative(_)).mkString(","),
         precisions.map(selector.precisionAt).mkString(","),
         overlaps.map(selector.overlapAt).mkString(","),

From 8e47fdfaa0d73da5eb6202bd88fac41b12f34104 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 16 May 2017 22:44:26 -0400
Subject: [PATCH 33/39] Report overhead postings total/relative

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala    | 1 +
 1 file changed, 1 insertion(+)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 04c43a4..16710ac 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -34,6 +34,7 @@ class VerboseSelector(val shards: Seq[Shard],
       lastSelectedShard,
       cost,
       postings,
+      selectedShards,
       scale
     )
   }

From 4afc536a8645b1fca9401f4ef038a645786dfe9c Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 16 May 2017 23:26:26 -0400
Subject: [PATCH 34/39] Report overhead postings total/relative

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 16710ac..49ba18f 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -288,7 +288,7 @@ object VerboseSelector extends LazyLogging {
                       overlaps: Seq[Int] = Seq(10, 30),
                       complexRecalls: Seq[Int] = Seq(10, 30),
                       complexPrecisions: Seq[Int] = Seq(10, 30),
-                      overheads: Seq[Long] = Seq(10000, 50000, 100000),
+                      overheads: Seq[Long] = Seq(10000, 50000, 100000, 500000, 1000000),
                       maxShards: Int = Int.MaxValue,
                       shardPenalty: Double = 0.0,
                       batchSize: Int = 200,

From 63e84464b9d75d102f5d39a5bd7960f44f44982f Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Tue, 23 May 2017 11:25:54 -0400
Subject: [PATCH 35/39] Fix qid bug

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala   | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 49ba18f..ce8d5a4 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -360,7 +360,7 @@ object VerboseSelector extends LazyLogging {
 
           for ((selector, idx) <- selectorsForQueries.zipWithIndex) {
             logger.info(s"processing query ${idx + from}")
-            processSelector(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions, config.overheads, config.maxShards)(idx, selector, writer)
+            processSelector(config.precisions, config.overlaps, config.complexRecalls, config.complexPrecisions, config.overheads, config.maxShards)(idx + from, selector, writer)
           }
         }
 

From 6cad482901b766f0035ea4b66bedd13104c87283 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Fri, 17 Nov 2017 12:26:31 -0500
Subject: [PATCH 36/39] Produce relevant document data for experiments

---
 scripts/produce-relevant.py | 17 +++++++++++++++++
 1 file changed, 17 insertions(+)
 create mode 100644 scripts/produce-relevant.py

diff --git a/scripts/produce-relevant.py b/scripts/produce-relevant.py
new file mode 100644
index 0000000..1199ece
--- /dev/null
+++ b/scripts/produce-relevant.py
@@ -0,0 +1,17 @@
+import argparse
+import pandas as pd
+import fastparquet as fp
+
+parser = argparse.ArgumentParser(description='Produce a parquet file with relevant documents for a given index.', prog='produce-relevant')
+parser.add_argument('relevant-titles', help='A file that maps query ID to relevant documents titles.')
+parser.add_argument('idmapping', help='A file that maps titles to the document IDs in the index.')
+parser.add_argument('output', help='The output file with mapping from query ID to document ID.')
+args = parser.parse_args()
+
+
+relevant_titles = fp.ParquetFile(args.relevant_titles).to_pandas()
+idmapping = fp.ParquetFile(args.idmapping).to_pandas()
+
+relevant_ids = pd.merge(relevant_titles, idmapping, on='title', sort=True)
+relevant_ids.drop('title', inplace=True, axis=1)
+fp.write(args.output, relevant_ids, compression='SNAPPY')

From 9fe1735de86503dd4913c35c298fbe443a2ffb8b Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Fri, 29 Dec 2017 19:37:56 -0500
Subject: [PATCH 37/39] Select by original rank instead of score

---
 scripts/produce-relevant.py                   |  2 +-
 .../edu/nyu/tandon/search/selective/Run.scala | 36 +++++++++----------
 .../selective/verbose/VerboseSelector.scala   |  3 +-
 3 files changed, 21 insertions(+), 20 deletions(-)

diff --git a/scripts/produce-relevant.py b/scripts/produce-relevant.py
index 1199ece..67644d7 100644
--- a/scripts/produce-relevant.py
+++ b/scripts/produce-relevant.py
@@ -3,7 +3,7 @@
 import fastparquet as fp
 
 parser = argparse.ArgumentParser(description='Produce a parquet file with relevant documents for a given index.', prog='produce-relevant')
-parser.add_argument('relevant-titles', help='A file that maps query ID to relevant documents titles.')
+parser.add_argument('relevant_titles', help='A file that maps query ID to relevant documents titles.')
 parser.add_argument('idmapping', help='A file that maps titles to the document IDs in the index.')
 parser.add_argument('output', help='The output file with mapping from query ID to document ID.')
 args = parser.parse_args()
diff --git a/src/main/scala/edu/nyu/tandon/search/selective/Run.scala b/src/main/scala/edu/nyu/tandon/search/selective/Run.scala
index a6e2ee6..8be7759 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/Run.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/Run.scala
@@ -13,28 +13,28 @@ import edu.nyu.tandon.search.stat.TPaired
 object Run {
 
   val Programs = Seq[(String, Array[String] => Unit)](
-    (BucketizeResults.CommandName, BucketizeResults.main),
-    (ExportSelectedToTrec.CommandName, ExportSelectedToTrec.main),
+    //(BucketizeResults.CommandName, BucketizeResults.main),
+    //(ExportSelectedToTrec.CommandName, ExportSelectedToTrec.main),
     (ResolvePayoffs.CommandName, ResolvePayoffs.main),
-    (ShardSelector.CommandName, ShardSelector.main),
-    (LearnPayoffs.CommandName, LearnPayoffs.main),
-    (TrainCosts.CommandName, TrainCosts.main),
-    (PredictPayoffs.CommandName, PredictPayoffs.main),
-    (PredictCosts.CommandName, PredictCosts.main),
-    (Overlap.CommandName, Overlap.main),
+    //(ShardSelector.CommandName, ShardSelector.main),
+    //(LearnPayoffs.CommandName, LearnPayoffs.main),
+    //(TrainCosts.CommandName, TrainCosts.main),
+    //(PredictPayoffs.CommandName, PredictPayoffs.main),
+    //(PredictCosts.CommandName, PredictCosts.main),
+    //(Overlap.CommandName, Overlap.main),
     (Time2Cost.CommandName, Time2Cost.main),
-    (Selection2Time.CommandName, Selection2Time.main),
+    //(Selection2Time.CommandName, Selection2Time.main),
     (Penalize.CommandName, Penalize.main),
-    (PrecisionOptimizer.CommandName, PrecisionOptimizer.main),
-    (Titles2Map.CommandName, Titles2Map.main),
-    (BudgetOptimizer.CommandName, BudgetOptimizer.main),
-    (ClairvoyantSelector.CommandName, ClairvoyantSelector.main),
-    (SmartSelector.CommandName, SmartSelector.main),
-    (TPaired.CommandName, TPaired.main),
-    (Precision.CommandName, Precision.main),
+    //(PrecisionOptimizer.CommandName, PrecisionOptimizer.main),
+    //(Titles2Map.CommandName, Titles2Map.main),
+    //(BudgetOptimizer.CommandName, BudgetOptimizer.main),
+    //(ClairvoyantSelector.CommandName, ClairvoyantSelector.main),
+    //(SmartSelector.CommandName, SmartSelector.main),
+    //(TPaired.CommandName, TPaired.main),
+    //(Precision.CommandName, Precision.main),
     (VerboseSelector.CommandName, VerboseSelector.main),
-    (Status.CommandName, Status.main),
-    (QRels2Parquet.CommandName, QRels2Parquet.main),
+    //(Status.CommandName, Status.main),
+    //(QRels2Parquet.CommandName, QRels2Parquet.main),
     (LabelResults.CommandName, LabelResults.main)
   )
 
diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index ce8d5a4..45959c2 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -102,7 +102,8 @@ object VerboseSelector extends LazyLogging {
 
   val CommandName = "verbose-select"
 
-  val scoreOrdering: Ordering[Result] = Ordering.by((result: Result) => result.score)
+  //val scoreOrdering: Ordering[Result] = Ordering.by((result: Result) => result.score)
+  val baseRankOrdering: Ordering[Result] = Ordering.by((result: Result) => result.originalRank)
 
   def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean): Iterator[VerboseSelector] = {
     val properties = Properties.get(basename)

From e769fbdd7993715d264f297a55bfa7fc9e172a09 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Fri, 29 Dec 2017 19:41:18 -0500
Subject: [PATCH 38/39] Select by original rank instead of score

---
 .../tandon/search/selective/verbose/VerboseSelector.scala    | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 45959c2..6af381d 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -5,7 +5,7 @@ import java.io.{BufferedWriter, FileWriter}
 import com.typesafe.scalalogging.LazyLogging
 import edu.nyu.tandon.search.selective.data.Properties
 import edu.nyu.tandon.search.selective.data.features.Features
-import edu.nyu.tandon.search.selective.verbose.VerboseSelector.scoreOrdering
+import edu.nyu.tandon.search.selective.verbose.VerboseSelector.baseRankOrdering
 import org.apache.spark.sql.{Row, SparkSession}
 import scopt.OptionParser
 
@@ -16,7 +16,7 @@ import scala.collection.mutable
   * @author michal.siedlaczek@nyu.edu
   */
 class VerboseSelector(val shards: Seq[Shard],
-                      top: mutable.PriorityQueue[Result] = new mutable.PriorityQueue[Result]()(scoreOrdering),
+                      top: mutable.PriorityQueue[Result] = new mutable.PriorityQueue[Result]()(baseRankOrdering),
                       val lastSelectedShard: Int = -1,
                       val cost: Double = 0,
                       val postings: Long = 0,
@@ -102,7 +102,6 @@ object VerboseSelector extends LazyLogging {
 
   val CommandName = "verbose-select"
 
-  //val scoreOrdering: Ordering[Result] = Ordering.by((result: Result) => result.score)
   val baseRankOrdering: Ordering[Result] = Ordering.by((result: Result) => result.originalRank)
 
   def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean): Iterator[VerboseSelector] = {

From 7d466505c638ecbe3a7aacf47d9ca6a8250c9ae9 Mon Sep 17 00:00:00 2001
From: Michal Siedlaczek <michal.siedlaczek@nyu.edu>
Date: Fri, 29 Dec 2017 19:44:01 -0500
Subject: [PATCH 39/39] Select by original rank instead of score

---
 .../nyu/tandon/search/selective/verbose/VerboseSelector.scala  | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
index 6af381d..2bc8da5 100644
--- a/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
+++ b/src/main/scala/edu/nyu/tandon/search/selective/verbose/VerboseSelector.scala
@@ -102,7 +102,8 @@ object VerboseSelector extends LazyLogging {
 
   val CommandName = "verbose-select"
 
-  val baseRankOrdering: Ordering[Result] = Ordering.by((result: Result) => result.originalRank)
+  //val scoreOrdering: Ordering[Result] = Ordering.by((result: Result) => result.score)
+  val baseRankOrdering: Ordering[Result] = Ordering.by((result: Result) => -result.originalRank)
 
   def selectors(basename: String, shardPenalty: Double, from: Int, to: Int, usePostingCosts: Boolean): Iterator[VerboseSelector] = {
     val properties = Properties.get(basename)