JKusio · Aug 12, 2024
diff --git a/‎elasticsearch/basic_index.json
+7 b/‎elasticsearch/basic_index.json
+7
diff --git a/‎elasticsearch/morfologik_index.json
+7 b/‎elasticsearch/morfologik_index.json
+7
diff --git a/‎elasticsearch/morfologik_stopwords_index.json
+7 b/‎elasticsearch/morfologik_stopwords_index.json
+7
diff --git a/‎elasticsearch/morfologik_whitespace_index.json
+7 b/‎elasticsearch/morfologik_whitespace_index.json
+7
diff --git a/‎elasticsearch/polish_index.json
+7 b/‎elasticsearch/polish_index.json
+7
diff --git a/‎elasticsearch/polish_stopwords_index.json
+7 b/‎elasticsearch/polish_stopwords_index.json
+7
diff --git a/‎elasticsearch/polish_whitespace_index.json
+7 b/‎elasticsearch/polish_whitespace_index.json
+7
diff --git a/‎src/common/utils.py
+8-4 b/‎src/common/utils.py
+8-4
diff --git a/‎src/notebooks/01_retrievers_evaluation.ipynb
+614-102 b/‎src/notebooks/01_retrievers_evaluation.ipynb
+614-102
diff --git a/‎src/repository/es_repository.py
+19-13 b/‎src/repository/es_repository.py
+19-13
diff --git a/‎src/repository/qdrant_openai_repository.py
+3-3 b/‎src/repository/qdrant_openai_repository.py
+3-3
diff --git a/‎src/repository/qdrant_repository.py
+3-3 b/‎src/repository/qdrant_repository.py
+3-3
diff --git a/‎src/retrievers/es_retriever.py
+5-3 b/‎src/retrievers/es_retriever.py
+5-3
diff --git a/‎src/retrievers/qdrant_retriever.py
+5-3 b/‎src/retrievers/qdrant_retriever.py
+5-3
@@ -17,6 +17,13 @@
       },
       "dataset_key": {
         "type": "keyword"
+      },
+      "metadata": {
+        "properties": {
+          "passage_id": {
+            "type": "keyword" 
+          }
+        }
       }
     }
   }
 
@@ -17,6 +17,13 @@
       },
       "dataset_key": {
         "type": "keyword"
+      },
+      "metadata": {
+        "properties": {
+          "passage_id": {
+            "type": "keyword" 
+          }
+        }
       }
     }
   }
 
@@ -38,6 +38,13 @@
       },
       "dataset_key": {
         "type": "keyword"
+      },
+      "metadata": {
+        "properties": {
+          "passage_id": {
+            "type": "keyword" 
+          }
+        }
       }
     }
   }
 
@@ -31,6 +31,13 @@
       },
       "dataset_key": {
         "type": "keyword"
+      },
+      "metadata": {
+        "properties": {
+          "passage_id": {
+            "type": "keyword" 
+          }
+        }
       }
     }
   }
 
@@ -17,6 +17,13 @@
       },
       "dataset_key": {
         "type": "keyword"
+      },
+      "metadata": {
+        "properties": {
+          "passage_id": {
+            "type": "keyword" 
+          }
+        }
       }
     }
   }
 
@@ -37,6 +37,13 @@
       },
       "dataset_key": {
         "type": "keyword"
+      },
+      "metadata": {
+        "properties": {
+          "passage_id": {
+            "type": "keyword" 
+          }
+        }
       }
     }
   }
 
@@ -31,6 +31,13 @@
       },
       "dataset_key": {
         "type": "keyword"
+      },
+      "metadata": {
+        "properties": {
+          "passage_id": {
+            "type": "keyword" 
+          }
+        }
       }
     }
   }
 
@@ -39,15 +39,19 @@ def get_vectorizer_hash(model: str, prompt: str):
     return "vectorizer:" + hashed
 
 
-def get_prompt_hash(model: str, dataset_key: str, prompt: str, distance: str):
+def get_prompt_hash(
+    model: str, dataset_key: str, prompt: str, distance: str, size: int
+):
     hashed = hashlib.sha256(
-        (model + dataset_key + prompt + distance).encode()
+        (model + dataset_key + prompt + distance + str(size)).encode()
     ).hexdigest()
     return "prompt:" + hashed
 
 
-def get_es_query_hash(index_name: str, dataset_key: str, query: str):
-    hashed = hashlib.sha256((index_name + dataset_key + query).encode()).hexdigest()
+def get_es_query_hash(index_name: str, dataset_key: str, query: str, size: int):
+    hashed = hashlib.sha256(
+        (index_name + dataset_key + query + str(size)).encode()
+    ).hexdigest()
     return "query:" + hashed
 
 
 
@@ -24,8 +24,8 @@ def insert_many(self, data: list[Passage]):
         documents = [d.dict() for d in data]
         return helpers.bulk(self.client, documents, index=self.index_name)
 
-    def find(self, query: str, dataset_key: str) -> Result:
-        hash_key = get_es_query_hash(self.index_name, dataset_key, query)
+    def find(self, query: str, dataset_key: str, size: int = 10) -> Result:
+        hash_key = get_es_query_hash(self.index_name, dataset_key, query, size)
         cached_value = self.cache.get(hash_key)
 
         if cached_value:
@@ -34,7 +34,7 @@ def find(self, query: str, dataset_key: str) -> Result:
             return Result(query, passages)
 
         body = {
-            "size": 10,
+            "size": size,
             "query": {
                 "bool": {
                     "must": [
@@ -81,23 +81,29 @@ def delete(self, query: str):
         body = {"query": {"match": {"text": query}}}
         return self.client.delete_by_query(index=self.index_name, body=body)
 
-    def count_relevant_documents(self, passage_id: str, dataset_key: str) -> int:
-        hash_key = get_relevant_document_count_hash(passage_id, dataset_key)
+    def count_relevant_documents(self, passage_ids: list[str], dataset_key: str) -> int:
+        sorted_passage_ids = sorted(passage_ids)
+        joined_passage_ids = ",".join(map(str, sorted_passage_ids))
+        hash_key = get_relevant_document_count_hash(joined_passage_ids, dataset_key)
 
         cached_value = self.cache.get(hash_key)
 
         if cached_value:
             return int(cached_value)
 
+        is_poquad = True if "poquad" in dataset_key else False
+
+        must = [
+            {"match": {"dataset_key": dataset_key}},
+        ]
+
+        if is_poquad:
+            must.append({"match": {"id": passage_ids[0]}})
+        else:
+            must.append({"terms": {"metadata.passage_id": passage_ids}})
+
         body = {
-            "query": {
-                "bool": {
-                    "must": [
-                        {"match": {"id": passage_id}},
-                        {"match": {"dataset_key": dataset_key}},
-                    ]
-                }
-            },
+            "query": {"bool": {"must": must}},
         }
 
         response = self.client.count(index=self.index_name, body=body)
 
@@ -105,10 +105,10 @@ def insert_many_with_vectors(self, passages: List[Tuple[Passage, List[float]]]):
             collection_name=self.collection_name, wait=True, points=points
         )
 
-    def find(self, query: str, dataset_key: str) -> Result:
+    def find(self, query: str, dataset_key: str, size: int = 10) -> Result:
         full_query = query
         hash_key = get_prompt_hash(
-            self.model_name, dataset_key, full_query, self.distance
+            self.model_name, dataset_key, full_query, self.distance, size
         )
 
         cached_value = self.cache.get(hash_key)
@@ -123,7 +123,7 @@ def find(self, query: str, dataset_key: str) -> Result:
         data = self.qdrant.search(
             collection_name=self.collection_name,
             query_vector=vector,
-            limit=10,
+            limit=size,
             query_filter=models.Filter(
                 must=[
                     models.FieldCondition(
 
@@ -114,10 +114,10 @@ def insert_many_with_vectors(self, passages: List[Tuple[Passage, List[float]]]):
             collection_name=self.collection_name, wait=True, points=points
         )
 
-    def find(self, query: str, dataset_key: str) -> Result:
+    def find(self, query: str, dataset_key: str, size: int = 10) -> Result:
         full_query = get_query_with_prefix(query, self.query_prefix)
         hash_key = get_prompt_hash(
-            self.model_name, dataset_key, full_query, self.distance
+            self.model_name, dataset_key, full_query, self.distance, size
         )
 
         cached_value = self.cache.get(hash_key)
@@ -132,7 +132,7 @@ def find(self, query: str, dataset_key: str) -> Result:
         data = self.qdrant.search(
             collection_name=self.collection_name,
             query_vector=vector,
-            limit=10,
+            limit=size,
             query_filter=models.Filter(
                 must=[
                     models.FieldCondition(
 
@@ -13,10 +13,12 @@ def __init__(
         self.dataset_key = dataset_key
         self.reranker = reranker
 
-    def get_relevant_passages(self, query: str) -> Result:
-        result = self.repository.find(query, self.dataset_key)
+    def get_relevant_passages(self, query: str, size: int = 10) -> Result:
+        docs_size = size * 2 if self.reranker else size
+
+        result = self.repository.find(query, self.dataset_key, docs_size)
 
         if self.reranker:
-            result = self.reranker.rerank(result, 10, self.dataset_key)
+            result = self.reranker.rerank(result, size, self.dataset_key)
 
         return result
@@ -16,10 +16,12 @@ def __init__(
         self.dataset_key = dataset_key
         self.reranker = reranker
 
-    def get_relevant_passages(self, query: str) -> Result:
-        result = self.repository.find(query, self.dataset_key)
+    def get_relevant_passages(self, query: str, size: int = 10) -> Result:
+        docs_size = size * 2 if self.reranker else size
+
+        result = self.repository.find(query, self.dataset_key, docs_size)
 
         if self.reranker:
-            result = self.reranker.rerank(result, 10, self.dataset_key)
+            result = self.reranker.rerank(result, size, self.dataset_key)
 
         return result
Original file line number	Diff line number	Diff line change
`@@ -17,6 +17,13 @@`
`17`	`17`	`},`
`18`	`18`	`"dataset_key": {`
`19`	`19`	`"type": "keyword"`
	`20`	`+ },`
	`21`	`+ "metadata": {`
	`22`	`+ "properties": {`
	`23`	`+ "passage_id": {`
	`24`	`+ "type": "keyword"`
	`25`	`+ }`
	`26`	`+ }`
`20`	`27`	`}`
`21`	`28`	`}`
`22`	`29`	`}`
Original file line number	Diff line number	Diff line change
`@@ -38,6 +38,13 @@`
`38`	`38`	`},`
`39`	`39`	`"dataset_key": {`
`40`	`40`	`"type": "keyword"`
	`41`	`+ },`
	`42`	`+ "metadata": {`
	`43`	`+ "properties": {`
	`44`	`+ "passage_id": {`
	`45`	`+ "type": "keyword"`
	`46`	`+ }`
	`47`	`+ }`
`41`	`48`	`}`
`42`	`49`	`}`
`43`	`50`	`}`
Original file line number	Diff line number	Diff line change
`@@ -31,6 +31,13 @@`
`31`	`31`	`},`
`32`	`32`	`"dataset_key": {`
`33`	`33`	`"type": "keyword"`
	`34`	`+ },`
	`35`	`+ "metadata": {`
	`36`	`+ "properties": {`
	`37`	`+ "passage_id": {`
	`38`	`+ "type": "keyword"`
	`39`	`+ }`
	`40`	`+ }`
`34`	`41`	`}`
`35`	`42`	`}`
`36`	`43`	`}`
Original file line number	Diff line number	Diff line change
`@@ -37,6 +37,13 @@`
`37`	`37`	`},`
`38`	`38`	`"dataset_key": {`
`39`	`39`	`"type": "keyword"`
	`40`	`+ },`
	`41`	`+ "metadata": {`
	`42`	`+ "properties": {`
	`43`	`+ "passage_id": {`
	`44`	`+ "type": "keyword"`
	`45`	`+ }`
	`46`	`+ }`
`40`	`47`	`}`
`41`	`48`	`}`
`42`	`49`	`}`