JKusio · Apr 8, 2024
diff --git a/‎06-LoadingDocumentsToVectoreStore.ipynb
+306 b/‎06-LoadingDocumentsToVectoreStore.ipynb
+306
diff --git a/‎07-RAG.ipynb
+214 b/‎07-RAG.ipynb
+214
diff --git a/‎docker-compose.yml
+9-1 b/‎docker-compose.yml
+9-1
diff --git a/‎requirements.txt
+9-2 b/‎requirements.txt
+9-2
@@ -0,0 +1,214 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Load embedding model"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 1,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from langchain.embeddings import HuggingFaceEmbeddings\n",
+    "\n",
+    "EMBEDDING_MODEL_NAME = \"sdadas/mmlw-retrieval-roberta-large\"\n",
+    "\n",
+    "embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODEL_NAME)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 2,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from qdrant_client import QdrantClient\n",
+    "\n",
+    "collection_name = f\"poquad_{EMBEDDING_MODEL_NAME.replace('/', '_')}\"\n",
+    "client = QdrantClient(host='localhost', port=6333)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 3,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from langchain.vectorstores import Qdrant\n",
+    "\n",
+    "qdrant = Qdrant(\n",
+    "    client=client,\n",
+    "    collection_name=collection_name,\n",
+    "    embeddings=embeddings\n",
+    ")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 4,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "retriever = qdrant.as_retriever()"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 5,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from transformers import AutoModelForQuestionAnswering, AutoTokenizer\n",
+    "\n",
+    "model_name = './output/roberta-base-squad2-pl/checkpoint-8500'\n",
+    "\n",
+    "model = AutoModelForQuestionAnswering.from_pretrained(model_name)\n",
+    "tokenizer = AutoTokenizer.from_pretrained(model_name)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 6,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from transformers import pipeline\n",
+    "\n",
+    "nlp = pipeline('question-answering', model=model, tokenizer=tokenizer)"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 9,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "def get_context(query, k):\n",
+    "    results = retriever.get_relevant_documents(\n",
+    "        k=k,\n",
+    "        query=query,\n",
+    "        fetch_k=k*5,\n",
+    "    )\n",
+    "\n",
+    "    context = \"\"\n",
+    "\n",
+    "    for result in results:\n",
+    "        context += result.page_content + \" \"\n",
+    "        \n",
+    "\n",
+    "    return context"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 15,
+   "metadata": {},
+   "outputs": [
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "Od 2014 roku w Superpucharze, z inicjatywy prezesa PZPN Zbigniewa Bońka, nastąpiła zmiana, gdyż po 8 latach przerwy związek podjął na swoje barki organizację rozgrywek o Superpuchar. O trofeum walczyć będą Mistrz Polski oraz zdobywca Pucharu Polski sezonu zakończonego w roku rozgrywania Superpucharu. Tym samym powrócono do nazwy Superpuchar Polski. Mecz rozgrywany będzie na stadionie Mistrza Polski, na około tydzień przed startem nowego sezonu Ekstraklasy. W sytuacji, gdy ten sam klub sięgnie po mistrzostwo i Puchar Polski, jego rywalem w meczu o trofeum będzie finalista ostatniej edycji Pucharu Polski. Od 2014 roku w Superpucharze, z inicjatywy prezesa PZPN Zbigniewa Bońka, nastąpiła zmiana, gdyż po 8 latach przerwy związek podjął na swoje barki organizację rozgrywek o Superpuchar. O trofeum walczyć będą Mistrz Polski oraz zdobywca Pucharu Polski sezonu zakończonego w roku rozgrywania Superpucharu. Tym samym powrócono do nazwy Superpuchar Polski. Mecz rozgrywany będzie na stadionie Mistrza Polski, na około tydzień przed startem nowego sezonu Ekstraklasy. W sytuacji, gdy ten sam klub sięgnie po mistrzostwo i Puchar Polski, jego rywalem w meczu o trofeum będzie finalista ostatniej edycji Pucharu Polski. Ze względu na organizację Euro 2012 Superpuchar Ekstraklasy jak i cały sezon ligowy rozpoczął się nie jak dotychczas w lipcu, a w sierpniu. Jednocześnie nie potrafiono znaleźć obiektu w którym mógłby przyjąć piłkarzy i kibiców Legii Warszawa (Zdobywcy Pucharu Polski) i Śląska Wrocław (Mistrza Polski). Zdecydowano ostatecznie że mecz o Superpuchar Polski odbędzie się na stadionie przy ulicy Łazienkowskiej w Warszawie. Organizacja meczu na stadionie Legii została skrytykowana przez kibiców obu drużyn, przez co większość kibiców postanowiła zbojkotować to spotkanie, przez co na meczu zjawiło się zaledwie 5000 widzów. 12 sierpnia 2012 na Stadionie Wojska Polskiego Legia która była W fazie play-off uprawnieni do występu będą zwycięzcy każdej z czterech grup w każdej z lig A, B, C, D. Jeżeli zwycięzca danej grupy w którejkolwiek z lig zakwalifikuje się do Mistrzostw Europy podczas tradycyjnych eliminacji, prawo do udziału w fazie play-off przechodzi na kolejną drużynę w danej lidze według rankingu Ligi Narodów. Założenie UEFA jest takie, aby o cztery wolne miejsca rozegrać cztery turnieje eliminacyjne, które rozgrywane będą metodą pucharową: mecz półfinałowy oraz mecz finałowy. Tylko zwycięzca każdego z turniejów awansuje do Mistrzostw Europy 2020. Założono również, że w każdym z turniejów rywalizowałyby ze sobą drużyny z \n",
+      "{'score': 0.619749903678894, 'start': 985, 'end': 1012, 'answer': 'na stadionie Mistrza Polski'}\n"
+     ]
+    }
+   ],
+   "source": [
+    "question = \"Gdzie rozegrany zostanie pojedynek o Superpuchar?\"\n",
+    "context = get_context(question, 1)\n",
+    "\n",
+    "print(context)\n",
+    "\n",
+    "result = nlp(question=question, context=context)\n",
+    "\n",
+    "print(result)"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Evaluation"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 16,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from datasets import load_dataset\n",
+    "\n",
+    "poquad = load_dataset(\"clarin-pl/poquad\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 17,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "poquad_validation = poquad[\"validation\"]"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": 18,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import evaluate\n",
+    "\n",
+    "metric = evaluate.load(\"squad\")"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "from transformers import pipeline\n",
+    "\n",
+    "def get_predictions(eval_dataset, qa_pipeline):\n",
+    "    predictions = []\n",
+    "    for question, id in zip(eval_dataset[\"question\"], eval_dataset[\"context\"], eval_dataset[\"id\"]):\n",
+    "        context = get_context(question, 5)\n",
+    "        answer = qa_pipeline(question=question, context=context)\n",
+    "        prediction = {\n",
+    "            'id': id,\n",
+    "            'prediction_text': answer['answer']\n",
+    "        }\n",
+    "\n",
+    "        predictions.append(prediction)\n",
+    "\n",
+    "    return predictions"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "env",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 3
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython3",
+   "version": "3.12.2"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}
@@ -4,16 +4,24 @@ services:
     image: qdrant/qdrant
     ports:
       - 6333:6333
+      - 6334:6334
+    volumes:
+      - qdrant_data:/qdrant/storage
   elasticsearch:
     image: docker.elastic.co/elasticsearch/elasticsearch:8.12.2
     environment:
       - discovery.type=single-node
       - xpack.security.enabled=false
     ports:
       - 9200:9200
+    volumes:
+      - elasticsearch_data:/usr/share/elasticsearch/data
     command:
       - /bin/bash
       - -c
       - |
         bin/elasticsearch-plugin install analysis-stempel
-        bin/elasticsearch
+        bin/elasticsearch
+volumes:
+  qdrant_data:
+  elasticsearch_data:
@@ -5,10 +5,17 @@ torchaudio
 mlx # used for macos
 jupyterlab
 ipywidgets
-transformers==4.38.1
 datasets
 accelerate
 qdrant-client
 elasticsearch
 python-dotenv
-evaluate
+evaluate
+langchain
+sentence-transformers
+matplotlib
+optimum
+peft
+quanto
+git+https://github.com/huggingface/accelerate.git
+git+https://github.com/huggingface/transformers.git