Spaces:

vydrking
/

test5

Sleeping

App Files Files Community

test5 / retriever.py

vydrking

Upload 18 files

2fc8dc5 verified 4 months ago

raw

history blame contribute delete

4.6 kB

	import os
	import json
	import numpy as np
	import faiss
	from typing import List, Dict
	from sentence_transformers import SentenceTransformer

	class Retriever:
	def __init__(self):
	self.model = None
	self.index = None
	self.meta = {}
	self.embeddings = None
	self._load_index()

	def _load_index(self):
	try:
	if os.path.exists('data/index/index.faiss') and os.path.exists('data/index/meta.json'):
	self.index = faiss.read_index('data/index/index.faiss')
	self.embeddings = np.load('data/index/embeddings.npy')

	with open('data/index/meta.json', 'r', encoding='utf-8') as f:
	self.meta = json.load(f)

	print('Индекс загружен из кэша')
	else:
	print('Индекс не найден, будет создан при первом использовании')
	except Exception as e:
	print(f'Ошибка загрузки индекса: {e}')

	def _load_model(self):
	if self.model is None:
	try:
	self.model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
	print('Модель эмбеддингов загружена')
	except Exception as e:
	print(f'Ошибка загрузки модели: {e}')
	raise

	def _build_index(self, courses: List[Dict]):
	if not courses:
	return

	self._load_model()

	texts = []
	meta_data = {}

	for i, course in enumerate(courses):
	text = f"{course.get('name', '')} {course.get('short_desc', '')}"
	text = text.lower().strip()

	if len(text) > 220:
	text = text[:220]

	texts.append(text)
	meta_data[i] = course.get('id', str(i))

	if not texts:
	return

	embeddings = self.model.encode(texts, convert_to_numpy=True, show_progress_bar=True)

	embeddings = embeddings.astype(np.float32)
	faiss.normalize_L2(embeddings)

	self.index = faiss.IndexFlatIP(embeddings.shape[1])
	self.index.add(embeddings)
	self.embeddings = embeddings
	self.meta = meta_data

	self._save_index()

	def _save_index(self):
	try:
	os.makedirs('data/index', exist_ok=True)

	faiss.write_index(self.index, 'data/index/index.faiss')
	np.save('data/index/embeddings.npy', self.embeddings)

	with open('data/index/meta.json', 'w', encoding='utf-8') as f:
	json.dump(self.meta, f, ensure_ascii=False, indent=2)

	print('Индекс сохранен')
	except Exception as e:
	print(f'Ошибка сохранения индекса: {e}')

	def retrieve(self, query: str, k: int = 6, threshold: float = 0.35) -> List[Dict]:
	if self.index is None:
	return []

	self._load_model()

	query_embedding = self.model.encode([query.lower().strip()], convert_to_numpy=True)
	query_embedding = query_embedding.astype(np.float32)
	faiss.normalize_L2(query_embedding)

	scores, indices = self.index.search(query_embedding, k)

	results = []
	for score, idx in zip(scores[0], indices[0]):
	if score >= threshold and idx in self.meta:
	course_id = self.meta[idx]
	results.append({
	'course_id': course_id,
	'score': float(score)
	})

	return results

	def build_or_load_index(self, courses: List[Dict] = None):
	if self.index is None and courses:
	print('Создание индекса...')
	self._build_index(courses)
	elif self.index is None:
	print('Индекс не найден и данные не предоставлены')

	def get_embedding_dim(self) -> int:
	if self.embeddings is not None:
	return self.embeddings.shape[1]
	return 0

	def get_index_size(self) -> int:
	if self.index is not None:
	return self.index.ntotal
	return 0