Spaces:

Simonc-44
/

API

Running

App Files Files Community

API / main.py

Simonc-44

Create main.py

8cd74d0 verified 23 days ago

raw

history blame

6.07 kB

	from fastapi import FastAPI, HTTPException, Header, Depends
	from pydantic import BaseModel
	import requests
	import os
	import json
	from typing import Optional, Dict

	app = FastAPI(title="CygnisAI Studio API")

	# --- CONFIGURATION ---
	# Token HF pour appeler les modèles (à configurer dans les Secrets du Space)
	HF_TOKEN = os.environ.get("HF_TOKEN")

	# Clé API statique pour sécuriser VOTRE API (à configurer dans les Secrets du Space)
	# Par défaut pour le test local :
	CYGNIS_API_KEY = os.environ.get("CYGNIS_API_KEY", "cgn_live_stable_demo_api_key_012345")

	# Mapping des modèles demandés vers les endpoints réels Hugging Face
	# Note: J'ai mappé vers les modèles réels les plus proches car Llama 4 / Gemma 3 n'existent pas encore publiquement.
	# Vous pourrez mettre à jour ces IDs dès leur sortie.
	MODELS = {
	"google/gemma-3-27b-it": "google/gemma-2-27b-it", # Fallback Gemma 2
	"openai/gpt-oss-120b": "meta-llama/Meta-Llama-3.1-70B-Instruct", # Fallback Llama 3.1 70B (puissant)
	"Qwen/Qwen3-VL-8B-Thinking": "Qwen/Qwen2-VL-7B-Instruct", # Fallback Qwen 2 VL
	"XiaomiMiMo/MiMo-V2-Flash": "Xiaomi/MIMO", # Fallback Xiaomi
	"deepseek-ai/DeepSeek-V3.2": "deepseek-ai/DeepSeek-V3", # Fallback V3
	"meta-llama/Llama-4-Scout-17B-16E-Instruct": "meta-llama/Meta-Llama-3.1-8B-Instruct", # Fallback Llama 3.1
	"nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-BF16": "nvidia/Llama-3.1-Nemotron-70B-Instruct-HF", # Fallback Nemotron
	"default": "meta-llama/Meta-Llama-3-8B-Instruct"
	}

	# URL de base du routeur d'inférence HF
	HF_INFERENCE_BASE = "https://router.huggingface.co/hf-inference/models"

	# --- SCHEMAS ---
	class ChatRequest(BaseModel):
	question: str
	model: Optional[str] = "default"
	system_prompt: Optional[str] = None
	temperature: Optional[float] = 0.7
	max_tokens: Optional[int] = 1024

	class ChatResponse(BaseModel):
	answer: str
	model_used: str
	sources: list = []

	# --- SECURITE ---
	async def verify_api_key(authorization: str = Header(None)):
	if not authorization:
	raise HTTPException(status_code=401, detail="Missing Authorization header")

	try:
	scheme, token = authorization.split()
	if scheme.lower() != 'bearer':
	raise HTTPException(status_code=401, detail="Invalid authentication scheme")

	if token != CYGNIS_API_KEY:
	raise HTTPException(status_code=403, detail="Invalid API Key")

	except ValueError:
	raise HTTPException(status_code=401, detail="Invalid authorization header format")

	# --- ENDPOINTS ---

	@app.get("/")
	def read_root():
	return {"status": "online", "service": "CygnisAI Studio API"}

	@app.post("/api/ask", response_model=ChatResponse)
	async def ask_model(req: ChatRequest, authorized: bool = Depends(verify_api_key)):
	if not HF_TOKEN:
	print("⚠️ WARNING: HF_TOKEN not set. Calls to HF will fail.")

	# 1. Sélection du modèle
	model_id = MODELS.get(req.model, MODELS["default"])
	api_url = f"{HF_INFERENCE_BASE}/{model_id}"

	print(f"🤖 Routing request to: {model_id}")

	# 2. Construction du prompt
	# On utilise le format standard chat template si possible, sinon raw text
	messages = []
	if req.system_prompt:
	messages.append({"role": "system", "content": req.system_prompt})
	messages.append({"role": "user", "content": req.question})

	payload = {
	"model": model_id,
	"messages": messages,
	"max_tokens": req.max_tokens,
	"temperature": req.temperature,
	"stream": False
	}

	headers = {
	"Authorization": f"Bearer {HF_TOKEN}",
	"Content-Type": "application/json"
	}

	try:
	# 3. Appel à Hugging Face (Endpoint compatible OpenAI)
	# Note: router.huggingface.co supporte souvent /v1/chat/completions
	# Si ça échoue, on tentera l'appel direct
	hf_chat_url = f"{HF_INFERENCE_BASE}/{model_id}/v1/chat/completions"

	response = requests.post(hf_chat_url, headers=headers, json=payload)

	# Fallback si le endpoint OpenAI n'est pas supporté pour ce modèle
	if response.status_code == 404:
	print("🔄 Fallback to standard inference API")
	# Pour l'API standard, on doit souvent envoyer une string unique
	# Ceci est une simplification, idéalement on utiliserait le tokenizer du modèle
	prompt_str = f"System: {req.system_prompt}\nUser: {req.question}\nAssistant:" if req.system_prompt else f"User: {req.question}\nAssistant:"

	payload_standard = {
	"inputs": prompt_str,
	"parameters": {
	"max_new_tokens": req.max_tokens,
	"temperature": req.temperature,
	"return_full_text": False
	}
	}
	response = requests.post(api_url, headers=headers, json=payload_standard)

	if response.status_code != 200:
	print(f"❌ HF Error ({response.status_code}): {response.text}")
	raise HTTPException(status_code=502, detail=f"Model provider error: {response.text}")

	data = response.json()

	# Parsing de la réponse (gère les deux formats possibles)
	answer = ""
	if "choices" in data and len(data["choices"]) > 0:
	answer = data["choices"][0]["message"]["content"]
	elif isinstance(data, list) and len(data) > 0 and "generated_text" in data[0]:
	answer = data[0]["generated_text"]
	elif "generated_text" in data:
	answer = data["generated_text"]
	else:
	answer = "Error: Could not parse model response."

	return {
	"answer": answer,
	"model_used": model_id,
	"sources": []
	}

	except Exception as e:
	print(f"❌ Internal Error: {str(e)}")
	raise HTTPException(status_code=500, detail=str(e))

	if __name__ == "__main__":
	import uvicorn
	uvicorn.run(app, host="0.0.0.0", port=7860)