Spaces:

Rohit-Katkar2003
/

mobilellm-pro-api

Runtime error

Rohit-Katkar2003 commited on Oct 30

Commit

ca40ce9

verified ·

1 Parent(s): f2d493c

create app.py

Files changed (1) hide show

app.py ADDED Viewed

+from fastapi import FastAPI
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+app = FastAPI(title="MobileLLM-Pro API", description="Public API for MobileLLM-Pro")
+# Load model & tokenizer once at startup
+MODEL_PATH = "/app/model"
+print("🧠 Loading tokenizer and model...")
+tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_PATH,
+    torch_dtype=torch.float16,
+    low_cpu_mem_usage=True,
+    trust_remote_code=True
+)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model.to(device)
+model.eval()
+print(f"✅ Model loaded on {device}!")
+@app.get("/")
+def root():
+    return {"message": "MobileLLM-Pro API is running!"}
+@app.get("/generate")
+def generate(prompt: str, max_tokens: int = 50):
+    try:
+        inputs = tokenizer(prompt, return_tensors="pt").to(device)
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=max_tokens,
+            do_sample=True,
+            temperature=0.7,
+            pad_token_id=tokenizer.eos_token_id
+        )
+        result = tokenizer.decode(outputs[0], skip_special_tokens=True)
+        return {"input": prompt, "output": result}
+    except Exception as e:
+        return {"error": str(e)}