Spaces:

somya-27-04-03
/

Text-Summarizer-Project

Sleeping

App Files Files Community

somya-27-04-03 commited on Jul 2

Commit

17404d5

verified ·

1 Parent(s): 0126981

Upload 2 files

Browse files

Files changed (2) hide show

app.py +144 -0
requirements.txt +12 -0

app.py ADDED Viewed

	@@ -0,0 +1,144 @@

+import gradio as gr
+import re
+import nltk
+import pdfplumber
+import docx
+import textstat
+from io import BytesIO
+from newspaper import Article
+from collections import Counter
+from transformers import pipeline
+nltk.download('punkt')
+# Load summarization models
+summarizers = {
+    "T5 (t5-small)": pipeline("summarization", model="t5-small"),
+    "BART (bart-large-cnn)": pipeline("summarization", model="facebook/bart-large-cnn"),
+    "Pegasus (xsum)": pipeline("summarization", model="google/pegasus-xsum")
+}
+# Load QA models
+qa_models = {
+    "DistilBERT QA": pipeline("question-answering", model="distilbert-base-uncased-distilled-squad"),
+    "BERT QA": pipeline("question-answering", model="deepset/bert-base-cased-squad2")
+}
+# Utility functions
+def extract_text_from_file(file):
+    if file is None:
+        return ""
+    name = file.name
+    ext = name.split('.')[-1]
+    if ext == 'txt':
+        return file.read().decode()
+    elif ext == 'pdf':
+        with pdfplumber.open(file) as pdf:
+            return "\n".join(page.extract_text() for page in pdf.pages if page.extract_text())
+    elif ext == 'docx':
+        doc = docx.Document(file)
+        return "\n".join([p.text for p in doc.paragraphs])
+    return ""
+def fetch_url_text(url):
+    article = Article(url)
+    article.download()
+    article.parse()
+    return article.text
+def get_keywords(text, n=5):
+    words = re.findall(r'\b\w{4,}\b', text.lower())
+    common = Counter(words).most_common(n)
+    return "; ".join(word for word, _ in common)
+def summarize_text(text, model_name, min_len, max_len, format_type):
+    summary_chunks = []
+    for i in range(0, len(text), 1024):
+        chunk = text[i:i+1024]
+        result = summarizers[model_name](chunk, max_length=max_len, min_length=min_len, do_sample=False)[0]['summary_text']
+        summary_chunks.append(result)
+    summary = " ".join(summary_chunks)
+    if format_type == "Bullet Points":
+        bullets = re.split(r'(?<=[.!?]) +', summary)
+        return "\n".join(f"• {point}" for point in bullets if point.strip())
+    return summary
+def qa_answers(text, questions, model_name):
+    model = qa_models[model_name]
+    answers = []
+    for q in questions.split('\n'):
+        if q.strip():
+            ans = model(question=q, context=text)
+            answers.append(f"{q}: {ans['answer']} (score: {ans['score']:.2f})")
+    return "\n".join(answers)
+def get_metrics(original, summary):
+    return {
+        'Input Word Count': len(original.split()),
+        'Summary Word Count': len(summary.split()),
+        'Compression Rate (%)': round(100 - (len(summary.split()) / len(original.split()) * 100), 2) if len(original.split()) else 0,
+        'Readability (Flesch)': textstat.flesch_reading_ease(summary) if summary else 0
+    }
+# Gradio main function
+def process_text(input_text, file, url, summarizer_model, qa_model, min_tokens, max_tokens, format_type, questions):
+    if file is not None:
+        text = extract_text_from_file(file)
+    elif url:
+        text = fetch_url_text(url)
+    else:
+        text = input_text
+    if not text:
+        return "No input provided.", "", "", "", ""
+    summary = summarize_text(text, summarizer_model, min_tokens, max_tokens, format_type)
+    keywords = get_keywords(text)
+    answers = qa_answers(text, questions, qa_model) if questions else "No questions provided."
+    metrics = get_metrics(text, summary)
+    metrics_str = f"""
+    Input Word Count: {metrics['Input Word Count']}
+    Summary Word Count: {metrics['Summary Word Count']}
+    Compression Rate: {metrics['Compression Rate (%)']}%
+    Readability Score (Flesch): {metrics['Readability (Flesch)']}
+    """
+    return summary, keywords, answers, metrics_str, text
+# Gradio interface
+with gr.Blocks() as demo:
+    gr.Markdown("# 📚 Advanced Text Summarizer & Q&A App\nUpload text/file/url, summarize, extract keywords, and ask questions.")
+    with gr.Row():
+        input_text = gr.Textbox(label="Paste Text Here", placeholder="Enter text...", lines=6)
+        file = gr.File(label="Upload File (.txt, .pdf, .docx)")
+        url = gr.Textbox(label="URL", placeholder="https://...")
+    with gr.Row():
+        summarizer_model = gr.Dropdown(choices=list(summarizers.keys()), value="BART (bart-large-cnn)", label="Summarizer Model")
+        qa_model = gr.Dropdown(choices=list(qa_models.keys()), value="DistilBERT QA", label="QA Model")
+    with gr.Row():
+        min_tokens = gr.Slider(5, 300, value=30, step=1, label="Min Tokens")
+        max_tokens = gr.Slider(50, 1024, value=120, step=1, label="Max Tokens")
+    format_type = gr.Radio(choices=['Paragraph', 'Bullet Points'], value='Paragraph', label="Output Format")
+    questions = gr.Textbox(label="Questions (one per line)", placeholder="Type questions...", lines=3)
+    process_btn = gr.Button("Process")
+    summary_out = gr.Textbox(label="Summarized Text", lines=6)
+    keywords_out = gr.Textbox(label="Top Keywords")
+    answers_out = gr.Textbox(label="QA Answers", lines=4)
+    metrics_out = gr.Textbox(label="Metrics")
+    original_out = gr.Textbox(label="Original Text", lines=6)
+    process_btn.click(
+        fn=process_text,
+        inputs=[input_text, file, url, summarizer_model, qa_model, min_tokens, max_tokens, format_type, questions],
+        outputs=[summary_out, keywords_out, answers_out, metrics_out, original_out]
+    )
+if __name__ == "__main__":
+    demo.launch()

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+gradio
+torch
+transformers
+nltk
+beautifulsoup4
+requests
+textstat
+PyPDF2
+pdfplumber
+python-docx
+newspaper3k
+lxml