NonToxicGlazeAdvisor_Chat_with_Docs_Groq_Edition_1

Running

App Files Files Community

JBHF commited on Mar 18, 2024

Commit

60185cb

verified ·

1 Parent(s): 6daff1a

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -2

app.py CHANGED Viewed

@@ -55,8 +55,10 @@ st.write("---------------------------------")
 st.write("LIST OF ALL THE LOADED DOCUMENTS: ")
 st.write("")
-pdf_files = glob.glob("*.pdf")
-for file in pdf_files:
     st.write(file)
 st.write("---------------------------------")
@@ -121,6 +123,43 @@ if "vector" not in st.session_state:
     loader = PyPDFDirectoryLoader(path, glob="**/*.pdf")
     docs = loader.load()
     st.session_state.docs = docs
     st.session_state.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     st.session_state.documents = st.session_state.text_splitter.split_documents(st.session_state.docs)

 st.write("LIST OF ALL THE LOADED DOCUMENTS: ")
 st.write("")
+# pdf_files  = glob.glob("*.pdf")
+word_files = glob.glob("*.docx")
+# for file in pdf_files:
+for file in word_files:
     st.write(file)
 st.write("---------------------------------")
     loader = PyPDFDirectoryLoader(path, glob="**/*.pdf")
     docs = loader.load()
     st.session_state.docs = docs
+    # JB 18-03-2024:
+    # https://python.langchain.com/docs/integrations/document_loaders/
+    # MICROSOFT WORD:
+    # https://python.langchain.com/docs/integrations/document_loaders/microsoft_word
+    # 1 - Using Docx2txt
+    # Load .docx using Docx2txt into a document.
+    # %pip install --upgrade --quiet  docx2txt
+    # from langchain_community.document_loaders import Docx2txtLoader
+    # loader = Docx2txtLoader("example_data/fake.docx")
+    # data = loader.load()
+    # data
+    # [Document(page_content='Lorem ipsum dolor sit amet.', metadata={'source': 'example_data/fake.docx'})]
+    #
+    # 2A - Using Unstructured
+    # from langchain_community.document_loaders import UnstructuredWordDocumentLoader
+    # loader = UnstructuredWordDocumentLoader("example_data/fake.docx")
+    # data = loader.load()
+    # data
+    # [Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': 'fake.docx'}, lookup_index=0)]
+    #
+    # 2B - Retain Elements
+    # Under the hood, Unstructured creates different “elements” for different chunks of text.
+    # By default we combine those together, but you can easily keep that separation by specifying mode="elements".
+    # loader = UnstructuredWordDocumentLoader("example_data/fake.docx", mode="elements")
+    # data = loader.load()
+    # data[0]
+    # Document(page_content='Lorem ipsum dolor sit amet.', lookup_str='', metadata={'source': 'fake.docx', 'filename': 'fake.docx', 'category': 'Title'}, lookup_index=0)
+    #
+    # 2A - Using Unstructured
+    from langchain_community.document_loaders import UnstructuredWordDocumentLoader
+    loader = UnstructuredWordDocumentLoader(path, glob="**/*.docx")
+    docs = loader.load()
+    st.session_state.docs = docs
     st.session_state.text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     st.session_state.documents = st.session_state.text_splitter.split_documents(st.session_state.docs)