Thi Notes
AboutNotesBlogTopicsToolsReading
About|Sketches |Cooking |Cafe icon Support Thi
🥃

Some notes when working with large volumes of documents in the RAG system

Some notes when working with large volumes of documents in the RAG system

Anh-Thi Dinh
draft
Azure
Data Engineering
API & Services
Backend
Generative AI
Git
⚠️
This is a quick & dirty draft, for me only!

Situations

  • A simple RAG system with 2 steps — extract text from the documents (also stored in the database); then chunking them, embedding and store in the database.
  • I have to handle a zip file weights ~15GB.
  • I have to handle a folder containing nested folders with 23K documents.
  • Documents

Notes

  1. Khi dùng SSH để chạy một lệnh, không nên kết nối thông qua session mở bằng azure cli mà nên mở bằng link trực tiếp trên trình duyệt (link trong Azure Portal. Session trên trình duyệt gần như tồn tại cùng với trình duyệt trong khi session tạo bởi azure sẽ bị timed out nhanh.
  1. Roun-trip connection issues.