RAG 우리가 절대 쉽게 결과물을 얻을 수 없는 이유 | Notion

https://www.youtube.com/watch?v=NfQrRQmDrcc

⭐가 붙은 부분은 중요

RAG 프로세스 간단 설명

Indexing : 전처리 작업으로 문서를 임베딩하고 백터 db에 저장하는 과정
Retrieval & Generation : 서비스 단계에서 이뤄지는 작업

문서 전처리 단계

Document Loader : 문서 로드
Text Splitter : chunk를 나누는 분할 전략
Embedding : 임베딩
Vector Store : vector DB
Retrievers : vector DB 검색

각 단계에서 Langchain 내에 수많은 전략들이 있고 조합하면 3억개가 넘는다.<br> 현실적으로 모든 조합을 실험해 볼 수 없다.

Document Loader

PDF 뿐만 아니라 excel, csv 형식의 파일도 취급할 수 있다.
- 각각의 Loader 클래스가 있고, ~~~Loader.load() 처럼 통합된 인터페이스를 갖고 있다.
- 이랬을 때의 장점은 여러 모델들을 테스트하기 쉽다는 것.

(테디노트는 PDF 형식을 많이 다뤄서 이번 영상도 해당 로더를 다룬다.)

Document Loader 선택 시 고려사항
- 텍스트를 원형 그대로 잘 가져오는가? (한글, 특수문자 등)
- 메타데이터의 종류는 어떤 것인가? page 번호, (표, 차트, 이미지) 등의 좌표/속성 등을 잘 가져오는가? <br> Loader들 중 표, 차트, 이미지의 좌표를 제공하는 것도 있다.
- 문서를 읽는 속도는 얼마나 빠른가?

PDF Loader 추천

Document loaders | 🦜️🔗 LangChain

🔸 fitz