https://www.youtube.com/watch?v=NfQrRQmDrcc
⭐가 붙은 부분은 중요
RAG 프로세스 간단 설명
- Indexing : 전처리 작업으로 문서를 임베딩하고 백터 db에 저장하는 과정
- Retrieval & Generation : 서비스 단계에서 이뤄지는 작업
문서 전처리 단계
-
Document Loader : 문서 로드
-
Text Splitter : chunk를 나누는 분할 전략
-
Embedding : 임베딩
-
Vector Store : vector DB
-
Retrievers : vector DB 검색

각 단계에서 Langchain 내에 수많은 전략들이 있고 조합하면 3억개가 넘는다.<br>
현실적으로 모든 조합을 실험해 볼 수 없다.
Document Loader
- PDF 뿐만 아니라 excel, csv 형식의 파일도 취급할 수 있다.
- 각각의 Loader 클래스가 있고, ~~~Loader.load() 처럼 통합된 인터페이스를 갖고 있다.
- 이랬을 때의 장점은 여러 모델들을 테스트하기 쉽다는 것.
(테디노트는 PDF 형식을 많이 다뤄서 이번 영상도 해당 로더를 다룬다.)
- Document Loader 선택 시 고려사항
- 텍스트를 원형 그대로 잘 가져오는가? (한글, 특수문자 등)
- 메타데이터의 종류는 어떤 것인가? page 번호, (표, 차트, 이미지) 등의 좌표/속성 등을 잘 가져오는가? <br> Loader들 중 표, 차트, 이미지의 좌표를 제공하는 것도 있다.
- 문서를 읽는 속도는 얼마나 빠른가?
PDF Loader 추천
Document loaders | 🦜️🔗 LangChain
🔸 fitz