[SK TECH SUMMIT 2023] LLM 적용 방법인 RAG VS PEFT, Domain 적용 승자는?

image.png


데이터

image.png

HTML 데이터를 기반으로 본문텍스트를 위주로 텍스트를 추출, 표 데이터도 활용

image.png

html 텍스트와 table json 데이터를 사용하여 PEFT fine-tuning을 위한 QA 데이터셋을 구축

html 텍스트와 table 텍스트화 데이터를 사용하여 RAG를 위한 vector db 구축

데이터 증강 - PEFT

image.png

  1. Instruction(QA)의 품질이 나쁜 데이터는 제거
  2. 특정 도메인(SK에선 상품)에 집중하여 instruction을 더 정교화
  3. 특정 도메인에 맞는 prompt를 개발하여 신규 Instruction 생성(증강) + 문장구조 및 문맥에 영향을 주지 않는 선에서 단어를 추가하는 방식으로 LLM 활용 증강

모델

image.png