[SK TECH SUMMIT 2023] LLM 적용 방법인 RAG VS PEFT, Domain 적용 승자는?

foundation model : GPT, Llama 등 일반적인 자연어 task를 수행할 수 있는 모델
사내 적용시 챌린지 포인트 ( chatGPT 의 한계 )
- fine-tuning 가능은 하나 비용이 너무 크다
- hallucination 존재
- 한국어 사용의 한계
- 최신 데이터에 대한 대응에 한계
- 보안과 운영 문제 존재 → model에 대한 ownership을 갖기 어려움.
- 비용 문제

데이터

PEFT vs RAG로 검증(PoC)을 진행

HTML 데이터를 기반으로 본문텍스트를 위주로 텍스트를 추출, 표 데이터도 활용

html 텍스트와 table json 데이터를 사용하여 PEFT fine-tuning을 위한 QA 데이터셋을 구축

html 텍스트와 table 텍스트화 데이터를 사용하여 RAG를 위한 vector db 구축

데이터 증강 - PEFT

Instruction(QA)의 품질이 나쁜 데이터는 제거
특정 도메인(SK에선 상품)에 집중하여 instruction을 더 정교화
특정 도메인에 맞는 prompt를 개발하여 신규 Instruction 생성(증강) + 문장구조 및 문맥에 영향을 주지 않는 선에서 단어를 추가하는 방식으로 LLM 활용 증강

모델

한국어 특화 sLLM 모델들 고려

⇒ 결론적으로 KuLLM 사용