◾Preprocessing

🔸전처리의 중요성

[Penedo, Guilherme, et al. "The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only.]

[Penedo, Guilherme, et al. "The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only.]

🔸Pipeline

image.png

🔻텍스트 전처리 종류

🔸전처리 도구

◾Tokenization

🔸토큰화 시 고려사항

  1. 구두점, 특수문자 등은 제외