문장 경계를 기준으로 Chunking
-
챗 GPT 모델의 성능 향상을 위한 데이터 Chunking 전략AI&ML 2023. 7. 19. 00:17
챗 GPT 모델은 일반적으로 긴 입력을 처리하기에는 한계가 있으므로 데이터를 작은 "chunk"로 나누는 것이 좋습니다. 이를 통해 모델이 각 chunk를 개별적으로 처리할 수 있습니다. 아래에는 데이터 chunking을 위한 몇 가지 전략을 제시합니다. 고정 크기의 Chunking: 고정 크기의 Chunking은 입력 데이터를 일정한 크기의 chunk로 분할하는 전략입니다. 예를 들어, 입력 문장을 50개의 토큰으로 나눌 수 있습니다. 문장 경계를 기준으로 Chunking: 문장 경계를 인식하여 데이터를 분할하는 전략입니다. 마침표, 물음표, 느낌표 등의 문장 경계를 기준으로 문장을 분할합니다. 주제나 의도를 기준으로 Chunking: 데이터를 주제나 의도에 따라 분할하는 전략입니다. 대화 시나리오에서..