Llama3 GGUF 모델 변환 시 훈련 데이터 손실 문제

문제: Llama.cpp에서 텍스트 토큰화 과정에 문제가 발생하여 훈련 데이터 손실과 잘못된 토큰 생성으로 이어질 수 있습니다. 특히 Llama 3 GGUF 모델을 변환하는 경우 이 문제가 자주 발생합니다.

영향:

가능한 원인:

BPE 토큰화 버그: llama.cpp 소스 코드의 BPE 토큰화 관련 버그가 문제를 일으킬 수 있습니다.
정밀도 차이: 훈련 시 사용된 정밀도와 변환 시 사용된 정밀도가 다르면 정보 손실로 이어질 수 있습니다.
토큰화 불일치: 모델 훈련 시 사용된 토큰화 방식과 llama.cpp에서 사용된 토큰화 방식이 다르면 잘못된 토큰 생성으로 이어질 수 있습니다.

해결 방법:

BPE 토큰화 수정: llama.cpp 소스 코드의 LLAMA_VOCAB_PRE_TYPE_LLAMA3 정의 부분에서 이전 정규 표현식을 새로운 정규 표현식으로 변경합니다.
HF 모델 변환: Unsloth를 사용하지 않고 변환 스크립트를 사용하여 Hugging Face 모델을 변환합니다.

추가 정보:

참고자료:

진행 상황:

댓글 남기기 댓글 취소