트랜스포머 모델의 전처리 과정은 다음 단계로 구성될 수 있습니다:
1. 토큰화(Tokenization): 입력 문장을 작은 단위로 분할하여 토큰으로 나누는 과정입니다. 토큰화는 문장을 단어, 문자, 형태소 등의 토큰 단위로 분할하는 작업을 의미합니다.
2. 토큰 인덱싱(Token Indexing): 토큰화된 각 토큰에 고유한 정수 인덱스를 할당하는 작업입니다. 각 토큰은 사전(Vocabulary)에 등재되어 있는지 확인하고, 등재된 토큰에는 해당하는 인덱스 값을 부여합니다.
3. 토큰 패딩(Token Padding): 모델의 입력으로 사용할 시퀀스의 길이를 일정하게 맞추기 위해 짧은 시퀀스에 패딩 토큰을 추가하는 작업입니다. 패딩 토큰은 일반적으로 특정 값으로 채워진 토큰으로 사용되며, 모델은 패딩 토큰을 무시하고 실제 입력에만 주로 초점을 둡니다.
4. 위치 인코딩(Positional Encoding): 토큰의 상대적인 위치 정보를 모델에 전달하기 위해 위치 인코딩을 수행합니다. 위치 인코딩은 입력 시퀀스의 각 토큰에 대해 고유한 벡터를 생성하여 위치 정보를 포함한 임베딩을 제공합니다.
5. 임베딩(Embedding): 토큰에 대한 밀집된 벡터 표현인 임베딩을 생성합니다. 임베딩은 단어, 문자 또는 형태소와 같은 토큰을 고차원의 실수 벡터로 매핑합니다. 이러한 임베딩은 모델이 입력의 의미와 특징을 파악할 수 있도록 돕습니다.
6. 입력 마스킹(Input Masking): 패딩 토큰의 영향을 제거하기 위해 입력 마스킹을 수행합니다. 마스크는 패딩 토큰의 위치를 표시하는 바이너리 마스크로, 모델은 마스크된 위치의 입력을 무시합니다.
이러한 전처리 단계는 토크나이저와 임베딩 레이어를 통해 자동으로 수행될 수 있으며, 입력 데이터를 모델에 적절한 형식으로 전달할 수 있도록 준비합니다. 이후에는 전처리된 데이터를 트랜스포머 모델에 입력으로 제공하여 학습 및 예측을 수행합니다.