이 개념은 샵투스쿨의 “트랜스포머 모델로 GPT만들기” 학습 중 수강생분들이 더 자세히 알고 싶어하시는 용어들을 설명한 것입니다.
`logits`는 모델의 출력값으로, 다음 토큰을 예측하기 위해 각 토큰에 대한 점수 또는 확률을 나타내는 값입니다. 로짓은 일반적으로 소프트맥스 함수를 거치기 전의 값이며, 토큰의 예측 확률을 나타내는 확률 분포로 변환되기 전의 상대적인 스칼라 값입니다.
일반적으로 로짓 값은 모델의 출력 레이어의 결과로 얻어지며, 각 토큰에 대한 점수 또는 확률을 나타내는 벡터 형태일 수도 있습니다. 이 값은 모델이 학습을 통해 입력 시퀀스와 관련하여 다음 토큰의 예측을 수행한 결과입니다.
예를 들어, 언어 모델에서 로짓 값은 주어진 이전 토큰들을 기반으로 다음 토큰을 예측하기 위해 계산됩니다. 각 토큰은 해당 위치에서의 예측 확률 또는 점수로 나타내어질 수 있습니다. 이를 통해 모델은 가능한 다음 토큰을 예측하고, 문장을 생성하거나 다음 단어를 선택하는 등의 작업을 수행할 수 있습니다.
따라서, `logits`는 모델의 출력값으로, 토큰 예측에 대한 점수 또는 확률을 나타내는 값입니다.
로짓은 일반적으로 소프트맥스 함수를 거치는 이유는 토큰의 예측 확률을 얻기 위해서입니다.
로짓은 원래 선형 공간에서 토큰에 대한 점수나 확률을 나타내는 값입니다. 그러나 이러한 로짓 값은 범위에 제한이 없으며, 직접적으로 해석하기가 어렵습니다. 따라서, 로짓 값을 확률로 변환하여 토큰 예측을 더 직관적이고 해석하기 쉽게 만들기 위해 소프트맥스 함수를 사용합니다.
소프트맥스 함수는 로짓 값을 입력으로 받아 해당 값들을 0과 1 사이의 확률로 변환합니다. 이 함수는 각 로짓 값을 모든 로짓 값의 합으로 나누어 확률 분포를 생성합니다. 결과적으로, 소프트맥스 함수를 거친 확률 분포에서 각 토큰은 해당 토큰이 다음에 올 확률을 나타내는 값을 가지게 됩니다.
소프트맥스 함수를 사용하여 로짓 값을 확률로 변환하면, 예측 결과를 더 쉽게 이해하고 해석할 수 있습니다. 또한, 확률 분포를 통해 모델이 다양한 토큰을 고려하고 선택할 수 있도록 하여 문장 생성이나 다음 단어 예측과 같은 작업에서 다양성을 제공할 수 있습니다.
따라서, 소프트맥스 함수를 거치는 것은 로짓 값을 토큰 예측에 대한 확률 분포로 변환하여 예측 결과를 해석하기 쉽고 다양성을 제공하기 위한 것입니다.