벡터화(Vectorization)

벡터(Vector)란 크기와 방향을 갖는 양을 나타내는 수학적 개념으로, 일반적으로 숫자들의 배열 형태로 나타내집니다.

텍스트와, 이미지 같은 비정형 데이터는 일정한 형식이 없어서 그대로 사용하기 어렵습니다. 예를 들어, 텍스트 데이터는 단어와 문장 등으로 이루어져 있으며, 이미지 데이터는 픽셀 값으로 이루어져 있습니다. 이러한 비정형 데이터를 다루기 위해서는 숫자로 변환하는 과정이 필요합니다. 벡터는 이러한 변환 과정에서 매우 유용한 자료구조입니다.

벡터는 크기와 방향을 가진 숫자 배열로, 특정한 방향으로 가리키며, 크기는 해당 방향으로의 크기를 나타냅니다. 벡터를 사용하면 데이터를 수학적으로 다루기 용이해지며, 비교 및 분석이 쉬워집니다.

반면, 자연수와 같은 다른 숫자를 사용하면 비교나 분석이 어렵습니다. 예를 들어, 자연수로는 ‘고양이’와 ‘개’와 같은 단어를 비교하는 것이 어렵지만, 벡터화하면 이들을 수학적으로 비교할 수 있습니다. 따라서 비정형 데이터를 다룰 때는 벡터를 사용하는 것이 일반적입니다.

그냥 자연수 같은 숫자대신 벡터화 하는것이 어떤 장점이 있는 아직 이해가 안되시는 분들을 위해 조금더 설명해 보겠습니다.

자연수로 ‘고양이’와 ‘개’와 같은 단어를 비교한다고 가정해봅시다. 이때, ‘고양이’를 1, ‘개’를 2라는 자연수로 부여한다면, 이들은 서로 다른 값을 가지므로 ‘고양이’와 ‘개’가 서로 다른 단어임을 구별할 수 있을 것입니다. 그러나 이 방법으로는 단어 간의 관계나 유사도를 파악하는 것이 어렵습니다.

반면에 벡터로 ‘고양이’와 ‘개’와 같은 단어를 비교하는 것은 더욱 정교한 비교가 가능합니다. 예를 들어, ‘고양이’와 ‘개’라는 단어가 벡터 [0.2, 0.7, 0.1, 0.3]와 [0.8, 0.1, 0.9, 0.5]와 같은 형태로 표현된다고 가정해봅시다. 이때 벡터의 각 차원은 다른 의미를 가지며, 단어의 특성을 나타냅니다. 이렇게 벡터로 표현된 단어는 서로 유사한 특성을 가지는 단어들은 벡터 공간에서 가까이 위치하게 되며, 이를 기반으로 단어 간의 관계나 유사도를 파악할 수 있습니다. 예를 들어, 벡터로 표현된 단어 간의 유클리드 거리를 계산하면 두 단어 간의 거리를 계산할 수 있습니다. 또한, 벡터의 내적을 계산하여 단어 간의 유사도를 파악할 수도 있습니다. 이러한 방법으로 단어 간의 관계나 유사도를 파악하는 것이 가능해지며, 이를 기반으로 자연어 처리나 텍스트 분석 등 다양한 분야에서 유용하게 활용됩니다.

이렇게 머신러닝에서는 문장과 같은 비정형 데이터를 다루기 위해, 문자열을 숫자 배열 형태인 벡터로 변환하는 작업을 수행합니다. 이를 벡터화(Vectorization)라고 합니다.

예를 들어, “나는 고양이를 좋아합니다”라는 문장을 벡터화한다면, 단어들을 고유한 인덱스로 매핑한 뒤 해당 인덱스의 위치에 횟수 정보를 저장하는 방법을 사용할 수 있습니다. 따라서 “나는”은 인덱스 0, “고양이를”는 인덱스 1, “좋아합니다”는 인덱스 2와 매핑될 수 있습니다. 이렇게 되면, “나는 고양이를 좋아합니다”는 [1, 1, 1, 0, 0, …]과 같은 숫자 배열 형태로 변환됩니다. 이 숫자 배열은 기계학습 모델에서 처리할 수 있는 형태가 되며, 이를 기반으로 문장의 의미를 분석하고 예측할 수 있습니다.