머신러닝의 자료 구조

자료구조는 데이터를 효율적으로 저장하고, 검색하고, 수정하고, 삭제할 수 있도록 구성된 데이터 요소들의 집합과 그들 사이의 관계, 그리고 그에 적용 가능한 함수나 명령어들을 의미합니다. 즉, 프로그래밍에서 사용되는 데이터 요소들의 타입, 크기, 구성 등을 조직적으로 나열한 것입니다. 이를 통해 데이터를 관리하고 연산을 수행하는 데 있어서 시간과 공간의 효율성을 높일 수 있습니다. 머신러닝에서도 다양한 자료구조를 사용하여 데이터를 다루고, 분석하며, 모델을 학습하고 예측합니다.

자료구조는 우리 일상생활에서도 많이 사용되는 개념입니다. 예를 들어, 우리가 냉장고에 음식을 넣을 때, 그 음식들을 보관하기 위해 냉장고 안의 선반에 적절하게 정리하는 것이 자료구조를 적용하는 것과 유사합니다. 음식들은 각각의 종류, 유통기한, 크기 등에 따라 구분하여 정리하게 되며, 이를 통해 냉장고 안에서 음식을 찾고 꺼내는 것이 훨씬 더 효율적이고 쉬워지게 됩니다.

또 다른 예로, 우리가 책을 읽을 때, 책에 있는 내용을 이해하기 쉽게 만들기 위해 각각의 단락과 문장을 적절하게 구성하게 됩니다. 이러한 구성 방식은 자료구조에서 말하는 ‘리스트’나 ‘트리’와 유사합니다. 각각의 단락과 문장은 서로 연결되어 있으며, 이를 통해 책의 내용을 효과적으로 전달하고 읽는 사람들이 이해하기 쉽도록 하는 것입니다.
또 자료구조에 적용 가능한 함수나 명령어는 데이터를 처리하거나 조작하는 기능을 제공합니다. 예를 들어, 일상생활에서 사용하는 전화번호부를 생각해보면, 전화번호부는 이름과 전화번호로 구성된 데이터 요소들의 집합이며, 이 데이터 요소들은 검색, 수정, 삭제 등의 작업이 가능합니다.

여기서 전화번호부를 자료구조로 생각하면, 전화번호부에서 이름으로 전화번호를 검색하는 기능은 검색 함수로 구현할 수 있습니다. 또한, 새로운 전화번호를 추가하는 기능은 추가 함수로 구현할 수 있습니다. 그리고, 특정 전화번호를 삭제하는 기능은 삭제 함수로 구현할 수 있습니다. 이렇게 자료구조에 적용 가능한 함수나 명령어는 데이터 요소들을 보다 효율적으로 처리하고, 조작할 수 있도록 도와줍니다.

 

머신러닝에서 사용되는 자료 구조는 다음과 같습니다.

  1. 벡터 (Vector)
  2. 행렬 (Matrix)
  3. 텐서 (Tensor)
  4. 리스트 (List)
  5. 배열 (Array)
  6. 데이터프레임 (Dataframe)
  7. 시리즈 (Series)
  8. 그래프 (Graph)
  9. 힙 (Heap)
  10. 큐 (Queue)
  11. 스택 (Stack)
  12. 해시 테이블 (Hash Table)
  13. 트리 (Tree)
  14. 그래프 (Graph)
  15. 맵 (Map)
  16. 세트 (Set)
  17. 덱 (Deque)
  18. 딕셔너리 (Dictionary)
  19. 문자열 (String)
  20. 파일 (File)
  21. 스칼라 (Scalar)
  22. 데이터셋

머신러닝에서 사용되는 자료 구조로는 주로 이러한 것들이 있지만, 다양한 라이브러리와 프레임워크를 사용하면서 추가적인 자료 구조를 사용하기도 합니다. 따라서 상황에 따라서는 다른 자료 구조도 사용될 수 있습니다.

머신러닝과 딥러닝의 차이

머신러닝(Machine Learning)은 컴퓨터 시스템이 데이터를 기반으로 패턴을 학습하여 예측을 수행하는 알고리즘의 일종입니다. 즉, 인간이 수동으로 작성한 규칙을 프로그램으로 구현하는 것이 아니라, 데이터를 바탕으로 자동으로 패턴을 학습하여 예측하는 방법입니다. 머신러닝은 주로 지도학습, 비지도학습, 강화학습으로 분류됩니다.
대표적인 머신러닝 알고리즘으로는 로지스틱 회귀, SVM, 결정 트리, 랜덤 포레스트 등이 있습니다.

반면에 딥러닝(Deep Learning)은 인공신경망(Artificial Neural Network)을 이용하여 머신러닝의 일종으로, 높은 수준의 추상화를 통해 데이터로부터 의미있는 정보를 추출하는 방법입니다. 딥러닝은 인간의 뇌가 작동하는 방식에서 영감을 받은 모델로, 다층 인공신경망을 이용하여 입력 데이터를 다량의 은닉층을 거쳐 변환하고, 이를 통해 높은 수준의 추상화된 표현을 학습합니다. 딥러닝은 이미지, 음성, 자연어처리 분야에서 매우 높은 성능을 보이고 있습니다.
대표적인 딥러닝 모델로는 CNN, RNN, LSTM, GAN 등이 있습니다.

딥러닝은 머신러닝의 한 분야이며, 머신러닝 알고리즘 중에서도 인공신경망과 같은 알고리즘을 이용합니다. 딥러닝은 매우 복잡하고 깊은 구조의 모델을 사용하여 머신러닝보다 더 정교한 분석을 수행할 수 있습니다. 하지만 이에 대한 비용이 더 많이 들어가며, 더 많은 데이터와 컴퓨팅 파워가 필요합니다. 또한, 딥러닝 모델의 설계와 학습 방법은 머신러닝보다 더욱 복잡합니다.

벡터화(Vectorization)

벡터(Vector)란 크기와 방향을 갖는 양을 나타내는 수학적 개념으로, 일반적으로 숫자들의 배열 형태로 나타내집니다.

텍스트와, 이미지 같은 비정형 데이터는 일정한 형식이 없어서 그대로 사용하기 어렵습니다. 예를 들어, 텍스트 데이터는 단어와 문장 등으로 이루어져 있으며, 이미지 데이터는 픽셀 값으로 이루어져 있습니다. 이러한 비정형 데이터를 다루기 위해서는 숫자로 변환하는 과정이 필요합니다. 벡터는 이러한 변환 과정에서 매우 유용한 자료구조입니다.

벡터는 크기와 방향을 가진 숫자 배열로, 특정한 방향으로 가리키며, 크기는 해당 방향으로의 크기를 나타냅니다. 벡터를 사용하면 데이터를 수학적으로 다루기 용이해지며, 비교 및 분석이 쉬워집니다.

반면, 자연수와 같은 다른 숫자를 사용하면 비교나 분석이 어렵습니다. 예를 들어, 자연수로는 ‘고양이’와 ‘개’와 같은 단어를 비교하는 것이 어렵지만, 벡터화하면 이들을 수학적으로 비교할 수 있습니다. 따라서 비정형 데이터를 다룰 때는 벡터를 사용하는 것이 일반적입니다.

그냥 자연수 같은 숫자대신 벡터화 하는것이 어떤 장점이 있는 아직 이해가 안되시는 분들을 위해 조금더 설명해 보겠습니다.

자연수로 ‘고양이’와 ‘개’와 같은 단어를 비교한다고 가정해봅시다. 이때, ‘고양이’를 1, ‘개’를 2라는 자연수로 부여한다면, 이들은 서로 다른 값을 가지므로 ‘고양이’와 ‘개’가 서로 다른 단어임을 구별할 수 있을 것입니다. 그러나 이 방법으로는 단어 간의 관계나 유사도를 파악하는 것이 어렵습니다.

반면에 벡터로 ‘고양이’와 ‘개’와 같은 단어를 비교하는 것은 더욱 정교한 비교가 가능합니다. 예를 들어, ‘고양이’와 ‘개’라는 단어가 벡터 [0.2, 0.7, 0.1, 0.3]와 [0.8, 0.1, 0.9, 0.5]와 같은 형태로 표현된다고 가정해봅시다. 이때 벡터의 각 차원은 다른 의미를 가지며, 단어의 특성을 나타냅니다. 이렇게 벡터로 표현된 단어는 서로 유사한 특성을 가지는 단어들은 벡터 공간에서 가까이 위치하게 되며, 이를 기반으로 단어 간의 관계나 유사도를 파악할 수 있습니다. 예를 들어, 벡터로 표현된 단어 간의 유클리드 거리를 계산하면 두 단어 간의 거리를 계산할 수 있습니다. 또한, 벡터의 내적을 계산하여 단어 간의 유사도를 파악할 수도 있습니다. 이러한 방법으로 단어 간의 관계나 유사도를 파악하는 것이 가능해지며, 이를 기반으로 자연어 처리나 텍스트 분석 등 다양한 분야에서 유용하게 활용됩니다.

이렇게 머신러닝에서는 문장과 같은 비정형 데이터를 다루기 위해, 문자열을 숫자 배열 형태인 벡터로 변환하는 작업을 수행합니다. 이를 벡터화(Vectorization)라고 합니다.

예를 들어, “나는 고양이를 좋아합니다”라는 문장을 벡터화한다면, 단어들을 고유한 인덱스로 매핑한 뒤 해당 인덱스의 위치에 횟수 정보를 저장하는 방법을 사용할 수 있습니다. 따라서 “나는”은 인덱스 0, “고양이를”는 인덱스 1, “좋아합니다”는 인덱스 2와 매핑될 수 있습니다. 이렇게 되면, “나는 고양이를 좋아합니다”는 [1, 1, 1, 0, 0, …]과 같은 숫자 배열 형태로 변환됩니다. 이 숫자 배열은 기계학습 모델에서 처리할 수 있는 형태가 되며, 이를 기반으로 문장의 의미를 분석하고 예측할 수 있습니다.

선형 모델(Linear Model)

선형 모델(Linear Model)은 입력 변수(feature)와 가중치(weight)들 간의 선형 조합(linear combination)으로 출력 변수(target)를 예측하는 모델을 말합니다. 즉, 입력 변수의 가중합과 편향(bias)을 계산하여 출력 변수를 예측합니다.

선형 모델은 다양한 머신 러닝 작업에 사용됩니다. 예를 들어, 회귀(regression) 문제에서는 입력 변수와 출력 변수 사이의 관계를 선형적으로 모델링하여 출력 변수의 값을 예측합니다. 분류(classification) 문제에서는 입력 변수와 출력 변수 사이의 결정 경계(decision boundary)를 선형으로 모델링하여 데이터를 분류합니다.

선형 모델에는 다양한 종류가 있습니다. 대표적으로는 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(Support Vector Machine), 선형 판별 분석(Linear Discriminant Analysis) 등이 있습니다.

쉬운 예로, 학생들의 수학 성적을 예측하는 모델을 생각해볼 수 있습니다. 이때 학생들의 공부시간, 출석률, 퀴즈 점수 등의 정보를 입력 변수로 사용하고, 이들의 가중합과 편향을 계산하여 최종 수학 성적을 예측하는 모델을 선형 모델로 구현할 수 있습니다.

코랩에서 실행되는 간단한 코드 예시는 다음과 같습니다.

실행하기 #선형 모델(Linear Model)

import numpy as np
from sklearn.linear_model import LinearRegression

# 입력 변수와 출력 변수 정의
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([[2], [4], [6], [8], [10]])

# 선형 회귀 모델 생성 및 학습
model = LinearRegression()
model.fit(X, y)

# 예측
y_pred = model.predict([[6]])
print(y_pred)

위 코드는 입력 변수 X와 출력 변수 y를 정의하고, 이들을 이용하여 선형 회귀 모델을 생성하고 학습시키는 예시입니다. 최종적으로 입력 변수 [[6]]을 이용하여 예측을 수행하고, 결과를 출력합니다.

가중치(Weight)

머신러닝에서의 가중치는 입력 변수의 영향력을 나타내는 값으로, 선형 모델의 경우 각 입력 변수마다 가중치가 부여되어 해당 변수가 출력에 미치는 영향을 나타내게 됩니다. 이 가중치 값은 모델이 학습하면서 데이터에 적합하게 조정되며, 최적화 과정에서는 가중치를 조정하여 모델의 예측 성능을 향상시킵니다.

간단한 예를 들면, 다음과 같이 입력 변수 x와 출력 변수 y의 관계가 있는 데이터가 있다고 가정해봅시다.

x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]

이 경우, y는 x에 대해 직선의 형태로 관계가 있다고 볼 수 있습니다. 이 관계식은 y = 2x로 나타낼 수 있으며, 여기에서 2는 x의 가중치입니다. 이 가중치는 모델이 학습하면서 최적화 과정에서 조정됩니다.

코드로 예를 들어보면, 다음과 같이 Numpy를 이용하여 간단한 선형 모델을 만들고 학습시킬 수 있습니다.

실행하기 #가중치(Weight)

import numpy as np

# 입력 변수 x와 출력 변수 y 정의
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

# 가중치 w 초기화
w = np.random.rand()

# 학습률과 최대 반복 횟수 설정
learning_rate = 0.01
max_iterations = 1000

# 경사 하강법으로 가중치 학습
for i in range(max_iterations):
    y_pred = w * x
    error = y - y_pred
    w = w + learning_rate * np.dot(x, error) / len(x)

# 학습된 가중치 출력
print(w)

이 코드는 입력 변수 x와 출력 변수 y를 정의하고, 초기 가중치 w를 무작위로 설정한 후 경사 하강법을 이용하여 가중치를 학습합니다. 최종적으로 학습된 가중치를 출력합니다.

수학에서의 기울기(Slope)와의 차이

편의상 수학시간에 많이 본 기울기 처럼 기억하면 되지만, 실제로 가중치(Weight)와 수학에서의 기울기(Slope)는 전혀 다른 개념입니다.

머신러닝에서의 가중치는 모델이 학습하는 과정에서 입력 변수에 대한 상대적인 중요도를 나타내는 값으로, 최적화 알고리즘을 사용하여 학습됩니다.

반면 수학에서의 기울기는 한 점에서의 함수 값의 변화량과 그 위치에서의 독립 변수의 변화량의 비율을 나타내는 값입니다. 함수의 기울기는 해당 점에서의 접선의 기울기를 말하며, 일반적으로 미분으로 구해집니다.

 

최적화 알고리즘

최적화 알고리즘은 모델의 예측값과 실제값의 차이를 최소화하는 가중치를 찾기 위해 사용됩니다. 다양한 최적화 알고리즘이 존재하지만, 대표적인 알고리즘들은 다음과 같습니다.

  1. 경사 하강법(Gradient Descent)
  2. 확률적 경사 하강법(Stochastic Gradient Descent)
  3. 미니 배치 경사 하강법(Mini-Batch Gradient Descent)
  4. 모멘텀(Momentum)
  5. 아다그라드(Adagrad)
  6. 아담(Adam)

경사 하강법은 비용 함수를 최소화하기 위해 가중치를 업데이트하는 방법으로, 가장 기본적인 최적화 알고리즘입니다. 확률적 경사 하강법은 경사 하강법의 변형으로, 매번 모든 데이터를 사용하지 않고 랜덤하게 선택된 데이터 하나씩을 사용하여 가중치를 업데이트합니다. 미니 배치 경사 하강법은 확률적 경사 하강법과 비슷하지만, 랜덤하게 선택된 일부 데이터를 미니 배치로 묶어서 사용합니다.

모멘텀은 이전에 업데이트된 가중치를 고려하여 새로운 가중치를 업데이트하는 방법입니다. 아다그라드는 학습률을 자동으로 조절하는 방법으로, 매개변수마다 다른 학습률을 적용하여 효과적인 학습을 도와줍니다. 아담은 모멘텀과 아다그라드를 결합한 알고리즘으로, 모멘텀과 아다그라드의 장점을 모두 가져와서 효과적인 학습을 돕습니다.

가중치 값은 학습 데이터에서 모델의 예측값과 실제값의 차이를 최소화하기 위해 최적화되므로, 학습 데이터와 관련된 가중치 값이며, 새로운 데이터에 대해서는 다시 최적화를 해야합니다. 이를테면, 학습한 모델이나 학습한 가중치를 그대로 사용하여 새로운 데이터에 대한 예측을 수행하는 것은 정확도가 떨어질 수 있습니다. 따라서 새로운 데이터에 대해서는 모델의 재학습이 필요합니다.

 

Logistic Regression

Logistic Regression은 로지스틱 함수를 사용하여 이진 분류(binary classification)를 수행하는 알고리즘입니다. 이 알고리즘은 입력 변수의 가중치 합을 로지스틱 함수에 넣어서 결과를 0과 1사이의 값으로 변환합니다. 이를 이진 분류에서 확률값으로 해석하여 예측하는 방식입니다.

이때 입력 변수의 가중치 합을 로지스틱 함수에 넣어서 확률값으로 변환하는데, 이 가중치는 입력 변수의 영향력을 나타내는 값입니다.

가중치 값은 일반적으로 최적화 알고리즘을 사용하여 계산됩니다. 최적화 알고리즘은 학습 데이터를 사용하여 모델의 예측값과 실제값의 차이를 최소화하는 가중치 값을 찾습니다. 이때 찾은 가중치 값은 모델의 학습 결과를 나타내는 것입니다.

예를 들어, 성별을 예측하는 문제를 생각해보겠습니다. 이 때, 입력 변수로는 나이, 키, 체중 등 여러 요인을 사용할 수 있습니다. 이러한 입력 변수들은 각각 가중치가 부여되어 로지스틱 함수에 적용됩니다. 로지스틱 함수의 출력값은 0과 1사이의 값으로 변환되며, 이를 성별에 대한 확률값으로 해석할 수 있습니다. 예를 들어, 로지스틱 함수의 출력값이 0.7이면, 해당 개체가 여성일 확률이 70%라는 것을 의미합니다. 따라서, 이 알고리즘은 이진 분류에서 예측 결과를 확률값으로 출력하므로, 분류 문제에서 매우 효과적으로 사용됩니다.

좀 더 쉬운 예를 들어보면, 로지스틱 회귀는 예를 들어 누군가의 공부 시간에 따라서 시험 합격 여부를 예측하는 경우를 생각해볼 수 있습니다. 이 때 공부 시간이 입력 변수이고, 합격 여부가 출력 변수입니다. 로지스틱 회귀 모델은 입력 변수(공부 시간)의 가중치 합을 로지스틱 함수에 넣어서 결과를 0~1 사이의 값으로 출력하고, 이를 이진 분류에서 확률값으로 해석하여 예측합니다. 즉, 공부 시간이 많을수록 시험에 합격할 확률이 높아진다고 예측할 수 있습니다.

전처리 작업에서 null 값 처리 (결측치 처리)

null 값은 데이터에서 값이 존재하지 않는 상태를 나타냅니다. 이는 데이터가 제대로 수집되지 않았거나, 처리 과정에서 누락되었을 수 있습니다. null 값이 있는 데이터를 그대로 사용하게 되면 해당 데이터를 이용한 분석 결과가 왜곡되거나 신뢰성이 떨어지는 문제가 발생할 수 있습니다.

따라서, 데이터를 분석하거나 모델을 학습할 때, null 값이 존재하는 데이터는 분석의 대상이 되면 안되며, 해당 데이터를 삭제하거나 다른 값으로 대체해야 합니다.

예를 들어, 다음과 같은 상황에서 null 값이 발생할 수 있습니다.

  • 설문조사에서 일부 응답자가 특정 항목에 대해 답변하지 않은 경우
  • 온라인 쇼핑몰에서 고객이 결제 정보를 입력하지 않은 경우
  • 주식 거래 데이터에서 특정 일자에 거래가 이루어지지 않은 종목이 있는 경우

 

이러한 결측치가 있는 데이터를 그대로 사용하면 분석 결과에 오류가 생기거나 모델의 성능이 저하될 수 있습니다.

따라서 null 값은 처리해 주어야 합니다. 일반적으로는 다음과 같은 방법들이 사용됩니다.

  1. 삭제: 결측치가 포함된 데이터를 삭제하는 방법입니다. 이 방법은 결측치가 일부인 경우에는 유용할 수 있지만, 결측치가 많은 경우에는 분석 결과에 영향을 미칠 수 있으므로 주의해야 합니다.
  2. 대체: 결측치를 다른 값으로 대체하는 방법입니다. 예를 들어, 평균값, 중앙값, 최빈값 등을 사용할 수 있습니다. 이 방법은 결측치가 적은 경우에 유용합니다.
  3. 예측: 결측치를 다른 변수를 이용하여 예측하는 방법입니다. 이 방법은 결측치가 많은 경우에 유용합니다.

null 값은 예를 들어서, 고객 정보 데이터셋에서 나이(age)가 null인 경우, 해당 고객의 나이 정보가 없는 것을 의미합니다. 이 경우에는 대체 방법을 사용하여 결측치를 대체하거나, 예측 방법을 사용하여 해당 고객의 나이를 예측할 수 있습니다.

정규식(regular expression)

정규식(regular expression)은 특정한 패턴의 문자열을 표현하기 위한 문법입니다. 머신러닝에서도 텍스트 데이터를 다룰 때 정규식을 활용하여 데이터를 처리합니다. 텍스트 데이터를 처리할 때, 일관적인 패턴의 문자열을 추출해내는 등의 작업을 수행하기 위해 정규식을 사용합니다. 예를 들어, 이메일 주소를 추출할 때, 이메일의 패턴에 맞는 정규식을 사용하여 이메일 주소를 추출할 수 있습니다.

정규식 패턴을 만들 때는 다양한 메타문자(meta-character)를 사용합니다. 메타문자는 특정한 의미를 가지며, 이를 조합하여 패턴을 만들어냅니다. 예를 들어, ‘\d’는 숫자를 의미하며, ‘\w’는 알파벳 대소문자와 숫자를 의미합니다. 이 외에도 ‘^’는 문자열의 시작을 의미하며, ‘$’는 문자열의 끝을 의미합니다.

머신러닝에서는 CountVectorizer, TfidfVectorizer 등의 벡터화 기법에서도 정규식을 사용합니다. CountVectorizer의 경우, token_pattern 인자에 정규식을 지정하여, 문자열을 추출할 때 사용합니다. 예를 들어, token_pattern=r’\b\w+\b’는 알파벳 또는 숫자가 1개 이상인 문자열만 추출하여 단어로 사용합니다. 이렇게 추출한 단어들을 벡터화하여 머신러닝 모델의 입력으로 사용합니다.

r’\b\w+\b’는 정규식 패턴으로서, 단어를 추출할 때 고려되는 문자열의 패턴을 지정합니다. 이 패턴은 다음과 같이 구성됩니다.

  • \b : 단어 경계를 의미합니다. 즉, 단어의 시작과 끝을 나타냅니다.
  • \w+ : 알파벳 또는 숫자가 1개 이상인 문자열을 나타냅니다. 이 문자열은 단어로서 추출됩니다.
  • r 은 “raw string”의 약자로서, 문자열을 해석할 때 escape 문자(예: \n, \t 등)를 무시하고 그대로 해석하도록 지정하는 파이썬의 문자열 리터럴 접두어입니다. 이를 사용하면 문자열 안에서 역슬래시를 사용할 때 일반적인 문자열 리터럴보다 편리하게 사용할 수 있습니다.예를 들어, 일반적인 문자열 리터럴에서는 역슬래시를 사용하려면 두 번 써야 합니다. 예를 들어, “\n”은 줄바꿈 문자를 나타냅니다. 그러나 r 접두어를 사용하면 “\n” 대신에 r”\n”으로 사용할 수 있습니다. 이렇게 하면 역슬래시를 두 번 쓰는 것보다 코드를 더욱 간결하게 작성할 수 있습니다.

    따라서 r’\b\w+\b’는 “raw string”으로서, 백슬래시 문자를 특수문자로 해석하지 않고 문자열 그대로 해석하도록 하는 것을 의미합니다.

따라서 r’\b\w+\b’ 패턴을 적용하면, 알파벳 또는 숫자가 1개 이상인 문자열을 단어로서 추출할 수 있습니다.

예를 들어, 다음과 같은 문자열이 있다고 가정해보겠습니다.

string = "The quick brown fox jumps over the lazy dog. 12345"

이 문자열에서 CountVectorizer(token_pattern=r’\b\w+\b’)를 사용하면, 다음과 같은 단어들이 추출됩니다.

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '12345']

숫자는 단어로 인식되며, 구두점 등은 단어로 인식되지 않습니다.

NSMC(Naver Sentiment Movie Corpus) 데이터셋 이용 감성 분류(Sentiment Analysis) 문제 해결

실행 해 보기 (Corlab)

NSMC(Naver Sentiment Movie Corpus) 데이터셋은 20만 개의 영화 리뷰 데이터로 구성되어 있으며, 이를 바탕으로 긍정적인지, 부정적인지를 분류하는 감성 분류(Sentiment Analysis) 문제를 해결하는데 활용됩니다.

NSMC 데이터셋은 한글 데이터셋 중에서 가장 많이 사용되는 데이터셋 중 하나이며, 한국어 감성 분류 문제를 다루기 위한 대표적인 데이터셋으로 활용되고 있습니다. 이 데이터셋은 영화 리뷰에 대한 긍정/부정 정보를 레이블로 제공하고 있으며, 이를 학습 데이터로 활용하여 머신러닝 모델을 학습시킬 수 있습니다.

따라서 NSMC 데이터셋을 활용하면 한국어 감성 분류에 대한 다양한 연구나 분석을 수행할 수 있으며, 새로운 머신러닝 모델을 학습시키고 검증하는데에도 활용됩니다.

NSMC 데이터셋에서 train 데이터는 모델을 학습시킬 때 사용하는 원본 데이터이며, test 데이터는 학습된 모델의 성능을 평가하기 위해 사용하는 데이터로, 모델이 예측한 결과물과 실제 정답을 비교하여 모델의 성능을 측정합니다. 일반적으로 모델을 학습할 때 train 데이터와 test 데이터를 나누어서 사용하며, 모델의 성능이 일반화되고 테스트 데이터에 대해서도 잘 동작하는지 확인합니다.

https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt
NSMC 데이터셋의 경우, 각 영화 리뷰가 긍정(1)인지 부정(0)인지를 나타내는 레이블 데이터를 포함하고 있습니다. 이 레이블 데이터는 실제로 영화 리뷰를 작성한 사용자들이 부여한 점수를 기반으로 생성되었습니다. 예를 들어, 10점 만점에 8점 이상을 부여한 리뷰는 긍정(1)으로 분류되었고, 4점 이하를 부여한 리뷰는 부정(0)으로 분류되었습니다. 따라서 이 레이블 데이터는 사람이 임의로 만든 것이 아니라 실제 사용자들의 평가를 기반으로 생성된 것입니다.

https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt

ratings_test.txt 파일은 NSMC 데이터셋에서 제공하는 영화 리뷰 데이터 중에서 학습에 사용되지 않은 새로운 데이터로, 학습된 모델의 일반화 성능을 평가하기 위한 목적으로 제공됩니다. 따라서 해당 파일에 포함된 리뷰 데이터는 모두 실제로 존재하는 데이터이며, 해당 데이터에 대한 레이블(긍정/부정)을 예측하여 모델의 성능을 평가합니다.
예를 들어 데이터의 6270596 굳 ㅋ 1도 가상으로 만든 데이터가 아니며, 해당 리뷰는 실제로 존재하는 리뷰입니다. 이 리뷰에서는 “굳”이라는 축약어와 “ㅋ”이라는 이모티콘을 사용하여 긍정적인 평가를 전달하고 있으며, 해당 리뷰에 대한 레이블은 1(긍정)입니다.

NSMC 데이터셋을 이용하여 입력된 문장이 긍정인지 부정인지 판단하는 간단한 파이썬 코드는 다음과 같습니다. 이 코드는 train 데이터를 이용하여 CountVectorizer를 이용하여 단어장을 생성하고, 이를 이용하여 입력된 문장을 벡터화하여 Logistic Regression 모델을 이용하여 긍정/부정을 판단합니다.

 

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression

# 데이터 불러오기
train_data = pd.read_csv('ratings_train.txt', sep='\t', na_values='NaN')
test_data = pd.read_csv('ratings_test.txt', sep='\t', na_values='NaN')

# null 값 제거
train_data.dropna(inplace=True)
test_data.dropna(inplace=True)

# CountVectorizer를 이용하여 단어장 생성
vectorizer = CountVectorizer(token_pattern=r'\b\w+\b')
vectorizer.fit(train_data['document'])

# train 데이터를 이용하여 Logistic Regression 모델 생성
lr = LogisticRegression(max_iter=5000)
train_X = vectorizer.transform(train_data['document'])
train_y = train_data['label']
lr.fit(train_X, train_y)

# test 데이터를 이용하여 예측 수행
test_X = vectorizer.transform(test_data['document'])
pred_y = lr.predict(test_X)

# 사용자로부터 입력 받은 문장 예측 수행
user_input = input("영화 리뷰를 입력하세요: ")
input_X = vectorizer.transform([user_input])
result = lr.predict(input_X)

# 예측 결과 출력
if result[0] == 1:
    print("긍정적인 리뷰입니다.")
else:
    print("부정적인 리뷰입니다.")

코드 설명을 좀더 상세히 하겠습니다.

#CountVectorizer를 이용하여 단어장 생성 부분

vectorizer = CountVectorizer(token_pattern=r'\b\w+\b')
vectorizer.fit(train_data['document'])

CountVectorizer는 입력된 텍스트 데이터를 분석하여 단어장을 생성하는 역할을 합니다. 단어장이란, 분석된 텍스트 데이터에서 중복되지 않는 단어들의 집합을 의미합니다.  이때, 기본적으로는 공백을 기준으로 단어를 분리합니다.

ratings_train.txt 의 “3819312 흠…포스터보고 초딩영화줄….오버연기조차 가볍지 않구나 1 “를 이용해 설명해 보겠습니다.

위 코드에서는 train_data['document']의 텍스트 데이터를 이용하여 CountVectorizer를 통해 단어장을 생성하는 부분입니다.

이를 ratings_train.txt 파일의 텍스트 데이터인 ‘흠…포스터보고 초딩영화줄….오버연기조차 가볍지 않구나’로 대체해보면 다음과 같습니다.이를 실행하면 ‘흠’, ‘포스터보고’, ‘초딩영화줄’, ‘오버연기조차’, ‘가볍지’, ‘않구나’ 등의 단어가 단어장으로 생성됩니다. 이 단어장은 이후에 다른 텍스트 데이터에 대해서도 적용되어 해당 데이터를 벡터화하는 데 사용됩니다.

위에서 주어진 코드에서는 token_pattern=r'\b\w+\b' 옵션을 통해 정규식 패턴을 설정하여, 단어를 추출할 때는 알파벳 또는 숫자가 1개 이상인 문자열만 고려하도록 설정하였습니다. 따라서, “흠”, “포스터보고”, “초딩영화줄”, “오버연기조차”, “가볍지”, “않구나” 등의 단어가 추출됩니다.
이부분만 해 보겠습니다.
실행하기 (NSMC-1)

from sklearn.feature_extraction.text import CountVectorizer

# ratings_train.txt 파일에서 한 줄을 가져옴
text = '흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나'

# CountVectorizer를 이용하여 단어장 생성
vectorizer = CountVectorizer(token_pattern=r'\b\w+\b')
vectorizer.fit([text])

# 단어장에 생성된 단어 출력
print(vectorizer.get_feature_names())

CountVectorizer는 텍스트 데이터를 입력 받아 각 단어가 몇 번 나타나는지를 세어서 단어장(vocabulary)을 생성하는 도구입니다. 예를 들어, “흠”, “포스터보고”, “초딩영화줄”, “오버연기조차”, “가볍지”, “않구나” 등의 단어가 추출되면, 이 단어들을 단어장에 등록하고 각 단어에 인덱스를 부여합니다. 이후, 각 문장을 벡터화할 때는 각 단어가 해당 문장에서 몇 번 나타나는지를 세어서 각 단어의 인덱스에 해당하는 원소에 그 횟수를 넣어줍니다. 이렇게 벡터화하면, 각 문장은 단어의 빈도수로 이루어진 벡터로 표현됩니다.

벡터 정보의 해당 단어의 횟수 정보와 단어 내용 자체는 CountVectorizer에서 생성된 단어장(vocabulary)에 저장됩니다. CountVectorizer는 입력된 텍스트 데이터에서 단어를 추출하고, 추출한 단어들을 기반으로 단어장을 생성합니다. 이때, 각 단어는 고유한 인덱스 번호를 부여받습니다.

예를 들어, “초딩영화줄”과 “오버연기조차”가 추출되었고, 이들이 단어장에서 각각 0번과 1번의 인덱스를 부여받았다면, “초딩영화줄”이 3번, “오버연기조차”가 5번 등장한다면, 벡터 정보에서는 0번 인덱스에 해당하는 값이 3이 되고, 1번 인덱스에 해당하는 값이 5가 됩니다. 이렇게 벡터 정보와 단어 내용이 인덱스를 활용하여 연결되는 것입니다.

# train 데이터를 이용하여 Logistic Regression 모델 생성

lr = LogisticRegression(max_iter=5000)
train_X = vectorizer.transform(train_data['document'])
train_y = train_data['label']
lr.fit(train_X, train_y)

Logistic Regression은 통계학에서 개발된 분류 모델 중 하나로, 데이터를 분석하여 해당 데이터가 어떤 범주(class)에 속하는지를 예측하는 모델입니다. 이 모델은 입력 변수의 가중치 합을 로지스틱 함수(sigmoid function)에 넣어서 결과를 0~1사이의 값으로 출력하고, 이를 이진 분류(binary classification)에서 확률값으로 해석하여 예측합니다.

위의 코드에서는 sklearn 라이브러리의 LogisticRegression 클래스를 이용하여 Logistic Regression 모델을 생성합니다. 이를 위해 max_iter 매개변수를 5000으로 설정하여 최적화를 위한 최대 반복 횟수를 설정합니다. 이후, CountVectorizer 클래스로부터 생성된 단어장에서 transform 메소드를 이용하여 train 데이터의 문서들을 벡터 형태로 변환한 후, 이를 train_X 변수에 저장합니다. train_y 변수에는 train 데이터의 레이블을 저장합니다. 마지막으로, LogisticRegression 모델의 fit 메소드를 이용하여 train_X와 train_y를 이용하여 모델을 학습시킵니다.