데이터셋

머신러닝에서 데이터셋은 자료구조의 하나로서, 학습 또는 테스트를 위한 데이터를 쉽게 다룰 수 있도록 구성된 형식적인 데이터 집합입니다. 데이터셋은 일반적으로 다음과 같은 요소로 구성됩니다.

  • 데이터 포인트 (Data point): 하나의 샘플을 의미하며, 학습에 사용될 입력과 출력을 포함합니다.
  • 특성 (Feature): 데이터 포인트의 속성을 나타내며, 벡터나 행렬 등의 형태로 표현됩니다.
  • 레이블 (Label): 데이터 포인트의 정답을 의미하며, 회귀 문제의 경우 실수값, 분류 문제의 경우 정수값 또는 원-핫 인코딩된 벡터 등으로 표현됩니다.

데이터셋은 크게 두 가지 종류로 나눌 수 있습니다.

  1. 훈련 데이터셋 (Training dataset): 학습을 위한 데이터셋으로, 모델의 가중치를 업데이트하기 위해 사용됩니다. 일반적으로 전체 데이터셋의 일부를 사용합니다.
  2. 검증 데이터셋 (Validation dataset): 학습 과정에서 모델의 성능을 평가하기 위해 사용됩니다. 일반적으로 전체 데이터셋에서 훈련 데이터셋을 제외한 일부를 사용합니다.

이 외에도 테스트 데이터셋과 실시간 데이터셋 등 다양한 종류의 데이터셋이 있습니다. 이러한 데이터셋을 효율적으로 다루기 위해 머신러닝 라이브러리에서는 데이터셋을 다루기 위한 다양한 자료구조와 함수들을 제공합니다. 예를 들어, TensorFlow에서는 tf.data.Dataset 클래스를 사용하여 데이터셋을 다룰 수 있습니다.