keras의 내장된 datasets

Keras는 딥 러닝 모델을 개발할 때 데이터셋을 준비하는 것이 매우 중요하다는 것을 인식하고 있습니다. 따라서 Keras는 기본적으로 사용자들이 쉽게 활용할 수 있는 몇 가지 대표적인 데이터셋을 내장하고 있습니다.

이러한 내장된 데이터셋은 딥 러닝 알고리즘 개발 및 테스트를 위해 사용될 수 있습니다. 또한 이러한 데이터셋을 사용하면 실제 문제와 비교적 유사한 가상 문제를 다룰 수 있으므로 딥 러닝 모델의 효과적인 훈련 및 성능 향상을 위한 기반을 제공합니다.

내장된 데이터셋을 활용하면 데이터 수집, 전처리 및 로딩 등의 불필요한 작업을 줄일 수 있으며, 쉽게 사용 가능한 예제 데이터를 통해 새로운 딥 러닝 모델 개발에 대한 진입 장벽을 낮출 수 있습니다. 이는 개발자들이 더 높은 수준의 추상화를 통해 딥 러닝 모델을 구축할 수 있도록 하여 생산성을 높이고 딥 러닝 기술의 보급과 발전을 촉진하는 데 기여합니다.

 

Keras는 다음과 같은 다양한 내장 데이터셋을 제공합니다.

  1. CIFAR10과 CIFAR100: 10개 또는 100개의 클래스로 구성된 32×32 크기의 컬러 이미지 데이터셋입니다. (https://www.cs.toronto.edu/~kriz/cifar.html)
  2. MNIST: 10개의 클래스로 구성된 28×28 흑백 손글씨 이미지 데이터셋입니다. (http://yann.lecun.com/exdb/mnist/)
  3. Fashion-MNIST: 10개의 클래스로 구성된 28×28 흑백 의류 이미지 데이터셋입니다. (https://github.com/zalandoresearch/fashion-mnist)
  4. IMDB: 영화 리뷰의 텍스트 데이터셋으로 긍정적인 리뷰와 부정적인 리뷰를 구분하는 이진 분류 문제입니다. (https://ai.stanford.edu/~amaas/data/sentiment/)
  5. Reuters: 뉴스 기사의 텍스트 데이터셋으로 46개의 클래스로 구성된 다중 분류 문제입니다. (https://archive.ics.uci.edu/ml/datasets/reuters-21578+text+categorization+collection)
  6. Boston Housing: 보스턴의 주택 가격과 주택 가격에 영향을 미치는 여러 가지 요소들의 데이터셋입니다. (https://archive.ics.uci.edu/ml/datasets/Housing)
  7. MNIST Fashion: 패션 이미지를 10개의 클래스로 분류하는 데이터셋입니다. (https://github.com/zalandoresearch/fashion-mnist)

이 외에도 Keras는 다양한 외부 데이터셋을 불러오고 활용할 수 있도록 API를 제공합니다.