자료구조는 데이터를 효율적으로 저장하고, 검색하고, 수정하고, 삭제할 수 있도록 구성된 데이터 요소들의 집합과 그들 사이의 관계, 그리고 그에 적용 가능한 함수나 명령어들을 의미합니다. 즉, 프로그래밍에서 사용되는 데이터 요소들의 타입, 크기, 구성 등을 조직적으로 나열한 것입니다. 이를 통해 데이터를 관리하고 연산을 수행하는 데 있어서 시간과 공간의 효율성을 높일 수 있습니다. 머신러닝에서도 다양한 자료구조를 사용하여 데이터를 다루고, 분석하며, 모델을 학습하고 예측합니다.
자료구조는 우리 일상생활에서도 많이 사용되는 개념입니다. 예를 들어, 우리가 냉장고에 음식을 넣을 때, 그 음식들을 보관하기 위해 냉장고 안의 선반에 적절하게 정리하는 것이 자료구조를 적용하는 것과 유사합니다. 음식들은 각각의 종류, 유통기한, 크기 등에 따라 구분하여 정리하게 되며, 이를 통해 냉장고 안에서 음식을 찾고 꺼내는 것이 훨씬 더 효율적이고 쉬워지게 됩니다.
또 다른 예로, 우리가 책을 읽을 때, 책에 있는 내용을 이해하기 쉽게 만들기 위해 각각의 단락과 문장을 적절하게 구성하게 됩니다. 이러한 구성 방식은 자료구조에서 말하는 ‘리스트’나 ‘트리’와 유사합니다. 각각의 단락과 문장은 서로 연결되어 있으며, 이를 통해 책의 내용을 효과적으로 전달하고 읽는 사람들이 이해하기 쉽도록 하는 것입니다.
또 자료구조에 적용 가능한 함수나 명령어는 데이터를 처리하거나 조작하는 기능을 제공합니다. 예를 들어, 일상생활에서 사용하는 전화번호부를 생각해보면, 전화번호부는 이름과 전화번호로 구성된 데이터 요소들의 집합이며, 이 데이터 요소들은 검색, 수정, 삭제 등의 작업이 가능합니다.
여기서 전화번호부를 자료구조로 생각하면, 전화번호부에서 이름으로 전화번호를 검색하는 기능은 검색 함수로 구현할 수 있습니다. 또한, 새로운 전화번호를 추가하는 기능은 추가 함수로 구현할 수 있습니다. 그리고, 특정 전화번호를 삭제하는 기능은 삭제 함수로 구현할 수 있습니다. 이렇게 자료구조에 적용 가능한 함수나 명령어는 데이터 요소들을 보다 효율적으로 처리하고, 조작할 수 있도록 도와줍니다.
머신러닝에서 사용되는 자료 구조는 다음과 같습니다.
- 벡터 (Vector)
- 행렬 (Matrix)
- 텐서 (Tensor)
- 리스트 (List)
- 배열 (Array)
- 데이터프레임 (Dataframe)
- 시리즈 (Series)
- 그래프 (Graph)
- 힙 (Heap)
- 큐 (Queue)
- 스택 (Stack)
- 해시 테이블 (Hash Table)
- 트리 (Tree)
- 그래프 (Graph)
- 맵 (Map)
- 세트 (Set)
- 덱 (Deque)
- 딕셔너리 (Dictionary)
- 문자열 (String)
- 파일 (File)
- 스칼라 (Scalar)
- 데이터셋
머신러닝에서 사용되는 자료 구조로는 주로 이러한 것들이 있지만, 다양한 라이브러리와 프레임워크를 사용하면서 추가적인 자료 구조를 사용하기도 합니다. 따라서 상황에 따라서는 다른 자료 구조도 사용될 수 있습니다.