전처리 작업에서 null 값 처리 (결측치 처리)

null 값은 데이터에서 값이 존재하지 않는 상태를 나타냅니다. 이는 데이터가 제대로 수집되지 않았거나, 처리 과정에서 누락되었을 수 있습니다. null 값이 있는 데이터를 그대로 사용하게 되면 해당 데이터를 이용한 분석 결과가 왜곡되거나 신뢰성이 떨어지는 문제가 발생할 수 있습니다.

따라서, 데이터를 분석하거나 모델을 학습할 때, null 값이 존재하는 데이터는 분석의 대상이 되면 안되며, 해당 데이터를 삭제하거나 다른 값으로 대체해야 합니다.

예를 들어, 다음과 같은 상황에서 null 값이 발생할 수 있습니다.

  • 설문조사에서 일부 응답자가 특정 항목에 대해 답변하지 않은 경우
  • 온라인 쇼핑몰에서 고객이 결제 정보를 입력하지 않은 경우
  • 주식 거래 데이터에서 특정 일자에 거래가 이루어지지 않은 종목이 있는 경우

 

이러한 결측치가 있는 데이터를 그대로 사용하면 분석 결과에 오류가 생기거나 모델의 성능이 저하될 수 있습니다.

따라서 null 값은 처리해 주어야 합니다. 일반적으로는 다음과 같은 방법들이 사용됩니다.

  1. 삭제: 결측치가 포함된 데이터를 삭제하는 방법입니다. 이 방법은 결측치가 일부인 경우에는 유용할 수 있지만, 결측치가 많은 경우에는 분석 결과에 영향을 미칠 수 있으므로 주의해야 합니다.
  2. 대체: 결측치를 다른 값으로 대체하는 방법입니다. 예를 들어, 평균값, 중앙값, 최빈값 등을 사용할 수 있습니다. 이 방법은 결측치가 적은 경우에 유용합니다.
  3. 예측: 결측치를 다른 변수를 이용하여 예측하는 방법입니다. 이 방법은 결측치가 많은 경우에 유용합니다.

null 값은 예를 들어서, 고객 정보 데이터셋에서 나이(age)가 null인 경우, 해당 고객의 나이 정보가 없는 것을 의미합니다. 이 경우에는 대체 방법을 사용하여 결측치를 대체하거나, 예측 방법을 사용하여 해당 고객의 나이를 예측할 수 있습니다.