웹사이트 검색

StandardScaler() 함수를 사용하여 Python 데이터 표준화


안녕하세요, 독자 여러분! 이 기사에서는 Python에서 가장 중요한 사전 처리 기술 중 하나인 StandardScaler() 함수를 사용한 표준화에 중점을 둘 것입니다.

그럼 시작하겠습니다!!

표준화의 필요성

표준화에 들어가기 전에 먼저 스케일링의 개념을 이해합시다.

피쳐 스케일링은 데이터 세트로 알고리즘을 모델링하는 데 필수적인 단계입니다. 일반적으로 모델링 목적으로 사용되는 데이터는 다음과 같은 다양한 수단을 통해 파생됩니다.

  • 설문지
  • 설문조사
  • 연구
  • 스크래핑 등

따라서 얻은 데이터에는 다양한 차원과 척도의 기능이 모두 포함되어 있습니다. 데이터 기능의 다른 척도는 데이터 세트의 모델링에 부정적인 영향을 미칩니다.

이는 오분류 오류 및 정확도 비율 측면에서 예측의 편향된 결과로 이어집니다. 따라서 모델링 전에 데이터를 스케일링해야 합니다.

표준화가 필요한 시점입니다.

표준화는 데이터의 통계 분포를 아래 형식으로 변환하여 데이터를 스케일링 없이 만드는 스케일링 기술입니다.

  • 평균 - 0(영)
  • 표준 편차 - 1

이를 통해 전체 데이터 세트는 모두 0 평균 및 단위 분산으로 확장됩니다.

이제 다음 섹션에서 표준화 개념을 구현해 보겠습니다.

Python sklearn StandardScaler() 함수

Python sklearn 라이브러리는 데이터 값을 표준 형식으로 표준화하는 StandardScaler() 함수를 제공합니다.

통사론:

object = StandardScaler()
object.fit_transform(data)

위 구문에 따라 처음에 StandardScaler() 함수의 개체를 만듭니다. 또한 할당된 개체와 함께 fit_transform()을 사용하여 데이터를 변환하고 표준화합니다.

참고: 표준화는 정규 분포를 따르는 데이터 값에만 적용할 수 있습니다.

StandardScaler() 함수로 데이터 표준화

아래 예를 살펴보십시오!

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
 
dataset = load_iris()
object= StandardScaler()
 
# Splitting the independent and dependent variables
i_data = dataset.data
response = dataset.target
 
# standardization 
scale = object.fit_transform(i_data) 
print(scale)

설명:

  1. 필요한 필수 라이브러리를 가져옵니다. StandardScaler 기능을 사용하기 위해 sklearn 라이브러리를 가져왔습니다.
  2. 데이터세트를 로드합니다. 여기서는 sklearn.datasets 라이브러리의 IRIS 데이터 세트를 사용했습니다. 여기에서 데이터 세트를 찾을 수 있습니다.
  3. 객체를 StandardScaler() 함수로 설정합니다.
  4. 위에 표시된 대로 독립 변수와 대상 변수를 분리합니다.
  5. fit_transform() 함수를 사용하여 데이터셋에 함수를 적용합니다.

산출:

결론

이상으로 이 주제를 마치겠습니다. 궁금한 점이 있으면 아래에 의견을 남겨주세요.

Python과 관련된 더 많은 게시물을 보려면 JournalDev와 함께 @ Python을 계속 지켜봐 주시기 바랍니다. 그때까지 Happy Learning!! :)