통계학 속 분산도 측정 방식 통계학 속 분산도 측정 방식

분산도 측정은 모든 데이터 세트에서 중요한 역할을 한다. 분산도 측정은 집중 경향치와 함께 나타나며 데이터의 변동성을 보여준다.

집중 경향치는 데이터를 그룹화할 수 있는 다양한 방법을 보여준다. 특정 샘플 또는 사람들 그룹에서 다른 변수가 어떻게 작동하는지 알아내는 데 좋다. 이를 통해 세 가지 기본 사항인 중앙값, 평균값 및 범위를 알 수 있다.

통계학 속 분산도 측정 방식

분산도 측정은 집중 경향치와 관련되어 있다. 또한 데이터의 변동 정도를 보여주기 때문에 모든 데이터 세트를 읽는 데 필수적이다. 통계에서 이 두 개념의 역할의 중요성은 1999년 와일드와 팬쿡 (Wild and Pfannkuch)에 의해 강화되었다.

그들에 따르면, 데이터의 변동성에 대한 우리의 인식은 통계적 사고의 기본 요소 중 하나이다. 우리가 변동성을 인식하는 방식은 평균 또는 중앙값에 관련하여 데이터의 분산 또는 확산에 대한 정보를 제공해준다.

평균값 또는 평균은 통계에서 매우 일반적이다. 그러나 이를 잘못 해석하기가 쉽다. 변수에 값이 광범위하게 분산되어있을 때 특히 발생하게 된다. 그때 분산도 측정이 시작된다 (2).

무작위 변동성과 관련된 분산도 측정에는 3가지 중요한 구성 요소가 있다 (2).

우리 주위에 얼마나 흔하게 존재하는지에 대한 인식
경쟁 구도 놓인 설명이 있는지
정량화하는 능력 (분산의 개념을 이해하고 적용되는 방법을 아는 것을 의미함)

분산도 측정은 무엇을 위한 것일까?

데이터로부터 결론을 도출하려고 할 때 어떤 통계 연구에든 분산 측정은 중요하다. 작업 중인 오류 한계에 직접적인 역할을 하기 때문이다. 샘플의 분산이 클수록 해당 마진 내에서 작업해야 할 부분이 많아진다.

또한 데이터가 집중 경향치에서 얼마나 떨어져 있는지를 파악하는 데 도움이 된다. 이를 통해 해당 연구의 집중 경향치가 샘플에 해당하는 사람들을 잘 대표하고 있는지 혹은 아닌지를 보여준다. 이는 분포를 비교하고 특정 결론에 도달할 리스크를 이해하는 데 매우 유용하다(1).

요약하면, 분산이 클수록 집중 경향치의 대표성이 떨어진다. 가장 일반적인 분산도 측정 방법은 다음과 같다:

범위
평균 편차
분산
표준 편차
변동 계수 (또는 상대 표준 편차)

각각의 분산도 측정 방식은 어떻게 작용할까?

범위

범위는 일반적으로 데이터의 두 극단만 검토하기 때문에 첫 번째 비교를 수행하는 데 가장 좋다. 이것이 또한 일반적으로 작은 크기의 샘플(1)로 수행할 때 의미가 있다. ‘범위’의 기본 정의는 첫 번째 데이터와 마지막 데이터의 차이라고 할 수 있다.

평균 편차

그다음으론 평균 편차가 있다. 데이터가 평균과 동일한 거리(1)인 경우 데이터의 위치를 표시할 수 있음으로 유용하다. 변수로부터의 편차 수는 해당 변수의 절댓값과 평균의 차이를 나타낸다. 따라서 평균 편차는 기본적으로 모든 편차의 평균이다 (3).

분산

분산은 모든 값에 대한 대수 함수이며 추론 통계에 적합하다(1). 분산은 기본적으로 편차의 제곱이다.

표준 편차

표준 편차는 같은 그룹의 사람들로부터 수집한 모든 샘플에 대한 가장 일반적인 분산 측정이다(1). 분산의 제곱근이다(3).

변동 계수

이 측정은 주로 별도의 그룹에 놓인 두 데이터 세트 간의 변동을 비교하는 데 사용된다. 예를 들어, 학교에서 학생들의 키와 몸무게에 관한 정보를 수집하는 것이 될 수 있다. 대표치를 얻기 위해 어떤 특정 분포가 가장 높은 데이터 그룹을 나타내는지를 파악하는 데 도움된다.

변동 계수는 추상적 숫자를 제공하기 때문에 우리가 다룬 모든 분산도 측정 중 가장 대표라고 할 수 있다. 즉, 그룹의 변수와 독립적이다. 일반적으로 변동 계수는 백분율(3)로 표시되는 것을 볼 수 있다.

이러한 분산도 측정은 샘플에 얼마나 많은 변동성이 있는지 확인할 방법이다. 또한 집중 경향치가 얼마나 대표성을 띠는지도 알 수 있다. 변동성이 낮으면 데이터가 해당 경향성에 상대적으로 가깝고 전체 데이터 세트를 잘 나타내고 있다고 볼 수 있다.

반면에 변동성이 높으면 데이터가 집중돼있지 않고 분산되어 있다는 것을 의미한다. 변동성이 높다는 것은 집중 경향치의 대표성이 떨어진다는 것을 의미한다. 이 경우 더 큰 규모의 데이터 풀을 가져와야 한다. 더 많은 데이터를 가지면 큰 오차를 야기하는 기본적인 원인이라고 할 수 있는 ‘변동성’이 줄어들게 된다.