기초통계학 중심위치 (평균, 중앙값, 최빈값) 산포
안녕하세요? 오늘은 데이터의 형태에 따라 어떻게 해석할 것인지에 대한 공부로 우리가 주변에서 자주 접하는 기초 통계 용어를 알아보는 시간을 가지겠습니다.
■ 자료의 형태에 따른 분류
□ 연속형 자료(Continuous data)
연속형 자료는 연속량으로 측정될 수 있는 특성의 값으로 길이(㎝,㎜), 중량(g,㎏) 등 측정단위(Measurement Unit)가 존재하고 측정을 통해 데이터가 얻어지므로 측정형 자료라고도 불리고 연속량으로 얻어지므로 계량 치라고 불립니다.
물론 측정되지 않더라도 수능고사 성적,자동차 성능점수 등 점수의 자료는 계량형으로 봅니다.
□ 이산형 자료(Discrete data)
이산형 자료는 갯수로 셀 수 있는 특성의 값으로 예를 들면 불량품의 수, 결점의 수 등 셀 수가 있고 보통 0,1,2... 양의 정수 치로와 같이 구성이 됩니다.
만족도의 상,중,하 또는 거래선 1,2,3... 과 같이 우열의 데이터, 순위의 자료, 집단화된 자료도 계수치로 봅니다.
■ 분포(Distribution)
모집단에서 표본 추출시 표본 자료는 여러 가지 이유로 어떤 분포의 모양을 가지게 되는데 모집단 정보에서 수집된 자료의 중심위치, 산포, 형태 등의 특성을 파악하는데 활용이 됩니다.
분포의 중심위치는 위치 척도로 흔히 대표값이라 불리며 자료 값들이 어떤 값을 중심으로 분포되어 있는가를 나타내며 자료의 산포도는 자료 값들이 얼마나 흩어져 있는 상태를 나타내 줍니다.
■ 중심위치
중심위치를 이해하기 위하여 레이저 프린터 토너에 들어가는 입자의 크기를 6회 측정한 결과 1 1 2 3 1 3 의값이 나왔을 때 이 데이터의 중심은 어디입니까? 중심은 어디에 위치합니까? 중심위치는 대표값입니까?
중심위치를 측정하는 몇 가지 방법을 알아보겠습니다.
□ 평균(mean)
평균(mean, 산술평균) 값은 수집된 자료를 모두 더하여 자료의 수로 나누어 준 값입니다.
그럼 평균은 데이터의 대표값이라 할 수 있나요?
위의 토너 입자의 크기 측정에서 1회를 추가 측정하여 측정값으로 1 1 2 3 1 3 17의 데이터를 얻었을 경우 수집된 자료의 합인 28을 자료의 수 7로 나누어 얻은 산술 평균은 4이며 무언가 튀는 값, 비정상적으로 큰 17이라는 숫자 때문에 대표값이 상당히 높아집니다.
이런 경우에 산술평균이 대표값으로 역할을 하고 있다고 할 수 있나요?
□ 중앙값(median)
그렇다면 상대적으로 큰 측정치에 영향을 받지 않는 대표값을 구하려면 어떻게 해야 하나요?
자료들을 작은 수부터 큰 수까지 순서대로 나열한 뒤 가운데 위치하는 수, 즉 중앙값(median)을 구하는 방법이 있는데 자료를 작은 값부터 큰 값 순으로 나열을 해보면 입자 크기 17을 측정하기전의 경우 1 1 1 2 3 3 인데 자료의 갯수가 짝수 이므로 중심위치 1과2의 평균인 1.5를 입자크기 17을 측정한 이후에는 1 1 1 2 3 3 17 로 자료의 갯수가 홀수이므로 중시위치는 2가 됩니다.
중앙값은 평균의 값처럼 입자크기 17을 측정 전후에 따라 대푯값의 차이가 크지 않음을 알 수 있습니다.
□ 최빈값(mode)
최빈값(mode)은 자료들 중 가장 빈번하게 나타나는 값으로 상대적으로 큰 값에 영향을 받지 않는 대표값을 구하려고 할 때 유용하게 사용이 될 수 있습니다.
입자 크기 17을 측정하기 전의 경우 1 1 1 2 3 3의 중심위치는 가장 빈번하게 나타나는 데이터인 1이고 입자 크기 17을 측정한 이후를 살펴보면 1 1 1 2 3 3 17의 중심위치는 역시 가장 빈번하게 나타나는 1이고 비정상적으로 보이는 17 의 측정 전후의 대표값에 변화가 없음을 알 수 있습니다.
그렇다면 어떤 중심위치 대표값을 사용할 것인가?
중량, 길이 등의 연속형 자료, 측정형 자료의 일반적인 분포형태는 좌우 대칭의 종모양으로 평균, 중앙값, 최빈수 등 어떠한 대표값을 사용하여도 무방하지만 통계 분석상 대부분 산술평균을 사용합니다.
분포의 형태가 어느 한쪽으로 치우쳐진 경우 예를 들어 프로 스포츠 선수들의 연봉의 경우 일반적으로 이러한 분포를 보여주는데 표본 추출을 어떻게 해야 할지 어떠한 중심위치를 대표값으로 사용하느냐에 따라 분석이 왜곡될 수가 있습니다.
■ 산포
□ 산포도
중심위치는 자료들이 모여 있는 위치를 나타내는 유용한 정보지만 분포 전체의 모양을 보여주지는 못하여 때로는 모여 있는 위치보다 흩어져 있는 정도인 산포를 나타내는 척도가 더 중요할 때도 있습니다.
그리고 같이 A, B 두 기업의 타이어의 수명 분포를 보고 어떤 기업의 타이어가 신뢰도가 높은가?
B기업의 타이어의 평균 수명이 주행거리 6만 Km로 A기업보다 높지만 B기업의 타이어 수명 분포의 흩어짐이 매우 커서 잘못 선택이 되면 1만 Km도 주행하지 못하는 타이어를 만날 수도 있습니다.
□ 분산과 표준편차
분산과 표준편차는 평균값으로부터 자료들이 떨어진 거리로 자료의 흩어진 정도를 나타내며 분산은 평균 제곱 거리 (분모에 n이 아니라 n-1 사용)로 정의되며 표준편차는 분산에 제곱근을 취한 형태를 갖습니다.
분산과 표준편차는 수학 계산으로 푸는 방법은 다 잊어버린 지 오래되었고 실무에 있어서는 통계 프로그램인 미니탭을 활용하여 구하는 것이 일반적입니다.
□ 범위
좀 더 쉬운 방법으로 산포를 측정할 때 범위를 구하는데 범위(R) = 최댓값 - 최솟값으로 입자 크기 측정 데이터 1 1 1 2 3 3 의경우 최대값 3 - 최소값 1을 계산하여 얻은 2가 범위가 됩니다.
범위는 계산이 용이하여 표준편차와 함께 산포의 척도로 많이 사용됩니다. 특히 Gaga R&R, 관리도 (control chart)상에서 산포의 척도로 널리 활용됩니다.
현장의 문제를 숫자로 말하지 못하면 그것은 모르는 것이라 하였습니다.
생산, 제조 현장에서 뿐만이 아니라 우리가 일상생활을 하는데도 결국 통계적 사고를 얼마나 가지고 신뢰성 있는 데이터를 수집하고 분석하여 활용할 수 있느냐가 대단히 중요하다고 생각이 됩니다.
오늘은 그중에서 가장 흔히 사용되는 평균, 중앙값, 최빈값, 범위, 산포 등에 대해 간략히 알아보았습니다.
기초적인 용어에 대해 의미를 알고 직접 데이터를 수집하든 조사된 데이터를 해석 하든 유용하게 활용되었으면 합니다.