제1편. 기술통계학 - 제4장. 분포의 특성 2 : 분산도의 측정
제4장. 분포의 특성 2 : 분산도의 측정
1절. 분산도의 측정
4.1.1. 범위
■ 범위(range)
- 자료의 집단중에서 가장 큰 수치와 가장 작은 수치의 차이
- 가장 단순한 분산도의 측정치
- 장점 : 이해하기 쉽고 계산하기 쉽다.
- 단점 : 모든 관측치를 이용하지 못하며, 두 극단적인 수치의 차이만을 나타낼 뿐 수치 사이의 분포양상은 설명하지 못한다.
4.1.2. 평균편차
■ 평균편차(MD : mean deviation), 평균절대편차(MAD : mean absolute deviation)
- 모든 자료값으로부터 평균을 뺀 편차에 절대값을 취하여 평균을 구한 것
- 장점 : 모든 자료를 이용하여 계산하며 이해하기 쉽다.
- 단점 : 절대값을 사용하기 때문에 작업하기 어렵다.
4.1.3. 분산과 표준편차
1. 분산과 표준편차의 개념
■ 분산(variance)
- 모든 자료값으로부터 평균을 뺀 편차를 제곱한 값들의 평균
■ 표준편차(standard deviation)
- 분산의 양의 제곱근 값
2. 분산과 표준편차의 계산
1) 모분산
■ 모분산(population variance)
- 연구의 대상이 되는 모집단 전체의 분산
σ^2 (sigma square)
- 모분산의 값이 작을수록 자료가 평균을 중심으로 밀집되어 있는 것을 의미
2) 모집단의 표준편차
■ 모집단의 표준편차(population standard deviation)
- 모분산의 양의 제곱근 값
σ (sigma)
- 관찰값이나 대표값과 동일한 단위로 사용할 수 있다.
3) 표본 분산
■ 표본 분산(sample cariance)
- 모집단으로부터 추출된 표본의 분산
s^2
4) 표본 표준편차
■ 표본 표준편차(sample standard deviation)
- 표본분산의 양의 제곱근 값
s
※ 표본의 분산이나 표준편차를 계산할 때 n 대신 (n-1)로 나누어주는 이유는 모집단의 분산(표준편차) 추정에 따른 오차를 수정하기 위함이다. 즉, 표본분산을 이용하여 모분산을 추정하기 때문에 모분산 추정에 따른 과소추정(underestimate) 문제를 피하기 위하여 n이 아닌 n-1로 나누어주는 것이다.
3. 표준편차의 특성
- 모든 관찰된 수치들의 영향을 고려한다.
- 표본추출에 따른 변화가 적어 표본으로 모집단의 분포를 추정할 경우 가장 안정성 있는 분포도 지수가 된다.
- 한 집단의 모든 관찰치에 상수 c를 더하거나 차감한 후에 계산해도 표준편차 값은 변화하지 않는다.
σ(X±c) = σ(X)
- 한 집단의 모든 관찰치에 상수 c를 곱할 경우 표준편차 값도 c배 만큼 커진다.
σ(c·X) = c·σ(X)
4. 체비셰프의 정리
■ 체비셰프의 정리(Chebyshev's theorem)
- 어떠한 자료의 집단에서도 전체 관찰값들 중에서 평균으로부터 ±k × 표준편차 이내에 관찰값이 포함될 확률이 최소한 1-1/k^2임을 설명하는 정리
- 자료가 어떤 분포를 갖더라도 적용이 가능하다.
2절. 도수분포표 자료의 분산도 측정
4.2.1. 도수분포표 자료의 범위 계산
■ 도수분포표 자료의 범위(range)
- 마지막 계급의 상한값에서 첫 번째 계급의 하한값을 차감하여 구한다.
마지막 계급의 상한값 - 첫 번째 계급의 하한값
4.2.2. 도수분포표 자료의 표준편차 계산
3절. 상대적 분산도
4.3.1. 변동계수
■ 변동계수(CV : coefficient of variation), 상대적 표준편차, 변이계수
- 단위가 다른 두 자료군의 산포도를 비교하거나 단위가 같더라도 두 자료의 평균이 크게 차이가 나는 자료의 산포도를 비교하는데 적합한 측도
4.3.2. 사분위 편차
■ 백분위수
- 주어진 자료를 크기순으로 배열한 후 백등분 하였을 때 각 등분점에 위치하는 자료
- 사분위수 범위(interquartile range) : 3사분위수와 1사분위수의 차이
- 사분위 편차(quartile deviation) : 사분위수 범위에 대한 평균
4.3.3. 상자-수염 그림
■ 상자-수염 그림(box ans whisker diagram)
- 1사분위수, 중앙값, 3사분위수, 최소값, 최대값을 이용하여 자료의 분포 특성을 그래프로 나타내는 방법
- 작성절차 : ① 1사분위수(Q1)와 3사분위수(Q3)를 상자로 연결한다.
② 중앙값(Md)을 상자안에 직선으로 표시한다.
③ 상자의 양 끝에 위치하는 최소값(Min)과 최대값(Max)을 선으로 연결한다.
4절. 비대칭도
■ 비대칭도(skewness)
- 비대칭 분포에서 관찰된 자료의 분포가 대칭에서 벗어나서 한 쪽으로 얼마나 치우쳐 있는가를 측정하는 분석 도구
4.4.1. 왼쪽꼬리분포
■ 왼쪽꼬리분포(negatively skewed distribution)
- 소수의 극단적인 낮은 관측치가 존재하며, 자료집단의 분포가 오른쪽으로 치우치게 분포되어 왼쪽으로 긴 꼬리가 나타나는 분포로 비대칭도의 값이 음수가 된다.
4.4.2. 오른쪽꼬리분포
■ 오른쪽꼬리분포(positively skewed distribution)
- 소수의 극단적인 높은 관측치가 존재하며, 자료집단의 분포가 왼쪽으로 치우치게 분포되어 오른쪽으로 긴 꼬리가 나타는 분포로 비대칭도의 값이 양수가 된다.
4.4.3. 피어슨의 비대칭계수
■ 피어슨의 비대칭계수(Pearson's coefficient of skewness)
- 산술평균과 중앙값의 차이가 표준편차에 비하여 얼마나 떨어져 있는가를 표시하는 비대칭도의 정도를 측정하는 척도
- 일반적으로 -3과 +3 사이에 위치한다.
- 피어슨의 비대칭계수가 0과 유사(Sk ≒ 0)하면 대칭분포를 나타내고, 양수(Sk>0)이면 오른쪽꼬리분포, 음수(Sk<0)이면 왼쪽꼬리분포가 된다.

빅뱅주의 달콤한 향기처럼 맘모톰 창원2001 꽃가득예쁜카페 냠냠아이써 위드카메라 헝그리보이 로보코리아 내츄럴 스토리
