아이익잼


제1편. 기술통계학 - 제4장. 분포의 특성 2 : 분산도의 측정


 

제4장. 분포의 특성 2 : 분산도의 측정

 

1절. 분산도의 측정

 

4.1.1. 범위

 

■ 범위(range)

  - 자료의 집단중에서 가장 큰 수치와 가장 작은 수치의 차이

  - 가장 단순한 분산도의 측정치

  - 장점 : 이해하기 쉽고 계산하기 쉽다.

  - 단점 : 모든 관측치를 이용하지 못하며, 두 극단적인 수치의 차이만을 나타낼 뿐 수치 사이의 분포양상은 설명하지 못한다.

 

 

4.1.2. 평균편차

 

■ 평균편차(MD : mean deviation), 평균절대편차(MAD : mean absolute deviation)

  - 모든 자료값으로부터 평균을 뺀 편차에 절대값을 취하여 평균을 구한 것

  - 장점 : 모든 자료를 이용하여 계산하며 이해하기 쉽다.

  - 단점 : 절대값을 사용하기 때문에 작업하기 어렵다.

 

 

4.1.3. 분산과 표준편차

 

1. 분산과 표준편차의 개념

 

■ 분산(variance)

  - 모든 자료값으로부터 평균을 뺀 편차를 제곱한 값들의 평균

 

■ 표준편차(standard deviation)

  - 분산의 양의 제곱근 값

 

2. 분산과 표준편차의 계산

 

1) 모분산

 

■ 모분산(population variance)

  - 연구의 대상이 되는 모집단 전체의 분산

σ^2 (sigma square)

  - 모분산의 값이 작을수록 자료가 평균을 중심으로 밀집되어 있는 것을 의미

 

2) 모집단의 표준편차

 

■ 모집단의 표준편차(population standard deviation)

  - 모분산의 양의 제곱근 값

σ (sigma)

  - 관찰값이나 대표값과 동일한 단위로 사용할 수 있다.

 

3) 표본 분산

 

■ 표본 분산(sample cariance)

  - 모집단으로부터 추출된 표본의 분산

s^2

 

 

4) 표본 표준편차

 

■ 표본 표준편차(sample standard deviation)

  - 표본분산의 양의 제곱근 값

s

 

※ 표본의 분산이나 표준편차를 계산할 때 n 대신 (n-1)로 나누어주는 이유는 모집단의 분산(표준편차) 추정에 따른 오차를 수정하기 위함이다. 즉, 표본분산을 이용하여 모분산을 추정하기 때문에 모분산 추정에 따른 과소추정(underestimate) 문제를 피하기 위하여 n이 아닌 n-1로 나누어주는 것이다.

 

3. 표준편차의 특성

  - 모든 관찰된 수치들의 영향을 고려한다.

  - 표본추출에 따른 변화가 적어 표본으로 모집단의 분포를 추정할 경우 가장 안정성 있는 분포도 지수가 된다.

  - 한 집단의 모든 관찰치에 상수 c를 더하거나 차감한 후에 계산해도 표준편차 값은 변화하지 않는다.

σ(X±c) = σ(X)

  - 한 집단의 모든 관찰치에 상수 c를 곱할 경우 표준편차 값도 c배 만큼 커진다.

σ(c·X) = c·σ(X)

 

4. 체비셰프의 정리

 

■ 체비셰프의 정리(Chebyshev's theorem)

  - 어떠한 자료의 집단에서도 전체 관찰값들 중에서 평균으로부터 ±k × 표준편차 이내에 관찰값이 포함될 확률이 최소한 1-1/k^2임을 설명하는 정리

  - 자료가 어떤 분포를 갖더라도 적용이 가능하다.

 

 

 

 

2절. 도수분포표 자료의 분산도 측정

 

4.2.1. 도수분포표 자료의 범위 계산

 

■ 도수분포표 자료의 범위(range)

  - 마지막 계급의 상한값에서 첫 번째 계급의 하한값을 차감하여 구한다.

마지막 계급의 상한값 - 첫 번째 계급의 하한값

 

 

4.2.2. 도수분포표 자료의 표준편차 계산

 

 

 

 

3절. 상대적 분산도

 

4.3.1. 변동계수

 

■ 변동계수(CV : coefficient of variation), 상대적 표준편차, 변이계수

  - 단위가 다른 두 자료군의 산포도를 비교하거나 단위가 같더라도 두 자료의 평균이 크게 차이가 나는 자료의 산포도를 비교하는데 적합한 측도

 

 

4.3.2. 사분위 편차

 

■ 백분위수

  - 주어진 자료를 크기순으로 배열한 후 백등분 하였을 때 각 등분점에 위치하는 자료

 

  - 사분위수 범위(interquartile range) : 3사분위수와 1사분위수의 차이

  - 사분위 편차(quartile deviation) : 사분위수 범위에 대한 평균

 

 

 

 

4.3.3. 상자-수염 그림

 

■ 상자-수염 그림(box ans whisker diagram)

  - 1사분위수, 중앙값, 3사분위수, 최소값, 최대값을 이용하여 자료의 분포 특성을 그래프로 나타내는 방법

  - 작성절차 : ① 1사분위수(Q1)와 3사분위수(Q3)를 상자로 연결한다.

                   ② 중앙값(Md)을 상자안에 직선으로 표시한다.

                   ③ 상자의 양 끝에 위치하는 최소값(Min)과 최대값(Max)을 선으로 연결한다.

 

 

 

 

4절. 비대칭도

 

■ 비대칭도(skewness)

  - 비대칭 분포에서 관찰된 자료의 분포가 대칭에서 벗어나서 한 쪽으로 얼마나 치우쳐 있는가를 측정하는 분석 도구

 

 

4.4.1. 왼쪽꼬리분포

 

■ 왼쪽꼬리분포(negatively skewed distribution)

  - 소수의 극단적인 낮은 관측치가 존재하며, 자료집단의 분포가 오른쪽으로 치우치게 분포되어 왼쪽으로 긴 꼬리가 나타나는 분포로 비대칭도의 값이 음수가 된다.

 

 

4.4.2. 오른쪽꼬리분포

 

■ 오른쪽꼬리분포(positively skewed distribution)

  - 소수의 극단적인 높은 관측치가 존재하며, 자료집단의 분포가 왼쪽으로 치우치게 분포되어 오른쪽으로 긴 꼬리가 나타는 분포로 비대칭도의 값이 양수가 된다.

 

 

4.4.3. 피어슨의 비대칭계수

 

■ 피어슨의 비대칭계수(Pearson's coefficient of skewness)

  - 산술평균과 중앙값의 차이가 표준편차에 비하여 얼마나 떨어져 있는가를 표시하는 비대칭도의 정도를 측정하는 척도

  - 일반적으로 -3과 +3 사이에 위치한다.

  - 피어슨의 비대칭계수가 0과 유사(Sk ≒ 0)하면 대칭분포를 나타내고, 양수(Sk>0)이면 오른쪽꼬리분포, 음수(Sk<0)이면 왼쪽꼬리분포가 된다.

 


빅뱅주의 달콤한 향기처럼 맘모톰 창원2001 꽃가득예쁜카페 냠냠아이써 위드카메라 헝그리보이 로보코리아 내츄럴 스토리
2008/04/18 10:15 2008/04/18 10:15
top

TAG

Leave a comment..