통계이론/통계이론

EDA. 양적자료분석. 기술통계량 - 산포

dragontigerps 2018. 12. 28. 15:49
개요
  • 퍼짐 = 산포 = 다름
  • 다름 프로세스

1) 다름의 양을 수치화 한다.

2) 그 수치는 무시해도 될만한 수치인지, 무시하면 안돼는 심각한 다름인지 의사결정을 해야한다.

3) 그 다름을 무엇이 발생시켰는지 고려해야 함

4) 통계적 유의한 차이가 있는지 가설검정을 해야 함



1) 범위(Range) : 최대값(Max) - 최소값(Min)

    • 이상치(Outlier)의 영향을 많이 받는다. (이상치가 최대값 OR 최소값이기 때문에)
2) 사분위범위(IQR) : 상위 25%, 하위 25%를 제외한 50%의 범위
    • 이상치(Outlier)의 영향을 받지 않는다.
3) 분산(Variance) : 평균적으로 모든 데이터가 얼마나 다른지, 숫자로 리턴
    • 편차(deviation) = 관측값 - 평균값 , 편차의 합(X bar)= 0 
    • 편차의 제곱의 평균 = 분산
    • 분산이 작다 : 평균하고 많이 비슷하다. 분산이 크다 : 평균하고 많이 다르다.
    • 이상치의 영향을 많이 받는다.
    • 단위의 제곱이 되기 때문에 잘 쓰이지 않는다.
4) 표준편차(standard deviation)(sd) : 분산의 제곱근
    • 가장 많이 쓰이는 다름
    • 이상치의 영향을 많이 받는다.
5) 중위수 절대편차(MAD : Median Absolute Deviation)
    • 프로세스 (데이터 : 7, 15, 22, 28 , 31, 34)

1) 중위수(Median)를 구한다. ((22 + 28)/ 2 = 25)

2) 데이터 - 중위수 : 편차 (-18, -10, -3 , 3, 6, 9)

3) 편차의 절대값을 구한다. (18 , 10 , 3, 3, 6, 9)

4) 3단계 값을 솔팅한다. (3,3,6,9,10,18)

5) 4단계 값에서 중위수를 구한다. ((6+9)/ 2 = 7.5) => 이 값이 중위수절대편차(MAD)!

    • 이상치의 영향을 덜 받는다.

2019/01/02 - [데이터 분석/통계이론] - EDA(Exploratory Data Analysis)

2019/01/02 - [데이터 분석/통계이론] - EDA. 양적자료분석. 기술통계량 - 분포의 모양

2018/12/28 - [데이터 분석/통계이론] - EDA. 양적자료분석. 기술통계량 - 산포

2018/12/28 - [데이터 분석/통계이론] - EDA. 양적자료분석. 기술통계량 - 대표값