상세 컨텐츠

본문 제목

[중학교 3학년 통계] 분산과 표준편차

중등교육과정

by 경밤 2021. 11. 12. 21:24

본문

반응형

산포도

  산포도는 변량의 흩어져 있는 정도를 의미한다. 그러니까, 어떤 산포도가 5라면, 10보다는 덜 흩어진 것이고, 1이라면 5보다는 더 고르게(한곳으로) 분포한다는 것 이다.

변량이 얼마나 흩어져 있는가를 알려면, 그 평균과의 격차를 알아야 한다. 그 격차 만큼, 흩어져있는 것 이다. 그러나 이런 격차-편차-를 모두 더하고, 다시 그것의 평균을 낸다면 필시 0이다. 왜 그런가 하면 어떤 평균 구하기 위해서 더했던 어떤 집합의 요소가 평균보다 1 높다면, 무조건 다른 수가 1 낮아야만 그 평균이 나오기 때문이다.

  따라서, 요소에서 평균을 뺐을때 음수가 나오는 것을 다시 양수로 바꾸어 평균을 내야한다. 이런 과정에는 절댓값을 구해-음수 1의 편차든, 양수 1의 편차든 1씩 떨어진 것은 같다- 모든 음수를 양수로 바꾸어 그만큼 평균에서 떨어져 있음-분산되는 정도-을 구한다.

  다시, 중심에서 자료들이 흩어져 있는 정도를 말하는 것이 산포도 이므로, 표준편차도, 분산도 산포도다.

평균

  평균은 편차를 구하기 위해 필요한 값이자, 모든 산포도의 중심에 있는 값이다. 모든 요소 합과 그 크기로의 나눗셈이 평균이다.

평균과 변량 수의 곱은, 다른 변량들의 합과 같다. 그 이유로, 들쑥날쑥인 변량들을 모두에게 공평히 재분배한 새 변량이 평균이라, 이런 연유로 변량 값의 크기는 보존된다. 애초에 저런 식으로 이어진다.

만약 평균이 m이라면, 모든 변량이 같은 일차함수의 값으로 치환되었을때 그 새로운 평균은 m의 함수값이다.

분산

  분산은, 산포도로써 변량들이 전체적으로 얼마나 흩어져있는지 말해준다. 분산도를 통해 표준편차를 구할 수 있다.

  분산값(Var)를 구하기 위해서 편차-변량과 평균의 차-의 제곱합끼리의 합을 구해야하고, 이후 변량 수로 나누어 구한다. 모든 변량에 대한 편차의 합은 늘 0인데, 이것은 평균과 변량 수의 곱이 변량의 모든 합과 같다는 것에서 같은 이유다.

어쨌든 분산은 제곱의 평균이니만큼 단위도 제곱이다. 즉, 원래 변량의 단위의 제곱이다.

표준편차

  사실 편차들에 관해서 그 합이 0이 되는 것을 막아 실질적으로 의미있는 분산도를 구하기 위해서 음수인 것들을 양수로 연산을 하는데, 그 방법에는 절대값을 취하거나 제곱을 하는 방법이 있다.

  따라서 절대값을 이용한 것은 절대편차, 제곱을 이용한 경우는 표준편차라고 한다. 

절대편차의 경우 분산을 절대값에의 편차 합으로 다시 구해야하지만, 표준편차는 분산의 제곱근이다. 왜 제곱근이어야 하는가, 라는 말에는 분산의 단위가 낀다. 분산의 단위가 원래 흩어져있는 정도의 본질적인 단위의 제곱이니 그것의 제곱근을 필요가 있기 때문이다.

변량과 일차함수

  모든 변량에 관한 일차함수값으로의 변환에서 새로 만들어진 변량들의 평균, 분산, 표준편차는 오직 일차함수식과 변량들의 수, 그리고 이전 변량들의 분산만 알고 있으면 된다.

  일차함수값들이 구성하는 변량들의 평균은 이전 평균의 일차함수값이다.  그 이유는 식으로 나타내볼 수 있는데,

(f(a) + f(b)) / 2 = f((a + b) / 2) 식에서 일차함수를 불러온다면 2(a + b) + 2*5 = 2(a+b+5) 이기 때문이다. 위 식에서 a+b는 2*((a+b)/2)로 자연스레 분모가 삭제되어 나타난다.

  이렇게 기존 분산과 일차함수 x의 계수 제곱의 곱은 새 변량들의 변량과 같음을 알 수 있다.

그 이유로 일차함수의 상수항은 전개 과정에서 없어지고, 계수로 묶을 수 있게 된다. 분배법칙을 사용한 결과 제곱하였을때 x 계수 제곱과 기존 식에서의 SS(sum of squares)가 나오는데, 그 부분과 나누는 부분이 변량들의 개수이니까 원래 변량들의 분산을 곱하면 동일해진다. 

여러 문제들

1. a, b, c, d, x 변량을 주어주고, 최빈값과 평균이 같다는 문제

  x를 구해야하는데, 최빈값과 평균이 같다는 조건이 있다. 이 문제에서 x를 제외하고 다른 변량들은 모두 다른 수 이기 때문에, x의 값에 따라 최빈값이 결정된다. 즉, x는(0이 아닐때) a, b, c, d 중 하나가 될 수 밖에 없다. 따라서, 최빈값을 x라고 보는 문제이다.

x 최빈값 = (a + b + c + d + x) / 5 평균 의 식을 세워 풀 수 있다.

2. 두 변량 집합이 제공되고 평균이 같을때 분산을 구하는 문제

  보통 변량 집합 A의 분산, 변량 집합 B의 분산을 준다. 이때, SS를 구할 수 있다. 왜냐면 A, B의 갯수를 알기 때문에, A, B의 SS를 각각 알 수 있다. 그리고, 이 두개의 SS를 합치고 n(A) + n(B)로 나누면 분산이 된다. 왜냐하면 평균이 같아 편차들의 합이 늘 그렇듯 0이 되기 때문이다.

3. 기존 변량들과 그것과 관련한 새 변량들을 제공하고 분산을 구하라는 문제

  기존 a, b 변량이 있을때 5a + 1, 5b + 1 변량의 분산을 구하라고 한다. 이때, 두 변량 집합사이 관계는 f(x) = 5x + 1의 규칙이 있다. 따라서, 5*5 * 기존 분산 으로 새 변량들의 분산을 구할 수 있다.

반응형

관련글 더보기