6σ 연계 TPM추진 방법론

SSL보안서버인증필

통계 자료의 정리 방법

■ 통계 자료의 정리방법(1)

자료는 크게 나누어 질적 자료와 양적 자료로 나눌 수 있다. 질적 자료는 원칙적으로 숫자로 표시될 수 없는 자료를 말한다. 가령 교육수준등이 있다. 양적 자료는 자료 자체가 숫자로 표현되어 있다. 예를 들어, 키, 몸무게, 전구의 수명, 시험성적등이 있다.

    1. 도수분포표

     질적 자료인 경우에 각 자료값이 나타나는 빈도수를 도수라고 하며 이 도수를 전체 자료의 숫자로 나눈 것을 상대도수라 한다. 질적 자료의 도수분포표는 각 자료값에 대하여 도수나 상대도수를 나열해 놓은 도표이다.

    2. 상대도수 막대그래프

    상대도수 막대그래프는 각 자료값의 상대도수를 같은 폭의 막대로 나타내며, 하나의 자료값에 하나의 막대가 대응된다. 막대의 높이는 상대도수의 크기에 비례하고, 각 막대는 수평선상 위에 그려진다.

    그래프를 이용하면 위에서의 도수분포표보다 더 쉽게 내용을 파악할 수 있다.
     
     

    3. 원형 그래프

    질적 자료를 그림을 통하여 정리하는 두번째 방법으로 원형그래프가 있다. 이 그림을 작성하는 방법은 먼저 완전한 원을 그린 다음, 그것을 자료값의 가지수만큼 몇 개의 조각으로 나누는데, 각 조각의 크기는 해당하는 자료값의 상대도수에 비례하게 한다. 각 조각에 해당 자료값과 상대도수를 기입한다.

     

    * 질적 자료의 경우와 마찬가지로, 양적 자료도 도표나 그림을 통하여 자료의 분포상태를 한 눈에 쉽게 파악할 수 있다. 줄기-잎-그림, 도수분포표, 히스토그램등이 있다.

    4. 줄기-잎-그림

    줄기-잎-그림(stem and leaf display)을 그리기 위해서는 먼저 자료의 줄기부분을 선택한다. 줄기 부분을 제외한 나머지 부분을 잎이라고 부른다. 가령 십자리수를 줄기로 정하면, 일자리수는 잎이 된다. 먼저 줄기값을 크기 순으로 세로로 나열한 뒤, 각 줄기에 해당되는 각 자료의 잎의 값을 해당 줄기값의 오른쪽에 가로로 적는다. 끝으로 줄기값과 잎의 값을 구분하기 위하여 줄기와 잎 사이에 수직선을 그어 준다.

 

위의 자료를 가지고 줄기-잎-그림 을 그려보면 다음과 같다.

위의 자료는 거의 대칭형으로 종 모먕에 가까움을 쉽게 알 수 있다. 이 자료의 줄기를 늘릴 경우 모양은 변할 수 있다. 이와 같이 줄기의 개수를 늘리면 자료의 집락상태를 알아 보는데 편리하다. 하지만 줄기가 너무 많은 경우에는 분포 상태를 전혀 알 수 없다.

줄기-잎-그림은 히스토그램이 가지고 있지 않는 두 가지 장점을 가지고 있다. 첫째, 원래 자료값을 줄기-잎-그림으로부터 얻을 수 있고, 둘째는 자료값을 크기순으로 나열하는 것을 용이하게 하여주며, 따라서 어떤 특정한 위치에 있는 자료값을 쉽게 구할 수 있다.  하지만 줄기-잎-그림의 중요한 단점은 자료의 크기가 클때는 부적합하다.
 

    5. 도수분포표

    양적 자료의 도수분포표를 작성하기 위해서는 먼저, 서로 인접한 자료값들을 집단화하여 전체 자료집합을 몇 개의 그룹으로 나눈다.  먼저 계급간격을 구한다.

    계급의 수는 으로 정한다.
    여기서 나온 값은 양쪽 극단값 즉, 최대값과 최소값을 포함시키기 위해서 반올림을 한다. 다음으로 첫번째 계급의 하측 경계값을 정해야 하는데, 어떤 자료값도 계급 간의 경계점에 놓이지 않게 하기 위하여 자료의 최소값보다 조금 작은 값을 선택하는데, 자료의 최소단위의 반을 자료의 최소값으로부터 뺀 값을 많이 사용한다. 이제 각 계급에 속하는 자료의 수인 계급도수를 계산하고, 각 계급도수를 이용하여 계급의 상대도수를 구한다.
    위의 자료를 가지고 도수분포표를 만들어 보았다.

    도수분포표를 작성하는 방법 정리.
    1. 자료의 최대값과 최소값을 찾는다.
    2. 자료의 크기에 따라 5~20개 정도의 계급의 개수를 정한다.
    3. 위에서 정한 계급의 수만큼 동일한 간격의 계급구간을 정한다. 이 때 각 계급구간은 서로 중복되는 부분이 없어야 하며, 어떠한 자료값도 계급 간의 경계점에 놓이지 않게 한다.
    4. 각 계급에 속하는 자료값의 개수를 세어 계급의 도수를 구한다.
    5. 각 계급의 도수를 전체 자료수로 나누어 계급의 상대도수를 구한다.
     

    6. 히스토그램

    양적 자료의 도수분포표를 구한 다음, 이를 그림으로 표현하는 방법 중의 하나가 히스토그램이다. 위의 자료를 히스토그램으로 그려보면 다음과 같다.

    히스토그램을 그릴 때, 경우에 따라 각 계급구간의 간격을 달리할 필요가 있다. 가령 대부분의 자료가 첫번째 구간에 있다면 이 구간을 다시 여러구간으로 나눌 수 있다. 계급간격이 서로 다를 때 히스토그램의 막대의 높이는 다음에 정의하는 상대도수밀도를 이용하여 구하면 편리하다.

     

    * 막대그래프와 히스토그램의 차이점: 히스토그램은 연속이거나 양적 자료에 대해 적절한 구간에 속하는 도수(혹은 상대도수)를 표현하는 그림으로 막대와 막대사이가 붙어 있고 막대의 순서를 임의로 바꿀 수 없다. 또한, 구간의 설정을 바꾸면 히스토그램의 모양도 바뀐다. 하지만, 막대그래프는 이산이거나 질적자료에 대해 주로 사용한다. 질적자료의 경우에는 막대의 위치를 바꿀 수 있고 일반적으로 막대와 막대 사이에 일정간격을 둔다.

■ 통계 자료의 정리방법(2)

앞에서 배운 줄기의 수나 계급의 수 등이 작성자의 주관적인 판단에 좌우되어 하나의 자료에 여러 개의 그림이나 표가 나올 수 있어 자료의 분석에 어려움이 따른다. 또한, 자료가 모집단이 아닌 표본일 때, 표본자료로부터 얻은 도표가 모집단의 도표에 얼마나 가까운지를 전혀 알 수가 없다. 이러한 단점들을 보완하기 위하여, 자료를 객관적으로 대표할 수 있는 수리적 측도가 도표와 더불어 널리 사용된다.
자료의 특성을 잘 나타내어 주는 수리적인 측도로서 중심위치의 측도, 산포의 측도, 상대적 위치의 측도 등을 생각할 수 있다. 중심위치의 측도는 주어진 자료가 어떤 값을 중심으로 분포되어 있는가를 알려주며 산포의 측도는 자료들이 분산되어 있는 정도를 알려 준다. 상대적 위치의 측도는 어떤 특정한 자료값이 주어진 자료의 어떤 위치에 있는가를 알 수 있게 한다.

먼저, 중심위치의 측도로서 평균, 중앙값, 최빈값등이 있다.

    1. 평균

    우리가 여기서 다루는 평균이란 산술평균을 의미하며, 중심위치의 측도로서 가장 많이 사용되고 있다.

    주어진 자료가 모집단일 때는 평균을 보통 로 표시되고, 표본일 때는 통상 로 표시된다.
    만약 자료에 극단값이 존재할 때는 오히려 그 극단값을 버리고 난 나머지 자료로부터 구한 평균이 더 큰 의미를 가진다. 극단값은 통계적 용어로 이상점이라 한다. 이러한 이상점에 영향을 받지 않는 것이 중앙값이다.

    2. 중앙값

    중앙값은 자료를 크기 순으로 나열할 때 가운데 놓이는 값이다. 자료의 수를 n이라 놓을 때, n이 홀수이면 (n+1)/2번째 자료값이 중앙값이 된다. n이 짝수일 때는 n/2번째와 n/2+1번째 자료값의 평균을 중앙값으로 정의한다.
    이와같이, 중앙값은 이상점에 민감하지 않으므로, 자료에 이상점이 존재할 때에는 평균보다 중심위치의 측도로서 더 큰 의미를 가진다.

    3. 최빈값

    최빈값은 질적 자료나 양적 자료 모두에 사용되며 간단히 말하면 자료중 가장 자주 나오는 값을 말한다. 하지만, 자료가 몇 개의 등급으로 나누어져 있다면 가장 도수가 높은 계급, 즉 최빈계급의 중간값을 최빈값으로 삼는다.
     

* 산포도: 자료가 평균과 같은 중심위치에서 얼마만큼 떨어져 있는가를 측정하는 측도가 필요하며 이 측도를 산포도(measure of dispersion)라고 한다. 가장 널리 쓰이는 산포도는 분산과 표준편차이다.

    4. 분산과 표준편차

    각 자료값과 평균과의 차이를 편차라고 하는데, 이러한 편차들을 하나의 값으로 나타내는 방법 중 편차들을 모두 합하는 방법을 생각할 수 있으나, 그러한 경우 항상 0이 되기 때문에 편차의 합 대신에 편차의 제곱의 합을 사용하는 것이 분산과 표준편차이다.

    모분산과 모표준편차

     

    5. 그 이외의 산포도(변동계수, 범위, 4분위수범위)
 

  • 변동계수는 두 종류의 자료의 산포를 비교함에 있어 두 종류의 자료값의 차이가 클 때 유용하게 쓰이며, 다음과 같이 정의한다.

    변동계수
    V = S / 

    ex) 다음 자료 1은 5명의 신생아의 몸무게이고, 자료 2는 5명의 성인의 몸무게이다. 자료값들간의 변화가 더 심한 자료는 어떤 자료인가?
    자료1: 4.0, 3.0, 3.5, 3.4, 3.6     평균:3.5 표준편차:0.36 V=0.103
    자료2: 71.0, 64.0, 67.0, 66.0. 59.0     평균:65.4 표준편차:4.39 V=0.067

  • 자료의 범위
    범위 = 자료의 최대값 - 자료의 최소값
    범위는 계산하기가 간편하나 이상점이 있을 경우 올바른 산포의 측도가 되지 못한다.
  • 사분위수는 크기 순서에 따라 늘어 놓은 자료를 4등분하는 수이며, 그 중 첫째를 제1사분위수, 셋째를 제3사분위수라 부른다. 중앙값은 두번째 사분위수이다.

    자료를 2등분으로 나눈 뒤에 처음 반의 중앙값이 제1사분위수, 나머지 반의 중앙값이 제3사분위수이다.
    사분위수 범위 = 제3사분위수 - 제1사분위수 = Q3
    - Q1

    6. 백분위수와 Z-값

    백분위수는 사분위수의 개념을 더욱 확대하여 크기 순서에 따라 나열한 자료값들을 100등분 하는 수값을 말한다. 즉 제P백분위수는 자료값 중 P%가 그 값보다 작거나 같게 되는 값이다. 제1사분위수, 중앙값, 제3사분위수는 각각 제25, 제50, 제75백분위수가 된다.

    백분위수: 제 P백분위수는 자료값 중 P%가 그 값보다 작거나 같고 (100-P)%가 그값보다 크거나 같게 하는 값이다.

    Z-값은 어떤 특정한 자료값이 평균으로부터 표준편차의 몇배만큼 떨어져 있는가를 측정한다.
    자료값 x의 Z-값
     

                          
     6 Sigma 연계 TPM  메인 페이지로              홈페이지 자료실 메인으로


 


KTI 연구소장/운영자 : 공학박사(산업공학)/기술사(품질)/기술지도사  권오운
Copyright (c) Since 2000 February, Korea TPM Institute. All rights reserved.