6σ 연계 TPM추진 방법론

SSL보안서버인증필

통계학의 기초 개념

통계

집단 현상에 대한 수집된 자료를 정리하여 그 자료가 나타내고 있는 의미를 항목별로
어떤 수치로서 표시하고 분석해서 설명하는 것이다.

*통계학(statistics)

과학적인 이론에 근거하여 연구 목적에 필요한 자료를 최적한 방법으로 수집하고 과학적인
이론에 의하여 정리, 분석하는 방법을 제시해 주는 학문이다. 현대 사회에서 통계학은 인문
사회, 자연과학에 모두 이용되고 있으며 또 그 중요성이 강조되고 있다. 그 이유는 통계적
방법의 과학성이다. 통계학에서는 막연한 추측이나 의사결정을 허용하지 않는다. 과학적인
이론에 근거하여 우리의 관심사에 대한 정확한 대상이 선정되어야하며, 연구목적에 필요한
자료와 정보가 경제성과 정밀도를 고려하여 최적한 방법으로 수집되고, 수집된 자료는 과학적
이론에  의하여 정리, 분석되어야 한다. 이러한 방법을 제시해 주는 것이 바로 통계학이다.


*통계학의 종류

기술 통계학(descriptive statistics)

  통계 자료를 수집, 정리하여 표나 그래프를 사용해서 표현하고, 자료를 요약하여 대표값
  이나 산포도와 같은 자료의 전박적인 특성을 수량화해서 나타내는 방법을 다루는 분야이다.
    <예> 합계, 평균, 분산, 상관계수, 교통사고계수, 운동선수 기록 등

추측 통계학(inferential statistics)

  불확실성이 내포된 상황 아래서 올바른 의사결정을 하기 위해 주어진 자료를 분석하여 현재의
  상태를 파악하거나 미래의 현상을 예측하는 데 도움을 주는 통계적 추론을 다루는 분야이다.
  이는 확률론이 바탕이 된다.   <예> 모집단, 표본, 모수, 표본통계량, 추정, 가설검정 등


*대표값(central mean)의 정의

측정형 자료의 경우에는 돗수분포표로부터 자료의 특성을 파악할수도 있지만 측정값들을 객관적
으로 대표할 수 있는 측도들을 많이 사용하게 된다.주로 주어진 자료들이 어떤 값을 중심으로 분
포되어 있는가를 나타내는 것으로서,통계집단의 자료전체를 하나의 수치로 요약하여 대표시킨 값
을 대표값이라 한다.

*대표값의 종류
 
 계산적 대표값

   - 모든 변량이 계산에 참여하는 추상적 대표값으로서,극단적인 값의 영향을 받는 대표값이다.
     여기에는 산술평균(arithmetic mean), 기하평균(geometric mean), 조화평균(harmonic
     mean), 평방평균(quadratic mean)이 있다.
     
     1)산술평균
       x1,x2,x3 의 자료가 있을때 이자료들의 산술평균값은 (x1+x2+x3)/3 이다.
     
 위치적 대표값

   - 모든 변량이 계산에 참여하지 않는 구체적 대표값으로서,극단적인 값의 영향을 받지 않는
     대표값이다. 여기에는 중위수(median), 최빈수(mode), 사분위수(quartile)가 있다.

     1)중위수(median)
      - n개의 자료를 크기순으로 배열했을때
        n개가 홀수이면 (n+1)/2 번째의 값(중앙값)
        n개가 짝수이면  n/2번째와 (n/2)+1 번째값의 산술평균 이다.

     2)최빈수(mode)
      - 변량들 중에서 제일 여러번 나오는수,즉 빈도가 제일 높은 수를 말한다.

     3)사분위수(quartile)
      - 자료의 총 돗수가 많을때 중위수의 개념을 확대하여 주어진 자료를 크기순으로 나열해
        놓는데 이 자료를 4등분했을때 각각에 해당하는 변량을 말한다.
        여기에서  제 p사분위수라 함은 자료를 크기 순서로 늘어 놓았을때 적어도 p%의 관측
        값이 그 값보다 작거나 같고, 또한 적어도 (100-p)%의 관측값이 그 값보다 크거나 같게
        되는 값을 말한다.
        
        제1사분위수 =제 25백분위수
        제2사분위수 =제 50백분위수
        제3사분위수 =제 75백분위수

예를 들어 계산적 대표값과 위치적 대표값의 차이를 알아보자.

<예> 5개의 측정값 3,6,8,12,16 의 산술평균값 =(3+6+8+12+16)/5=45/5=9
     중위수=변량의 갯수가 홀수개이므로 중앙값 8이된다.


산포도(measure of dispersion)

대표값과 더불어 분포의 형태를 나타내는 중요한 척도로서, "변량들이 대표값 주변에 얼마나
흩어져 있는가"  그 정도를 측정하는 값이다.

*산포도의 종류

  절대적 산포도

  - 계량 단위가 같거나 대표값의 차이가 적은 두 자료의 산포를 비교하기 위하여 사용한다.

    범위(range)
      -자료의 집합에서 최대측정값과 최소 측정값의 차이를 말한다.

    평균편차(mean deviation)
      -변량들의 산술평균을 구하여 이 산술평균과 각 변량간의 편차에 절대값을 취해 이들에
        대한 산술평균을 구한 것을 말한다.

    사분편차(quartile deviation)
      -대표값 중 제3사분위수에서 제1사분위수를 뺀 값을 2로 나눈값이다.

    분산(variance)
      -각변량과 산술평균의 편차를 제곱한 것의 평균을 말한다.

    표준편차(standard deviation)
      -분산의 양의 제곱근을 말한다.


 *상대적 산포도

  - 계량단위가 틀리거나 대표값의 차이가 큰 두 자료의 산포도를 비교하기 위하여 사용한다.

   변이계수(coefficient of variation)
     - K.Pearson에 의해 만들어진 값으로표준편차를 산술평균으로 나눈 몫이다.

   사분위 편차계수
     -사분편차/중위수
  
   평균편차계수
     -평균편차/산술평균 or 평균편차/중위수

  이 밖에도 자료의 정도가 치우친 방향과 정도를 측정하는 값으로 왜도(skewness) 가 있고,
 돗수분포 곡선의 모양중 정점이 얼마나 뽀족한가를 측정하는 값으로 첨도(kurtosis) 가 있다.

 

1.2 통계학의 발전 과정

통계학(statistics)의 어원은 라틴어의 status(국가 또는 상태)에서 유래되었기 때문에 통계학은 원래 국가 또는 정치와 밀접한 관계가 있는 학문이었다. 고대의 통치자들은 국가의 재정 및 방위를 위하여 납세와 징병을 부과시켜야 했고, 이를 위해서 과세대장, 토지대장, 징병대장 등을 만들어 사용했으며, 이때부터 통계조사의 형태가 실시되었다고 볼 수 있다. 즉, 독일에서느 콘링(H. Conring : 1606∼1681)에 의하여 창시된 국상학 (staatenkunde)이 오늘날의 통계학의 성질을 갖는 학문적 체계였으며, 특히 이 학파의 대표적인 학자인 아헨발(G. Achenwall : 1719∼1772)은 국상학을 계속 발전시키면서 통계학이라는 명칭을 최초로 사용하여 오늘날 그를 『통계학의 아버지』라고 부르고 있다.

독일의 국상학과 거의 동시에 영국에서 성립된 통계학의 근원적인 학문체계는 정치산술학(political arithmetics)이다. 이 학파의 대표적 학자는 그랜트(J. Graunt: 1620∼1674)로써 그는 1662년 "사망표에 관한 자연적, 정치적 관찰"(Natural and political observations upon the bills of mortality)이라는 문을 발표하였고, 이를 통하여 대량관측에서 법칙성을 발견하고자 했다. 그런데 국상학은 현상을 문장으로 기술하고자 했으나 정치산술학에서는 수량적인 자료로서 분석하고 설명하였다.

근대 통계학의 성립은 프랑스, 이탈리아, 스위스 등에서 시작된 확률론의 발달에서 비롯된다. 베르누이(J. Bernoulli : 1654∼1705)에 의해 발견된 대수의 법칙(The law of large numbers), em 무아브르(A. De Moivre : 1667∼1754)에 의해 정리된 확률이론, 라플라스(P.S. Laplace : 1749∼1827)에 의해 출간된『확률의 이론적 분석(Theorie analytique des probability : 1882)』 등의 연구들이 통계학의 중요한 매개체로서 확률이론을 정립시켰다. 이러한 영향을 받은 케틀레(L.A.J. Quetelet : 1796∼1874)는 영국의 정치산술학과 독일의 국상학을 종합하여 근대적인 수리통계학을 대성시켰다. 즉, 19세기에 들어와서 통계이론은 케틀레의 의하여 근대적 과학으로서의 통계학으로 정립된 것이다. 그래서 케틀레를 『근대통계학의 시조』라고 부른다.

현대 통계학은 20세기 초 영국의 고셑(W.S. Gosset : 1876∼1937)이 표본본추출에 의해 획득한 자료의 해석방법을 통계학 학술지인 'Biometrica'에 1906년 발표하여 소표본에 의한 추측통계학으로 발전되었다. 고셑의 표본추출이론은 피셔(R.A. Fisher : 1890∼1962)에 의하여 모든 과학적인 조사에서 실험이론이 도입되었고, 또한 그는 귀무가설이라는 개념을 최초로 소개하였으며 분산분석에 대한 이론적 발전에 기여하였다. 특히 제2차 세계 대전을 전후하여 컴퓨터의 급속한 발달은 현대 통계학의 발전을 더욱 가속화시켰다고 할 수 있다.

통계학의 역사

통계학의 기원은, 기록상에는 인구조사가 시작이었습니다. 구약성서에 나타난 내용으로는 "이스라엘 자손이 애굽 땅에서 나온 후 제 이년 이월 일일에 여호와께서 시내 광야 희막에서 모세에게 일러 가라사대 너희는 이스라엘 자손의 모든 회중각 남자의 수를 그들의 가족과 종족을 따라 그 명수대로 계수할지니 이스라엘중 이십세 이상으로 싸움에 나갈 만한 모든 자를 너와 아론은 그 군대대로 계수하되..." 뭐 이렇게 타 부족과의 싸움을 위한 전투요원의 수를 알고자 모세가 유태인에 대한 인구조사를 기원전 1500년에 실시하였습니다.

  그러나 실제적으로 인구조사는 과세의 목적으로 훨씬 더 이전시대에 이루어 졌었습니다. 고대 바빌로니아, 중국, 이집트에서의 인구조사들은 분명히 기원전 3000년전부터 실시되었습니다. 약간 특이한 점이라고 볼 수 있는 점은 성경에서 다윗에 의한 인구조사로 신의 분노를 사 흑사병으로 인해 많은 수의 사람이 사망했다는 구절이 있어, 이로 인해 인구조사 자체가 대중적인 거부감을 가지게 되었다는 점입니다. 1712년 뉴욕의 주지사였던 Hunter의 기록에 의하면 "나는 군들과 도시들에 대한 주민과 노예의 수를 계산하여 등급을 나타내려 하였으나, 조사의 마지막 번호에 있는 주민은 병이 뒤따른다는 단순한 미신 때문에 조사를 거부하여 주민과 노예의 수를 정확하게 구할 수가 없었다."라는 내용이 있습니다. 그러나, 초기의 센서스는 군사적인 징병과 세금 징수를 주요한 목적으로 하였기 때문에 일반 국민들이 거부감을 가지는 것은 당연하였을 지도 모릅니다.

  Census라는 말 자체에는 과세한다는 뜻의 라틴어인 Censere로 부터 유래된 것입니다. 로마시대에는 국가의 조직이 발달되면서 과세의 목적과 군사적인 징병목적을 위해 로마의 6대왕 투리우스(BC 534-378)시대부터 서기 74년까지 5년 주기의 센서스가 실시되었습니다. 그러나 로마 제국이 붕괴되면서 17세기까지 서구세계에서는 실시되지 않았습니다.

  17세기 중반 독일에서는 콘링(H. Cornirng)이 국가의 중요사항인 국토, 군사, 인구 및 행정에 관하여 강의한 이래 아헨벨(G. Achenwall)이 처음으로 국상학(國狀學, Staatenkunde)이란 용어를 쓰고 이것을 국가의 중요사항을 기술하는 학문이라 정의했습니다. 특징이라면 토지, 주민, 지리, 산물, 역사, 행정조직을 통계자료의 활용없이 문장의 중점을 두고 기술했다는 점을 들 수 있겠습니다. 독일과 비슷한 시기에 영국에서는 1603, 1625, 1665년에 흑사병으로 많은 사상자가 발생하자 1603년부터 런던시청에서 출생과 사망에 관한 통계를 주보로 발표하기 시작했습니다. 또한 이를 토대로 하여 1662년에는 상인 그란트(J. Grant)에 의해 시청에서의 발표자료를 근거로 "사망표에 관한 자연적 및 정치적 관할(Natural and Political Observation upon the Bills of Mortality)"이라는 저서를 발표하기 하였습니다. 이때부터 여러 학자 및 인물들에 의한 저서들이 출간되기 시작했습니다.

  통계학의 생성과 전개과정에 있어서 확률론의 발달은 무시할 수 없는 요인입니다. 프랑스와 이탈리아에서는 도박의 승률을 수학적으로 규명하는데 성공하였으며 그것이 바로 확률론의 기초가 되었습니다. 여기에는 파스칼(B. Pascal)과 페르매(P. Fermat)사이에서 주고받던 카드놀이에 대한 수학적 문제가 많은 사람들의 관심을 불러 일으켰었습니다. 이와 같이 확률문제가 많은 사람들의 관심사로 된 이변에는 도박을 통해 부를 축적하려던 상인들의 갈망이 있었음에는 두말할 나위가 없었습니다. 이런 배경을 두고 시작된 확률론은 파스칼이후 드모아브르(A. de Moivre), 베르누이(J. Bernoulli), 베이즈(T. Bayes)등을 거쳐 라플라스(P.S Laplace)의 "확률의 해석적 이론(1812)"에 의해 집대성 되었습니다. 이러는 동안 대수의 법칙이 확립되고 중심극한정리의 발견에 까지 이르게 됩니다. 대수의 법칙은 통계학에 대한 대량관찰의 기초이론을 제공하였고, 중심극한 정리는 오차이론에 있어서 하나의 지주가 된 것입니다.

  일반통계나 관청통계가 19세기 초에 이론과 더불어 보급되고 있을 무렵, 벨기에의 천문학자 께트레(L.A.J Quetelet)가 천문대 건설을 위해 파리에 머물고 있을 때였습니다. 이동안 라플라스, 포와송(S.D Poisson), 푸리에(J. Fourier)등을 만나 수학과 확률론을 공부하고 인구통계와 범죄통계를 연구하여 "사회물리학 혹은 인간과 인간능력발전에 관한 고찰(1835)"를 저술하게 됩니다. 여기서 그는 그란트와 쥬스밀즈흐의 정치산술에다 라플라스의 확률론을 적용해 인구현상 이외에 도덕현상이나 범죄현상 같은 무질서해 보이는 사회현상에 있어서도 일종의 규칙성이 존재한다는 것을 증명하게 됩니다. 그러나, 이러한 이론은 인간의 자유의사를 부정하는 극단적 기계론인 자연관에 입각하였다는 점에서 비판 받지 않을 수 없었습니다.

  께트레 이후 근대기술통계학의 발달에 획기적인 공헌을 한 사람은 갈톤(F. Galton)과 피어슨(K. Pearson)입니다. 이들은 당시에 각 분야에서 과학적 사고가 확산됨에 따라 통계적 방법에 의한 규칙성 또는 법칙성의 인식문제를 사회현상뿐 아니라 자연현상에까지 확산되고 있을때 통계적 방법을 자연현상에 적용하여 법칙성을 찾으려고 시도한 최초의 사람들 입니다. 그당시 다윈(C. Darwin)의 "종의 기원(Origine of Species by means of Natural Selection, 1895)"이 출판되면서 세상을 놀라게 하고 있었습니다. 이때 웰돈(W. F. R. Weldon)은 다윈의 진화론을 믿고 생물진화에 관한 측정값들의 분석에 갈톤과 피어슨의 방법을 이용하였습니다.

  갈톤은 런던대학의 수학자에 의해 제시된 "오차의 정규성"을 여러 인체의 측정값으로 입증하려 하였고, 다윈의 영향과 웰돈의 권고로 진화론의 과학적 입증연구에 몰두하게 됩니다. 여러 측정값과 실험값에 의해서 형질유전을 박히려다 복귀(復歸)의 원리를 발견하는데 이것이 회귀(Regression)과 상관(Correlation)의 개념입니다. 이들에 대한 개념과 방법은 피어슨에 의해서 체계화 되었습니다.

  피어슨은 우연론이나 확률론을 단순한 추상적 수리에서 구체적 문제분석에 응용하려다 웰돈의 권유에 다라 진화론을 연구하게 됩니다. 처음 웰돈의 요청으로 나폴리산 게 1000마리의 집게발 측정값의 집합을 분석한 결과 평균을 중심으로 비대칭적인 분포를 띄고 있슴을 발견하게 됩니다. 웰돈은 그 분포가 정규분포가 아니라면 불안정한 이상원인이 작용한 것으로 간주하고 그 원인을 규명하려 했습니다. 즉, 생물진화에서 종의 분화과정이 잠재해 있다고 상정하고 이것을 피어슨에게 입증하도록 의뢰한 것입니다. 그결과 피어슨은 6개의 모수에 의해서 2개의 겹쳐지는 정규분포를 만들어 종의 분화현상을 입증하였습니다. 또한 갈톤의 유언에 따라 1911년 런던대학에 갈톤연구실을 설립하고 갈톤교수직을 맡아 연구실의 계산력을 동원, 2항계수표, 삼각함수표, 계승수표, 대수표등을 발표하여 통계적 방법의 실용화 보급에 크게 기여하였습니다.

 그당시 영국에서는 과학적 사고가 유전학이나 우생학 분야에서만이 아니고 일반 산업계까지 파급되어 아일랜드의 맥주회사인 긴네스맥주(Guinness Breweries)에서 보리의 파종, 성장, 수확, 양조하는 데 까지 각단계에서 재료의 품질변동과 온도변화에 따른 맥주의 품질변화문제에 고심하고 있었습니다. 이러한 문제를 과학적으로 처리하고자 옥스퍼드대학에서 수학과 화학을 공부한 고셑(W. S. Gosset)을 기사로 채용하게 됩니다. 고셑은 재료의 품질변동이 심하고 온도변화에 민감한 양조실험이기 때문에 소표본에 의지할 수 밖에 없었고 당시 피어슨의 이론은 대표본을 전재로 한 것이기 때문에 조셑에게 직접적인 도움이 되지 못했습니다. 이런 상황을 극복하기 위해 제시한 것이 "스튜던트 t-분포(Student's T-Distribution)"입니다. 이 분포의 발견으로 추측통계학이 시작됩니다.

  추측통계학은 훗날 피셔(R. A. Fisher)에 의해서 집대성 됩니다. 피셔는 캠브리지 대학교에서 수학, 물리학, 천문학을 전공하였고 생물학, 특히 유전학에 큰 관심을 갖고 있었습니다. 그의 첫 논문은 재학중인 1912년 천문학 데이터의 확률모형적합에 관한 것으로 최우추정법(Maximum Likelyhood Method)의 기원을 이루는 것으로 유명합니다. 1917년 피어슨의 연구팀이 상관계수에 관한 연구결과를 Biometrika에 발표한 바 있는데 피셔의 연구결과가 거기에서 받아들여지지 않았음을 알고 이후 피어슨과 앙숙관계가 됩니다. 피셔는 이후 로담스테드의 농사시험장의 통계실장으로 자리를 옮겨 14년간 실험계획 및 통계학 이론분야의 황금같은 논문들을 발표하게 됩니다. 1925년 "연구자를 위한 통계적 방법(Statistical Method for Research Workers)", 1935년 "실험계획법(The Design of Experiments)"등을 저술하였습니다. 여기에 내포된 추정론, 가설검정론, 분산분석법, 실험배치와 그 결과의 분석법 등은 그 당시까지의 농사시험장에 혁명적인 변환을 가져오게 하였으며, 확률화와 층화라고 하는 원리를 도입하여 난괴법, 라틴방격 등을 창안하게 됩니다.

  1933년 피어슨이 대학에서 은퇴하자 그의 자리는 둘로 쪼개지게 됩니다. 그중 우생학 교수로는 피셔가, 통계학 교수자리에는 피어슨의 아들인 피어슨(E. S. Pearson)이 차지하게 됩니다. 피어슨은 1935년 네이만(J. Neyman)을 끌어들이고 가설검정이론과 신뢰구간 추정에 관한 논문을 발표하면서 피셔와의 논쟁을 아버지대 이후에도 끌어갔고, 결국에는 감정적인 관계가 되고 말았습니다. 네이만-피어슨의 가설검정(Hypothesis Testing), 신뢰구간(Confidence Interval)에 대응하여 피셔는 유의성 검정(Significance Test), Fiducial Interval을 각각 주장하였습니다.

  갈톤, 피어슨, 고셑, 피셔 그리고 네이만 등에 의해 통계학은 과학적 방법으로 완성됩니다. 이러한 통계적 방법은 인류학, 천문학, 세균학, 식물학, 임학, 농학, 경제학, 심리학, 보건학 등 광범위한 과학분야의 연구에 크게 기여하였습니다. 심지어 사회과학이 과학의 영역에 도달하게 된 것은 통계적 방법의 기여가 있었기 때문입니다.

  이상과 같은 이론의 발전과 관련해서 응용분야에 있어서도 슈하르트(W. A. Shewhart)의 통계적 품질관리, 닷지(H. F. Dodge)와 로미그(H. G. Romig)의 발췌검사법, 데밍(W. E. Deming)과 코크란(G. W. Chochran)의 표본조사법 등이 개척되게 됩니다.

  네이만과 피어슨의 순수 수리통계 이론은 노이만(J. von Newmann)의 게임이론과 결부되어 왈드(A. Wald)에 의한 통계적 결정 이론을 낳게 됩니다. 더욱이 1950년대 이후 컴퓨터의 보금과 정보혁명에 의해 통계학은 사회과학, 자연과학 및 인문과학에까지 실용가치를 나타냄으로써 여러 현상을 인식등에 유효하게 사용되고 있습니다

 참고 : sigma6.new21.org/

                          
     6 Sigma 연계 TPM  메인 페이지로              홈페이지 자료실 메인으로


 


KTI 연구소장/운영자 : 공학박사(산업공학)/기술사(품질)/기술지도사  권오운
Copyright (c) Since 2000 February, Korea TPM Institute. All rights reserved.