본문으로 건너뛰기

확률변수와 확률분포

1. 확률변수란?

1.1 확률변수의 본질. 이것이 왜 필요한가

확률변수는 불확실성을 수학적으로 다룰 수 있게 해주는 도구입니다.
실험이나 관찰의 결과를 숫자로 표현한 것이지요.

복잡한 현실 세계의 현상들을 다루기 위해서는 체계적인 도구가 필요합니다.
동전을 던져 앞면이 나올 확률 정도야 단순하게 12\frac{1}{2}이라고 말할 수 있겠지만, "비가 올 확률"이라거나 "이 학생의 시험 점수가 어느 정도일지"와 같은 질문은 어떻게 다뤄야할지 알 수 없습니다.

그렇기에 통계학은 무작위적이고 불확실해 보이는 현상들을 체계적으로 연구하고 예측하기 위한 첫 걸음으로서 불확실성을 수량화하기로 하였습니다. 예를 들면 오늘 하루 동안 받은 이메일의 개수, 사이트 방문자가 페이지에 체류한 시간 이런 것들처럼 말이죠.

이렇게 무작위적인 개념들을 수치화한 것을 확률변수라고 합니다.

1.2 확률변수의 가치

그렇다면 확률변수란 개념을 어떻게 이해하고 활용해야 좋을까요?
확률변수를 두 가지 관점으로 바라봅시다.

  1. 먼저 실제 현상을 직관적으로 생각해봅시다.
    확률변수를 아직 실현되지 않은, 불확실한 값으로서 바라보겠습니다.
    던지기 직전의 주사위처럼 여러 가능한 결과들이 존재하지만 그 중 어떤 값이 실현될지는 알 수 없는 잠재적인 상태인 것이죠.
    하지만 결국 어떤 값으로 실현될 것이라는 기대를 품으며 "이 값이 어떻게 될 것인가?"를 고민하기 시작하게 됩니다.
  2. 이제 수학적으로 엄밀하게 정의해봅시다.
    더 엄밀하게, 확률변수란 수학적으로 표본공간에서 실수로의 함수라고 할 수 있습니다.
    동전을 던졌을 때, 앞면이 나온 횟수와 같이 관찰 결과(사건의 결과)를 숫자에 체계적으로 연결짓는 것이죠.
    "결과를 숫자에 어떤 식으로 대응시킬지?"를 고민하며, 수학적인 계산과 분석의 토대를 세우기 시작합니다.

서로 보완적인 두 관점으로서 확률변수는 문제해결의 도구로 활용될 수 있게 되었습니다.
무작위성이 어떻게 존재하는지 이해하고, 이를 체계적으로 다룰 수 있게 된 것이죠.
불확실한 현상을 정확하게 분석하고 예측할 수 있게 된 것입니다.

2. 확률변수의 구분

2.1 이산형과 연속형

전통적으로 확률변수는 이산형과 연속형으로 구분합니다.
가능한 경우가 뚜렷하게 구분되고 셀수 있느냐를 기준으로 나누게 되죠.

  • 이산확률변수 (Discrete Random Variable)
    셀 수 있는 값들을 가지는 확률변수(예: 주사위의 눈금, 물품 구매 횟수)
  • 연속확률변수 (Continuous Random Variable)
    연속적인 값을 가지는 확률변수(예: 키, 온도, 시간)

2.2 명확히 짚어보는 기준

너무나 자연스러워보이는 이 구분. 곰곰히 생각해보면 조금 어색합니다.

  • 측정기기로 인한 모호함
    길이무게같은 연속적인 물리량도 저울과 같은 측정기기의 한계로 인해 이산화되기도 합니다. 컴퓨터가 처리하는 시간 개념도 이산적이라 볼 수 있죠.
  • 관점에 따른 모호함
    관점에 따라 달라지는 경우도 있습니다. 시간이란 개념을 초 등의 단위로 보면 이산적이지만, 연속체로 볼수도 있고 두 관점 모두 타당하게 보입니다.
  • 간격에 따른 모호함
    굉장히 촘촘히 발생하는 이산형과 드물게 발생할 연속형도 구분짓기 어려운 문제입니다.

이런 애매한 상황을 해결하고자 현대 통계학의 실제 적용에서는 몇 가지 방안을 제시합니다.
관측값이 아니라 변수의 본질적인 성질을 기준점 삼고, 측정으로 인해 이산화 되더라도 실용적으로 더 유용한 모델을 고르는 것이지요. 사람 0.5명과 같이 중간값이 의미가 없다면 이산형으로 취급하고, 가능한 값들이 매우 촘촘하면 연속형으로 취급하는 방식입니다.

다만, 앞서 말한 기준 또한 정량적이진 않습니다.
그렇기에 이런 구분은 절대적이지 않으며, 맥락과 목적에 따라 적절히 선택해야 한다는 점을 기억해야 합니다.
같은 현상이라도 연구 목적에 따라 이산형 또는 연속형으로 모델링 할 수 있음을 늘 염두에 두며 모델을 설계해야 할 것입니다.

3. 확률분포란?

3.1 확률분포의 의미

확률분포는 확률변수가 가질 수 있는 값과 각각의 가능성을 설명하는 규칙입니다.
확률변수로 정리된 불확실성이 어떤 모습으로 발생되는지를 수학적으로 표현한 것이죠.
쉽게 말하면 "어떤 값이 얼마나 자주 나타날까?"를 설명하는 것입니다.

여기서 중요한 점은 확률분포가 단순히 확률들을 나열한 것이 아닌, 여러 정보로서 확률적인 현상을 설명하는 도구라는 점 입니다.

가장 대표적인, 중심적인 값은 무엇인지.
크기는 어떻고 얼마나 퍼져있는지.
그중 어떤 값들이 더 자주 나타나는지.

이런 정보들을 담아 수학적으로 모델링한 것을 확률분포라고 부릅니다.
확률변수의 다양한 특성을 이해하기 위한 도구인 셈이죠.

3.2 확률분포의 유형과 표현

확률변수가 이산형연속형으로 나뉘기에 확률분포 또한 두 가지 유형으로 분류됩니다.
그리고 이를 표현할 때는, 확률변수가 가장 자연스러울 때의 모습을 수리적으로 정리해 함수로서 정의합니다.

  • 확률질량함수(pmf, Probability Mass Function)
    이산형 확률분포를 표현하는 함수입니다.
    주사위의 각 눈이 나올 확률(16\frac{1}{6})과 같이 특정 값에 대한 확률을 표현하죠.
  • 확률밀도함수(pdf, Probability Density Function)
    연속형 확률분포를 표현하는 함수입니다.
    특정 지점에서의 확률을 직접 제공하진 않고, 특정 구간에서의 확률을 면적으로서 제공하죠.

    여기서 잠깐!
    헷갈릴 수 있는데, pdf는 밀도 함수입니다.
    연속확률변수의 확률은 구간으로 표현되기에 특정 에서는 항상 0으로 정의되지만,
    밀도를 뜻하는 pdf는 0 이상의 값을 지닐 수 있습니다.(비음수성)
    확률을 구간 x 밀도라고 생각해봅시다.
    밀도가 높아도 특정 점에서는 구간이 0이기에 아무리 곱해도 0이 됩니다.

앞서 확률변수를 설명할 때, 이산형과 연속형의 근본적인 특성의 차이를 말했었습니다.

이산형은 셀 수 있는 개별적인 값을 다루기에 각 값이 나올 확률을 계산할 수 있습니다.
하지만 연속형은 무한히 많은 가능한 값을 다루기에 정확한 한 지점의 확률은 0에 수렴하지만, 범위로 생각하면 확률을 계산할 수 있게됩니다.

이런 이유로 확률분포를 함수로 표현할 때, 확률 자체를 나타내는 함수로서 pmf/pdf를 나눠 설명하게 된 것입니다.

3.2.1 번외. 확률분포함수는 뭔가요?

번외로, 학문적으로 정의된 단어는 아니지만 pmf/pdf를 통칭해 확률분포함수(PDF, Probability Distribution Function)라고 말하기도 합니다. 꼭 정해진 규칙은 아니지만, 확률분포함수는 대문자 PDF, 확률밀도함수는 소문자 pdf로 구분하기도 하죠.

편의상 사용되는 말이니만큼, pmf/pdf를 중심으로 기억하시면 좋겠습니다.

확률분포는 수리통계학에서 정말 중요한 근간인데요.
대표적인 확률분포들은 이후 확률분포 챕터에서 다룰 예정이므로 이 문서에선 개념 위주로만 다루고 넘어가겠습니다. 또, 가장 자연스러울 때라는 말도 확률분포 챕터에서 다루도록 하겠습니다.

3.3 누적으로 표현한 확률분포

확률분포를 표현하는 또 다른 방법으로는 누적분포함수(cdf, Cumulative Distribution Function)가 있습니다.

확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수죠. "손님이 카페에 30분 이하로 머물 확률"이나 "오늘 이메일이 10개 이하로 올 확률"과 같이 "어떤 값 이하가 될 확률"을 계산할 때 활용됩니다.

앞서 이산/연속으로 나누어 확률분포의 표현을 다루었는데, 누적분포함수는 어떤 확률변수에도 상관없이 정의되는 함수입니다.

  • 이산형에서는 해당 값 까지의 pmf를 더해 계단 모양으로 표현되고,
  • 연속형에서는 해당 값 까지 pdf를 적분해 매끄러운 곡선으로 표현됩니다.

이때, 누적이라는 특성으로 인해 생기는 성질도 있습니다.

  • xx가 증가하면, F(x)F(x)도 증가합니다.(단조증가)
  • 또한 끊어지지 않고 모든 xx에 대해 정의됩니다.
    • 오른쪽에서 접근할 때의 극한값은 함수값과 동일하고,(우연속)
    • 왼쪽에서 접근할 때도 극한값이 존재함이 보장됩니다.(좌극한 존재)

굳이 왜 cdf를 만들었을지 곰곰히 생각해보면, 누적이라는 관점으로서 얻을 장점이 많아 보입니다.
확률변수의 유형에 관계없이 문제를 다룰 수도 있고, 변수가 어떤 구간에 있을지 분위수를 구하기도 쉽습니다. 더욱이 pdf가 존재하지 않더라도 cdf는 정의될 수 있죠.

확률분포는 pdf/pmf와 같은 말이 아니며, cdf를 비롯해 다양하게 표현될 수 있다는 점을 기억하면 좋을 것 같습니다.

4. 확률변수와 분포의 한계 및 주의점

4.1 단순화한 가정에 비해 복잡한 현실

앞서 보았듯 확률분포는 현실의 불확실성을 모델링하고자 도입한 강력한 도구입니다.
통계를 잘 다루며 실제로 적용하려면 챙겨야할 몇 가지 중요한 한계와 주의점이 있습니다.

  • 단순한 가정의 위험
    당연하지만, 많은 현상은 확률분포로 대응시키는 과정에서 중요한 정보가 손실 될 수 있습니다.
    데이터가 더 복잡한 패턴이거나, 아예 다른 분포에 더 적합할 수 있죠.
    어떤 분포를 따르리라 맹목적으로 믿고, 성급히 적용해선 안됩니다.
  • 현상의 불안정성
    대부분의 경우, 지금까지 관측한 고정된 결과를 전제로 합니다.
    하지만 실제 현실에서는 분포가 시간과 같은 여러 요인에 따라 변할 수 있습니다.
    주식시장이라거나, 가게 방문자 수 같은 것만 떠올려봐도 시간은 상당히 중요한 요소입니다.
  • 변수간의 상호작용
    실제 현상들은 여러 확률변수가 서로 영향을 주고 받습니다.
    단일 확률분포만으로는 복잡한 관계를 표현해내기 어렵습니다.
    더욱이 예상치 못한 특별한 상황에서는 기존 데이터와 분포 자체가 달라질 수 있습니다.
  • 측정의 한계
    관측된 데이터는 유한할 수 밖에 없고, 표본이 실제 분포를 대표하지 않을 수 있습니다.
    편향이 되어있진 않은지 의심하고, 검증해야 한다는 말입니다.

4.2 그럼에도 필요한 기본적인 도구

현실의 복잡한 변수를 모두 다룰 수는 없습니다. 간단히 다루려고 모델링을 하다보니 당연하게도 한계가 있을 수 밖에 없습니다. 그렇기에 더더욱 모델링 과정에서 "실제와는 다르지만, 이정도면 충분히 설명할 수 있겠다" 라는 말을 할 수 있도록 숙고해야할 것입니다.

한계점을 이해하고, 적절히 유연하게 접근하는 것이죠.
선택한 확률분포를 데이터를 토대로 통계적 검증을 거치고, 필요하다면 분포를 미리 가정하지 않는 접근도 고려해야 합니다.
확률분포는 완벽한 표현이 아니라 불확실성을 이해하는 도구란 점을 반드시 명심해야 할 것입니다.

5. 요약 정리

앞으로의 글에 근간이 되는 기본 개념이라 신경써서 다루려다보니 글이 많이 길어졌습니다.
표 형식으로 요약하며 글을 마무리해보려 합니다.

확률은 가능성이고, 확률변수는 결과를 수치화한 것이며,
확률분포는 확률변수가 어떤 값을 어떤 확률로 지닐지 표현한 함수 정도로 생각하면 되겠습니다.

개념의미특징수학적 표현
확률불확실한 사건이 일어날 가능성0과 1 사이의 값0P(A)10 \leq P(A) \leq 1
확률변수관찰 결과를 수치화한 변수이산형/연속형으로 구분X:ΩRX: \Omega \rightarrow \mathbb{R}
확률분포확률변수가 가질 수 있는 값들과 각 확률의 분포분포의 형태로서 현상 설명-
PMF이산확률변수의 각 값에 대한 확률 함수전체 값의 합 = 1P(X=x)P(X = x)
PDF연속확률변수의 확률밀도를 나타내는 함수전체 면적 = 1P(aXb)P(a \leq X \leq b)
CDF확률변수가 특정 값 이하가 될 확률 함수우측으로 갈수록 증가하며(단조증가),
끊어지지 않고 이어짐(우연속)
P(Xx)P(X \leq x)