본문으로 건너뛰기

확률의 정의

1. 확률이란?

확률이란 무엇일까요? 간단히 말해 어떠한 일이 벌어질 가능성을 의미합니다. 사전에서는 일정한 조건 아래에서 어떤 사건이나 사상(事象)이 일어날 가능성의 정도. 또는 그런 수치.라고 정의합니다. 도박사의 문제를 해결하는 과정에서 확률이론이 발전하기 시작했죠. 17세기 프랑스 수학자 Blaise Pascal(1623-1662)과 Pierre Fermat(1601-1665)로부터 시작되었다고 알려져 있습니다.

2. 확률의 세 가지 해석

너무나 일상적으로 사용하는 확률이라는 단어는 크게 세 가지 관점으로 해석할 수 있습니다.
실험을 해서 비율을 측정하거나(빈도론적), 동등한 경우라 가정하고 수치적으로 예측하거나(고전적), 신념이나 기존의 생각과 지식 기반해 해석하는(주관적) 방법이 있습니다.
말장난같을 수 있지만, 각각 나름대로의 의미가 있죠. 세가지를 정리해보면 아래와 같습니다.

  1. 빈도론적 해석 (Frequency Interpretation)

    • 동일한 실험을 무한히 반복할 때 특정 사건이 발생하는 상대적 비율
    • 예: 동전을 무한히 던질 때 앞면이 나오는 비율 = 동전 던지기에서 앞면이 나올 확률 ≈ 1/2
    • 머신러닝에서 가장 흔히 사용되는 해석(Dropout 등)
  2. 고전적 해석 (Classical Interpretation)

    • 각 사건이 동등하게 발생할 때, 가능한 경우 중 특정 사건이 차지하는 비율
    • 예: (모든 면이 동등하게 나오는)주사위에서 짝수가 나올 확률 = 3/6
  3. 주관적 해석 (Subjective Interpretation)

    • 개인의 신념이나 지식에 기반한 확률(믿음의 정도)
    • 예: 여러 상황을 종합한 투자자의 추정 = "내일 A종목이 오를 확률은 70% 정도다"
    • 베이지안 통계학의 기초이며, 머신러닝의 베이지안 방법론에서 중요하게 사용

이러한 해석들은 상황과 필요에 따라 적절히 적용하게 됩니다.
다량의 데이터가 있다면 빈도주의적 접근이 가능할테고, 불확실성이 균등하게 분포되었다면 고전적 접근이 가능할 것입니다. 반면에 현실의 여러 경우와 같이, 정보가 불완전하거나 개인의 판단이 필요하면 주관적 해석을 할 수 밖에 없게되겠죠.

3. 확률의 공리적 정의

그렇다면 우리는 확률을 그래서 어떻게 정의할 수 있을까요?
수리적으로는 아래 세 가지 공리를 만족하는 함수 P확률이라 부릅니다. 이 공리는 Kolmogorov's axioms라고 불리는데요. 확률을 논의하기 위해 전제로 삼는 근간으로서 1933년 소련의 수학자 안드레이 니콜라예비치 콜모고로프가 제시하였고, 현대 확률론의 토대가 되었습니다.

  1. 비음수성 (Non-negativity)
    P(A)0P(A) \geq 0
    모든 사건 A에 대해 확률은 0보다 크거나 같다

  2. 정규화 (Normalization)
    P(Ω)=1P(\Omega) = 1
    전체 표본공간(Ω)의 확률은 1이다

  3. 가산가법성 (Countable Additivity)
    서로 배반인 사건들 A1,A2,...A_1, A_2, ... 에 대해: P(i=1Ai)=i=1P(Ai)P(\cup_{i=1}^{\infty} A_i) = \sum_{i=1}^{\infty} P(A_i)
    동시에 발생할 수 없는 사건들에 대해, 사건들의 확률은 각 사건의 확률의 합이다

이렇게 보면 너무나 보편적인 개념이지요?
여기서 오해가 생길 수 있는데, 정의는 말그대로 확률을 정량적으로 구조화할 수 있는 틀을 제공할 뿐입니다.
이렇게 구조화된 결과를 확률이라 부르며, 해석은 어떤 관점에서, 어떤 방식을 사용하냐에 따라 달라질 수 있습니다.

+. AI/ML에서의 의미

머신러닝에서 확률이 왜 사용될까요? 아마 다음과 같이 세상을 정량화하고, 어떤 기준을 세우는 근간이 되기 때문일 것입니다. AI/ML에서 확률은 아래와 같이 중요한 역할을 하게됩니다.

  1. 불확실성의 정량화
    모델 예측값의 신뢰도 측정, 데이터 노이즈 모델링, ...

  2. 의사결정의 기준
    강화학습에서의 행동 선택, 분류 태스크에서 클래스 결정, ...

  3. 모델 학습의 기준
    Cross Entropy Loss, 확률 그래프 모델, 최대 가능도 추정, ...

사실 이 이야기는 여기서 모두 다루기엔 적절하지 않을 수 있겠습니다.
그래도 막연히 수리통계를 배우기보단, 활용 가능성이 많다는 걸 다시 한번 상기시키면 좋지 않을까 싶어 가볍게 이야기해보았습니다. 언젠가 모두 다룰 수 있겠지요?