SU Library

통계이론 - 조건부확률 1 본문

수학/확률

통계이론 - 조건부확률 1

S U 2023. 5. 25. 05:20

 

다시 통계공부를 시작해서 오늘은 통계 기초에 대해 포스팅하려고 합니다.머신러닝과 딥러닝에서는 베이즈 이론이 상당히 많은 부분을 차지하므로, 이를 다시 공부하는 것에 포커스를 맞추려고 합니다. 이를 이해하기 위한 기초적인 개념에 대해 포스팅하겠습니다.

 

확률공리


  1. 어떤 사건 A가 발생할 확률은 0보다 같거나 큽니다. $$P(A) \geq 0$$
  2. 모든 표본공간(사건이 발생하는 모든 경우를 모아놓은 공간) S에 대한 확률의 값은 1입니다. $$P(S)=1,     S =\{A_1, A_2,A_3, \dots, A_n\}, $$
  3. 표본공간 S에 정의된 사건열에 대해 겹치지 않으면(mutual exclusive), 다음이 성립합니다.$$P(\cup_{i=1}^{\infty}A_i)= \sum_{i=1}^{\infty}P(A_i)$$

공리적 접근 방식에 의해 확률이란 표본공간을 정의역으로 하며 위 세가지 조건들을 모두 만족해야합니다. 이는 집합에 대한 다음의 개념들을 숙지하고 가야합니다. 두 개의 사건 A와 B에 대해 다음의 4가지 성질들이 성립합니다.

$$(1) P(A^c) = 1-P(A)$$

$$ \because 1= P(S) = P(A \cup A^c)=P(A)+P(A^c)$$

$$(2) P(\emptyset) = 0$$

$$ \because 0=1- P(S) = P(S^c)=P(\emptyset)$$

$$(3) \mathrm{if} A \subset B, P(A) \leq P(B)$$

$$ \because P(B) = P(A)+P(B \cap A^c) \geq P(A)$$

$$(4) P(A \cup B) = P(A)+ P(B)- P(A \cap B)$$

$$ \because P(A) = P(A \cap B^c)+P(A \cap B),P(B) = P(B \cap A^c)+P(A \cap B) $$

 

위 정리들을 적용한 한가지 사례를 알아보겠습니다. 동전을 연속 3번 던지고 난 후, 다음의 3가지 상황을 풀어보겠습니다. 

동전의 던지는 사건에 대한 표본공간 S에 대해 정의합니다.

$$S = \{HHH,HHT,HTH,THH,HTT,THT,TTH,TTT\}$$

  •  동전의 앞면이 최소 1개가 나올 경우 A

TTT를 제외한 모든 것이므로 P(A)= 7/8 을 가집니다.

  •  동전의 앞면이 무조건 2개 나올 경우 B

HH가 나오는 3개의 경우에 해당되므로 P(B)=3/8을 가집니다.

  •  첫번째 동전이 앞면이 나오는 경우 C

H가 처음 나오는 경우만 고려하면되므로 P(C)= 4/8을 가집니다. 

 

그러면 B와C를 함께 고려하는 확률은 어떻게 계산이 될까요? 간단히 그냥 표본공간에서 계산하면 5/8가 되지만, 확률 값을 이용하여 수학적으로 계산하면

$$P(B \cup C) =  P(B)+P(C) -P(B\cup C) = 3/8+4/8 -2/8=5/8$$

가 됩니다.

 

이제 본격적으로 조건부 확률에 대해 알아보도록 하겠습니다.

 

조건부확률


어떤 사건 A가 일어날 확률 P(A)를 구함에 있어, 또, 다른 사건 B가 사건 A에 어떤영향을 미치는지에 대해 알아보려고 합니다. 즉, 사건 B가 일어났다는 조건하에 A가 일어날 확률을 구하는 과정이고 이를 P(A|B)로 표기합니다. 

사건 P(B)>0 일때, A가 일어날 조건부 확률은 

$$P(A|B) = \frac{P(A \cap B)}{P(B)}$$

로 정의됩니다. 그러면 위에서 정의했던 예시를 그대로 가지고와서, P(B|A)를 풀어보도록 하겠습니다.

A - 동전의 앞면이 최소 1개가 나올 경우이고, B - 동전의 앞면이 무조건 2개 나올 경우이므로 노가다로 계산하면

$$\frac{P(HHH,HHT,HTH,THH)}{P(HHH,HHT,HTH,THH,HTT,THT,TTH)} = 4/7$$

가됩니다. 여기서

$$P(A \cap B) = P(B)$$ 이므로 P(B) 4/8값이 그대로 사용되고 조건부로 A가 사용되어 7/8이 도출되므로 

$$\frac{4/8}{7/8}=4/7$$ 이 됩니다. 

 

이제까지 조건부 확률의 개념을 알아보았다면, 이제 조건부 확률의 성질을 알아보겠습니다. 서로 배반(공통부분 존재하지않음)인 두 사건 A,B에 대해 

$$P(A \cup B | C) = \frac{P[(A \cup B ) \cap C]}{P(C)}$$

$$ = \frac{P[(A \cap C) \cup( B \cap C )]}{P(C)}$$

$$ = \frac{P(A \cap C) + P( B\cap C)}{P(C)} = P(A|C)+P(B|C)$$

P(A|C)+P(B|C)로 나눌 수 있습니다. 이는 A,B가 서로 배반 사건이고 AnB n BnC에 원소가 없기 때문에  분리 할 수 있습니다.

 

 

그러면 다수의 배반 사건들의 모임인 B가 있다고 가정하고 

$$B ={B_1,B_2,B_3,B_4,...,B_n,}$$

이들에 대해

$$\cup_{i=1}^{n}B_i= S$$

가 성립한다면, 조건부 확률을 다음과 같이 적용시킴을 통해 P(A)를 복원 시킬 수 있습니다.

$$P(A) = \sum_{i=1}^{n}P(B_i)P(A|B_i)$$

 

이 역시 간단한 예시를 들겠습니다 공장 생산라인A,B 이렇게 두개가 있으며, 이들은 각각 60%, 40%의 물건을 생산하고 각각 2%,10%의 불량품을 추출한다고 가정합시다. 여기서 우리가 알고싶은건 물건 하나를 집었을 떄 이 물건이 불량일 확률D 을 구하는 것 입니다. 위 수식을 적용 시켜보면

$$P(D) = P(D|A)*P(A) +P(D|B)*P(B)$$

$$P(D) = 0.02*0.6 +0.1*0.4=0.0448$$

에 따라 0.0448%의 불량률을 가지게 됩니다.  간단히 좀 더 풀어 설명드리자면, 불량품이 하나나오는데 이게 A,B라인 둘중에 어느 라인에 나오는지에 고려해야합니다. 또한,뒤에 나온 불량률에 대한 조건은 각 라인에 대한 조건부확률이므로 이를 고려하여 전체 불량률을 구하는 수식이 되겠습니다.

 

다음 포스팅엔 조건부확률이 사전확률, 사후 확률과 독립사건에 대해서 어떻게 동작하는지에 대해 올리겠습니다.

Comments