수학스터디[확률통계] [기대값][기하분포][음이항분포]
스터디 날짜 : 8/13 목요일
스터디 장소: DMC 탐앤탐스
참석 인원 :김정민 박형준 최웅준 구예인 김경태
평균을 구하는 두 가지 방법
1. 요소별 총합을 총 개수로 나눔
2. 각 요소에 빈도 수(가중치)를 곱함
확률변수의 기대값(Average, Mean, Expected Value)
1.이산확률변수X의 기대값은 다음과 같다.
이 정의를 이용하여 다양한 종류의 이산확률변수의 기대값을 구해보자.
2. 베르누이 확률변수의 기대값
(Recap) 확률변수 X가 베르누이 분포를 따른다는 것은 X가 0과 1 값만을 가질 수 있을 경우를 말하고,
이 때의 X가 베르누이 확률변수
P(X=1)=p, P(X=0)=1-p
3. 지시확률변수의 기대값
지시확률변수(Indicated Random Variable)란?
: 사건 A의 발생 여부에 종속하여 특정 값(1, 0)을 갖는 변수
표본공간 S의 사건 A가 주어졌을 때, 확률변수 I_A를 다음과 같이 정의할 수 있을 때, I_A를 지시확률변수라고 함.
이 때, 지시확률변수의 기대값은 사건 A가 일어날 확률과 같은데, 이를 근본적인 다리라고 한다.
4. 이항확률변수의 기대값
기대값의 선형성을 이용하면 간편하다.
기대값의 선형성 (Linearity)
기대값의 선형성 증명
1. T=X+Y 일 때, E(T)=E(X)+E(Y)를 증명
평균을 구하는 두 가지 방법 중 첫 번째 방법을 떠올려 보자.
위와 같이 확률변수 X가 0,1,2,3 에 대응하는 조약돌 세계에서 각각의 조약돌(s)의 합을 구하고 질량P({s})과 곱하면,
평균은 0*(1/10) + 0*(1/10) + ... + 3*(1/10) = (0+0+0+0+1+1+2+2+2+3)/10 이 됨.
이와 같은 방법으로 E(X+Y)를 구하면 E(X)+E(Y)
2. E(cX)에서 c는 상수이므로 시그마 밖으로 빼면 cE(X)가 됨.
선형성을 이용하여 이항확률변수의 기대값 구하기
이항분포를 따르는 확률변수 X는 독립적으로 동일하게 분포된 n의 베르누이 확률변수 Bern(p) 들 (X1,...,Xn)의 합으로 표현될 수 있음. 각각의 베르누이 확률변수 Xj의 기대값은 p이고, 총 n개가 있으므로 선형성에 의해 E(X)=np 가 됨.
기하분포 (Geometric Distribution)
X~Geom(p), p는 0과 1사이의 실수
1. 정의: 독립적인 베르누이 시행에서 처음 성공까지 시도(=실패)한 횟수 X의 분포
2. 기하확률변수의 확률질량함수(PMF)
성공확률은 p, 실패확률은 q (=1-p) 라 하고, 사건 A를 FFFFFS (5번의 실패 후 성공하는 사건) 라고 했을 때,
P(A)=q∧5 x p 와 같다.
이로부터 PMF를 유도하면 다음과 같다.
기하분포의 기대값
수식 없이 story proof로 이해하기
: 동전을 던졌을 때 앞면이 나올 때까지의 시도 횟수(실패 횟수)를 X라고 하면, X~Geom(p).
이 때 E(X)는 첫 성공까지의 평균적인 실패 횟수를 나타냄(c로 단순화)
도박꾼의 파산 문제와 같이 첫 시행에서의 결과(성공 또는 실패)로 조건화하면(first step analysis),
첫 시행에서 성공했을 때는 0*p.첫 시행에서 실패하면 실패하고 나서 성공할 때까지 같은 행동을 반복하므로 (1+c)*q
따라서 다음과 같이 수식을 전개하면 c=q/p
음이항분포(Negative Binomial): X~NegBin(r,p)
: 여러 번의 베르누이 독립 시행에서 r번째 성공까지의 실패 횟수
음이항분포는 기하분포의 일반화된 형태 (기하분포는 음이항분포에서 r=1인 경우를 말함)
1. 음이항분포의 확률질량함수
r=5 일 때의 예시를 들어보자.
5번째 성공 이전 4번의 성공은 (n+r-1)C(r-1) 가지로 존재할 수 있다.
이로부터 확률질량함수를 유도하면 다음과 같음.
음이항분포의 기대값
지시확률변수 Xj를 j-1번째 성공과 j번째 성공 사이의 실패 횟수라고 하면,
전체 실패 횟수 X=X1+...+Xr로 나타낼 수 있고, 선형성과 대칭성에 의해 r*(q/p)가 됨.
상트페테르부르크의 역설(St. Petersburg Paradox)
카지노에서 공정한 동전을 앞면이 나올 때까지 반복하여 던지는 게임이 있을 때, 첫번째에 앞면이 나오면 2달러, 두번째에 앞면이 나오면 4달러 .... n번째에 앞면이 나오면 2^n 달러를 획득한다. 이 게임을 하기 위한 판돈은 얼마가 적당할까?
- 확률 변수 X는 처음으로 앞면이 나올 때를 포함하여 동전 던지기를 시도한 횟수이다.
- Y=2^n이라고 했을 때, 게임에 참가하여 획득할 수 있는 금액의 평균 E(Y)를 구하면,
k: 던진 횟수, (k-1)번째 까지는 뒷면이 나오다가 마지막 k번째에 앞면이 나와야 하므로 다음과 같이 전개됨.
- 즉, 아무리 많은 판돈을 걸더라도 무한대의 돈을 얻을 수 있으므로 게임에 참가하는것이 무조건 유리함.
- 하지만 실제로는 그 누구도 무한히 큰 액수의 판돈을 내려 하지 않을 뿐더러, 참가비가 25달러 정도가 되어도 참가하지 않을 것이라는 데 많은 사람들이 동의함.
상트페테르부르크의 역설 : youtu.be/D2_P52_1Phk