Trình bày công thức xác suất đầy đủ và công thức xác suất bayes.

Tạp chí Khoa học Cơng nghệ và Thực phẩm 21 (3) (2021) 23-31MỘT SỐ ỨNG DỤNG CỦA CÔNG THỨC XÁC SUẤT ĐẦY ĐỦVÀ CƠNG THỨC BAYESNguyễn Đình InhTrường Đại học Công nghiệp Thực phẩm TP.HCMEmail: ày nhận bài: 16/7/2020; Ngày chấp nhận đăng: 20/8/2020TĨM TẮTCơng thức xác suất đầy đủ và công thức Bayes là những nội dung quan trọng, lý thúđược giảng dạy trong chương trình Xác suất ở trường đại học. Trong phần đầu của bài báonày tác giả dùng công thức xác suất đầy đủ và công thức Bayes để giải một số bài toán xácsuất sơ cấp nổi tiếng như bài tốn về tính cơng bằng trong thể thức rút thăm may mắn, bàitoán Monty Hall. Riêng bài tốn rút thăm may mắn được trình bày với lời giải chặt chẽ vàtổng quát hơn những lời giải đã biết. Phần cuối bài giới thiệu một số ứng dụng của công thứcBayes trong y học, trong hoạt động tìm kiếm cứu hộ. Hy vọng bài viết này mang lại nhữngđiều bổ ích cho các bạn bắt đầu việc giảng dạy hay học tập mơn Xác suất.Từ khóa: Công thức xác suất đầy đủ, công thức Bayes, rút thăm may mắn, Monty Hall, tìmkiếm cứu hộ.1. CƠNG THỨC XÁC SUẤT ĐẦY ĐỦ VÀ CƠNG THỨC BAYESĐịnh lýTrong khơng gian xác suất ( , F,P ) , choAi Aj =  với mọi i  j , Ai 1=1nlà một họ đầy đủ các biến cố (tứcn A =  ) và B là biến cố bất kỳ thuộc F . Khi đói =1inP( B) =  P( Ai ).P( B | Ai )(1)i =1P ( Ai | B ) =P( Ai ).P( B | Ai ); i = 1, n ( P ( B )  0 )P ( B)(2)Công thức (1) được gọi là công thức xác suất đầy đủ, công thức (2) là công thức Bayes.Trong công thức Bayes, các xác suất P ( Ai ) gọi là các xác suất tiên nghiệm, các xác suấtP ( Ai | B ) gọi là các xác suất hậu nghiệm.Công thức Bayes hay định lý Bayes mang tên nhà toán học người Anh Thomas Bayes(1701-1761). Định lý này được trình bày trong một bài luận cơng bố trước Hội khoa họcHoàng gia năm 1763 bởi một người bạn của Bayes là Richard Price [1].2. BÀI TỐN RÚT THĂMCó n lá thăm trong đó có m lá trúng thưởng ( m  n ). Cho n người lần lượt rút mỗingười một lá. Hỏi rằng người rút trước, kẻ rút sau, ai có nhiều cơ may hơn ai?23 Nguyễn Đình InhGiải:Cơ may trúng thưởng của một người tham gia rút thăm chính là khả năng (xác suất)người đó rút được thăm trúng. Ta sẽ dùng công thức xác suất đầy đủ để chứng minh xác suấttrúng thưởng của mọi người là như nhau, bất kể rút trước hay rút sau. Thật vậyTrước hết mệnh đề “xác suất trúng thưởng của mọi người bằng nhau” tương đương vớimệnh đề “xác suất không trúng thưởng của mọi người bằng nhau”, nói cách khác: vai trị củam và n − m như nhau nên khơng mất tính tổng qt có thể giả sử m  n − m .Gọi Bk là biến cố người rút thứ k được thăm trúng thưởng, k = 1, n .Dễ thấy P ( B1 ) =m.nVới mỗi 2  k  n , gọi Ai là biến cố có đúng i người trúng và k − 1 − i người khôngtrúng trong k − 1 người đầu tiên (0  i  k − 1) . Vì có tất cả m thăm trúng và n − m thămkhông trúng nên cần thêm điều kiệni  m k − 1 − ( n − m)  i  mk − 1 − i  n − mNhư vậy điều kiện của i làmax 0; k − 1 − (n − m)  i  min m; k − 1i  I1 = 0,..., k − 1khi k − 1  m  n − m i  I 2 = 0,..., mkhi m  k − 1  n − mi  I 3 = k − 1 − (n − m),..., m khi m  n − m  k − 1Ta xét từng trường hợp trong 3 trường hợp trên:• Trường hợp 1. k − 1  m  n − m tương ứng với i  I1 = 0,..., k − 1 , khi đó họ Ai iIlà họ đầy đủ các biến cố nên theo công thức xác suất đầy đủ ta có1k −1P( Bk ) =  P( Ai ).P( Bk | Ai )(3)i =0Để ý rằng biến cố Ai chính là tổng của Cki −1 biến cố xung khắc từng đôi, mỗi biến cốthành phần này đều là i người trúng nhưng thứ tự khác nhau (vì lấy i phần tử trong k − 1phần tử nên có Cki −1 tổ hợp), dễ thấy xác suất của các biến cố thành phần bằng nhau và bằngxác suất của biến cố i người đầu trúng và k − 1 − i người tiếp theo không trúng, tức là bằng:m m −1 m − i +1 n − m n − m − (k −1− i) +1........n n −1 n − i +1 n − in−k +2n−m!()m!.m( − i )! ( n − m − ( k − 1 − i ) )!=n!( n − ( k − 1) )!24 Một số ứng dụng của công thức xác suất đầy đủ và công thức BayesnênP ( Ai ) = Cki −1m!(n − m)!.(m − i )! ( n − m − ( k − 1 − i ) )!n!( n − (k − 1) )!m!(n − m)!.(k − 1)! (m − i )! ( n − m − ( k − 1 − i ) )!=.n!i !(k − 1 − i )!( n − (k − 1) )!m!(n − m)!.i !(m − i )! ( k − 1 − i )!( n − m − ( k − 1 − i ) )!=n!(k − 1)!( n − ( k − 1) )!=Cmi Cnk−−m1−iCnk −1(có thể dùng phân phối siêu bội: xác suất có i người trúng khi k − 1 người rút lần lượt cũngC i C k −1−ichính là xác suất có i người trúng khi k − 1 người rút đồng thời; tức P ( Ai ) = m kn−−1m ).CnCònP( Bk | Ai ) =m−in − (k − 1)Do đóP ( Ai ).P ( Bk | Ai ) =Cmi Cnk−−m1−im−i.k −1Cnn − (k − 1)m!.Cnk−−m1−im−ii !(m − i )!=.n!n − (k − 1)(k − 1)!( n − ( k − 1) )!(i + 1).==m!.Cnk−−m1−i(i + 1)!(m − (i + 1))!n!k.k !( n − k )!(i + 1)Cmi +1Cnk−−m1−i.kCnkThay vào (3) ta được(i + 1)Cmi +1Cnk−−m1−i1 k=. jCmj Cnk−−mjkk kCnkCn j =1i =0k −1P( Bk ) = 25(4) Nguyễn Đình InhXét tập hợp S có n phần tử đôi một khác nhau, ta chia S thành 2 tập hợp A, B rờinhau trong đó A có m phần tử và B có n − m phần tử. Từ mỗi tổ hợp chập k của S códạng ( x1 , x2 ,..., xk ) , ta “nhân” thành k bộ như sau: bộ thứ nhất là x1 , x1 , x2 ,..., xk ( x1 lặp 2lần), bộ thứ hai là x1 , x2 , x2 ,..., xk ( x2 lặp 2 lần), …, bộ thứ k là x1 , x2 ,..., xk , xk ( xk lặp 2lần). Như vậy từ Cnk tổ hợp chập k của S sinh ra kCnk bộ có lặp 1 phần tử.Bây giờ trong những tổ hợp chập k của S , xét riêng những tổ hợp chứa j phần tửthuộc tập A và k − j phần tử thuộc tập B thì có Cmj Cnk−−mj tổ hợp như vậy, những tổ hợp nàysinh ra jCmj Cnk−−mj bộ có lặp mà phần tử lặp thuộc tập hợp A . Cho j chạy từ 1 tới k (lưu ýrằng ta đang xét trường hợp k − 1  m  n − m nên các số Cmj ; Cnk−−mj đều có nghĩa) và lấy tổngta được tất cảk jCj =1jmCnk−−mj bộ có lặp mà phần tử lặp thuộc tập A . Mặt khác, trong n phần tửcủa tập S có m phần tử thuộc tập A nên trong tổng cộng kCnk bộ có lặp sinh ra từ các tổmhợp chập k của S sẽ có kCnk bộ mà phần tử lặp thuộc tập A . Do đó ta có đẳng thức tổnhợp sau:k jCjmj =1Cnk−−mj =m.kCnkn(5)Từ (4) vào (5) ta đượcP ( Bk ) =m.n• Trường hợp 2. m  k − 1  n − m tương ứng với i  I 2 = 0,..., m , khi đó họ  Ai iI2là họ đầy đủ.Ta cũng có các cơng thức tương tự như (3), (4), (5) nhưng với i  0,..., m ; j  1,..., m + 1 ,tứcmP( Bk ) =  P( Ai ).P( Bk | Ai )i =0mP( Bk ) = i =0(i + 1)Cmi +1Cnk−−m1−i1 m+1 j k − j=. jCmCn−mkCnkkCnk j =1m+1 jC Cj =1jmk− jn−m=m.kCnknvà cũng có kết quảP ( Bk ) =m.n• Trường hợp 3. m  n − m  k − 1 tương ứng với i  I 3 = k − 1 − (n − m),..., m , khi đó Ai iI là họ đầy đủ. Tương tựj  k − (n − m),..., m + 1 và cũng có3trường hợp 1, tuy nhiên i  k − 1 − (n − m),..., m ;P ( Bk ) =26m.n Một số ứng dụng của công thức xác suất đầy đủ và công thức BayesVậy trong mọi trường hợp đều có P ( Bk ) =m, tức xác suất trúng thưởng của mọi ngườinđều bằng nhau.Kết quả này cho thấy rằng thể thức rút thăm phân phối trong đời sống là cơng bằng.Các tài liệu đề cập đến bài tốn rút thăm thường chỉ chứng minh được P( B1 ) = P( B2 )[2, 3] hoặc chỉ làm được trường hợp cụ thể với n = 3, m = 1 [2, 4]. Để giải bài toán một cáchchặt chẽ cần lời giải tổng qt như đã trình bày.3. BÀI TỐN MONTY HALL“Let’s Make a Deal” là một game show nổi tiếng trên kênh truyền hình Mỹ do MontyHall sáng lập, được mua bản quyền và phát sóng ở nhiều nước. Trong game show này cómột trị chơi như sau: có 3 cánh cửa, đằng sau 1 trong 3 cánh cửa đó là 1 phần q, sau 2 cửacịn lại khơng có gì. Người chơi được chọn 1 trong 3 cánh cửa, nếu chọn đúng cửa có q thìđược nhận q. Ban đầu người chơi được chọn trước 1 cửa nhưng chưa mở ngay. Sau đóngười dẫn chương trình (MC) mở một trong hai cửa còn lại và chỉ mở cửa khơng có q(MC là chủ trị, được sắp xếp nên anh ta biết cửa nào có q, cửa nào khơng). Sau khi MCmở 1 cửa khơng có q, người chơi được quyền chọn, hoặc là giữ cửa mình chọn ban đầu,hoặc là đổi lấy cửa chưa được mở còn lại. Theo bạn thì người chơi nên giữ hay đổi? Vì sao?Bài toán này đã gây nhiều tranh cãi giữa các người hâm mộ game show này và là mộtchủ đề được bàn luận sơi nổi trên báo chí khoa học cũng như báo chí đại chúng [5]. Sau đâylà lời giải bằng công thức Bayes:Giải:Đánh số ba cửa là 1, 2, 3. Gọi A1 , A2 , A3 lần lượt là các biến cố cửa 1, 2, 3 có quà, ta cóA1 , A2 , A3 là một họ đầy đủ vàP ( A1 ) = P ( A2 ) = P ( A3 ) =13Khơng mất tính tổng qt, giả sử người chơi chọn cửa 1. Khi người chơi đã chọn cửa 1,có 2 trường hợp có thể xảy ra: một là MC mở cửa 2, hai là MC mở cửa 3. Ở đây chỉ cần xéttrường hợp MC mở cửa 2, trường hợp cửa 3 tương tự.Gọi B2 là biến cố MC mở cửa 2, xét các trường hợp:• Nếu cửa 1 có q thì MC có 2 lựa chọn mở của 2 hoặc cửa 3 với xác suất bằng nhau nênP ( B2 | A1 ) =1.2• Nếu cửa 2 có q thì MC chỉ có 1 lựa chọn mở cửa 3 nên xác suất mở cửa 2 bằng 0, tứcP ( B2 | A2 ) = 0 .• Nếu cửa 3 có q thì MC chỉ có 1 lựa chọn mở cửa 2 nên xác suất mở cửa 2 bằng 1, tứcP ( B2 | A1 ) = 1 .Khi có thơng tin cửa 2 đã được MC mở thì các xác suất cửa 1, cửa 3 có q được tínhtheo cơng thức Bayes27 Nguyễn Đình Inh1 1.13 2P ( A1 | B2 ) ===P ( A1 ) .P ( B2 | A1 ) + P ( A2 ) .P ( B2 | A2 ) + P ( A3 ) .P ( B2 | A3 ) 1 . 1 + 1 .0 + 1 .1 33 2 33P ( A1 ) .P ( B2 | A1 )1.123P ( A3 | B2 ) === .P ( A1 ) .P ( B2 | A1 ) + P ( A2 ) .P ( B2 | A2 ) + P ( A3 ) .P ( B2 | A3 ) 1 . 1 + 1 .0 + 1 .1 33 2 33P ( A3 ) .P ( B2 | A3 )Rõ ràng nếu đổi sang cửa còn lại thay vì giữ nguyên cửa đã chọn thì xác suất ngườichơi được nhận q sẽ tăng lên gấp đơi. Vì vậy, người chơi nên đổi cửa.4. QUY TRÌNH BAYESIAN UPDATINGGiả sử khi nghiên cứu một vấn đề 𝒜, ban đầu ta đưa ra các giả thuyết H1 , H 2 ,..., H n về𝒜 với các xác suất tiên nghiệm P ( H1 ) , P ( H 2 ) ,..., P ( H n ) . Các xác suất này thể hiện hiểubiết ban đầu của ta về 𝒜. Sau khi có thơng tin I1 , ta dùng cơng thức Bayes để cập nhật hiểubiết của ta về 𝒜, bằng cách tính các xác suất hậu nghiệm P ( H1 | I1 ) , P ( H 2 | I1 ) ,..., P ( H n | I1 ) .Khi có thêm thơng tin mới I 2 và ta lại coi P ( H1 | I1 ) , P ( H 2 | I1 ) ,..., P ( H n | I1 ) như là cácxác suất tiên nghiệm mới và dùng công thức Bayes để tiếp tục cập nhật hiểu biết về 𝒜, bằngcách tính các xác suất hậu nghiệm mới P ( H1 | I1 I 2 ) , P ( H 2 | I1 I 2 ) ,..., P ( H n | I1 I 2 ) … Cứ nhưthể sử dụng các thông tin mới ta liên tục cập nhật các hiểu biết về 𝒜. Quy trình này được gọilà Bayesian updating. Bayesian updating đã và đang được áp dụng rộng rãi trong nhiều lĩnhvực của khoa học, kỹ thuật, y học, triết học, v.v.Ứng dụng đầu tiên của Bayesian updating bài viết này giới thiệu là trong hoạt động tìmkiếm cứu nạn trên biển. Một trong những cuộc tìm kiếm điển hình là vụ đội tìm kiếm cứunạn của Mỹ tìm kiếm một người đánh cá bị mất tích khi rơi xuống biển [6]. Thơng tin đầutiên mà đội tìm kiếm nhận được là ơng Aldridge bị rơi xuống biển trong khoảng từ 9 giờ tốingày 27-7-2014 đến 6 giờ sáng ngày hôm sau. Những giờ sau đó, các thơng tin mới như sựthay đổi dịng hải lưu, hướng gió,… do các trực thăng và tàu cứu hộ thu thập được tiếp tụcđược nạp vào máy tính. Sử dụng Bayesian updating thơng qua một hệ thống xử lý gọi làSAROPS (Search and Rescue Optimal Planning System), máy tính đã liên tục cập nhật vàđịnh vị ngày càng chính xác khu vực mà người mất tích có khả năng đang ở đó. Sau 12 giờđội tìm kiếm đã phát hiện được người đánh cá đang ôm phao trơi trên biển, gần kiệt sứcnhưng vẫn cịn sống.Bayesian updating cũng được ứng dụng trong xét nghiệm y khoa. Một số thuật ngữđược quy ước để đánh giá độ chính xác của một xét nghiệm T như sau:- Độ nhạy (sensitivity): là tỷ lệ xét nghiệm T cho kết quả dương tính ( T + ) đối vớingười bị bệnh B , ký hiệu là P T + | B + , còn gọi là dương thật (true positive).(())- Âm giả, P T − | B + , là tỷ lệ xét nghiệm T cho kết quả âm tính đối với người bị bệnh B .- Độ chuyên hay độ đặc hiệu (specificity): là tỷ lệ xét nghiệm T cho kết quả âm tínhtrên người khơng bị bệnh, P T − | B − , còn gọi là âm thật.()28 Một số ứng dụng của công thức xác suất đầy đủ và công thức Bayes()- Dương giả, P T + | B − , là tỷ lệ xét nghiệm T cho dương tính trên người khơng bị bệnh B .Giả sử có hai xét nghiệm T1 và T2 trong đó T1 có độ nhạy 93% và độ chuyên 95%, T2dương giả 7% và âm giả 5%. Xét nghiệm T1 dùng sàng lọc người có nguy cơ bệnh B cịn xétnghiệm T2 dùng chẩn đoán bệnh này trên những người mà T1 cho kết quả dương tính. Mộtngười làm liên tiếp hai xét nghiệm độc lập T1 và T2 đều cho kết quả dương tính. Biết tỷ lệhiện hành bệnh B trong cộng đồng theo số liệu dịch tễ học là 0,001; tính khả năng người nàymắc bệnh B .Dùng cơng thức Bayes để tính tốn kết quả:Giả thiết của bài toán cho ta biếtP (T1+ | B + ) = 0,93;P (T1− | B − ) = 0,95 suy ra P (T1+ | B − ) = 0,05;P (T2+ | B − ) = 0,07;P (T2− | B + ) = 0,05 suy ra P (T2+ | B + ) = 0,95;P ( B + ) = 0,001 suy ra P ( B − ) = 0,999.Theo công thức xác suất đầy đủP (T1+ ) = P ( B + ) P (T1+ | B + ) + P ( B − ) P (T1+ | B − ) = 0,001.0,93 + 0,999.0,05 =1593125Khi biết xét nghiệm T1 dương tính ta có các xác suất hậu nghiệm của các biến cố+B , B − thay đổi theo công thức Bayes như sau:P(B |T++1)=P ( B − | T1+ ) =P ( B + ) .P (T1+ | B + )P (T+1)P ( B − ) .P (T1+ | B − )P (T+1)=0,001.0,9331=15916963125=0,999.0,05 1665=15916963125Các xác suất này lại được coi là xác suất tiên nghiệm đối với xét nghiệm T2 , áp dụngcông thức xác suất đầy đủ:P (T2+ ) = P (T2+ | B +T1+ ) .P ( B + | T1+ ) + P (T2+ | B −T1+ ) .P ( B − | T1+ )Xét nghiệm T2 độc lập với T1 nênP (T2+ | B +T1+ ) = P (T2+ | B + ) = 0,95; P (T2+ | B −T1+ ) = P (T2+ | B − ) = 0,07Do đóP (T2+ ) = 0,95.311665 73+ 0,07.=16961696 848Cuối cùng theo công thức Bayes29 Nguyễn Đình InhP ( B + | T1+T2+ ) =P (T2+ | B +T1+ ) .P ( B + | T1+ )P (T2+ )=311696 = 403  13,8%.7329208480,95.Có thể thấy rằng, nếu chỉ dựa vào kết quả dương tính của xét nghiệm T1 thì tính được xácsuất người được xét nghiệm mắc bệnh là khá thấp ( P ( B + | T1+ ) =31 1,83% thấp hơn rất1696nhiều so với độ nhạy 93% của T1 ), còn nếu dựa vào cả 2 kết quả dương tính của T1 và T2 thìkhả năng người được xét nghiệm bị bệnh cũng khơng cao, đó là một đặc điểm của y học hiệnđại - tính bất định trong bất cứ đo lường nào, bất cứ xét nghiệm nào và bất cứ chẩn đốn nào [7].5. KẾT LUẬNBài báo trình bày một số ứng dụng mang tính thực tiễn cao của cơng thức xác xuất đầyđủ và công thức Bayes trong việc giải các bài tốn xác suất như: tìm kiếm cứu hộ, rút thămmay mắn, Monty Hall, xét nghiệm y khoa, v.v. Bằng lời giải chặt chẽ và tổng quát đã thuđược các kết quả chính xác và thú vị. Hy vọng bài báo sẽ là tài liệu tham khảo bổ ích trongviệc giảng dạy và học tập môn Xác suất.TÀI LIỆU THAM KHẢO1. Bayes M., Price M. - An Essay towards Solving a Problem in the Doctrine ofChances. By the Late Rev. Mr. Bayes, F. R. S. Communicated by Mr. Price, in aLetter to John Canton, A. M. F. R. S., Philosophical Transactions (1683-1775) 53(1763) 370-418.2. Nguyễn Bá Đô, Nguyễn Hồng Minh - Các câu chuyện toán học tập 1: Tất nhiêntrong ngẫu nhiên, NXB Giáo dục (2003) 83-88.3. Trần Kim Thanh, Lê Trường Giang - Lý thuyết xác suất và thống kê tốn, TrườngĐại học Tài chính - Marketing (2017) 31-32.4. Nguyễn Văn Mậu - Mười vạn câu hỏi vì sao: Toán học, NXB Giáo dục Việt Nam(2018) 116-117.5. Đặng Hùng Thắng - Một số ứng dụng của định lý Bayes, Thơng tin Tốn học 19 (2)(2015) 26-30.6. Flam F.D. - The odds continually updated, The New York Times, September 29(2014) (truy cập tại: https://www.nytimes.com/2014/09/30/science/the-oddscontinually-updated.html)7. Nguyễn Văn Tuấn - Giới thiệu phương pháp phân tích Bayes phần 1: Diễn giải kếtquả chẩn đoán, Thời sự Y học số 62 (2011) 30-35.30 Một số ứng dụng của công thức xác suất đầy đủ và công thức BayesABSTRACTSOME APPLICATIONS OF TOTAL PROBABILITY THEOREMAND BAYES’ THEOREMNguyen Dinh InhHo Chi Minh City University of Food IndustryEmail: total probability theorem and the Bayes’ theorem are important and interestingcontents taught in probability at the university. In the first part of this article, we use the totalprobability theorem and the Bayes’ theorem to solve some well-known elementaryprobability problems, such as the problem of fairness in the lucky draw, the Monty Hallproblem. As for the lucky draw problem, we present a tighter and more general solution thanthe known solutions. At the end of the article, we will introduce some applications of theBayesian theorem in medicine and search and rescue operations. Hopefully this article willbring some useful things for those who are starting to teach or study probability.Keywords: Total probability theorem, Bayes’ theorem, lucky draw, Monty Hall, search andrescue operations.31