Thời buổi coronavirus, ai cũng trở thành chuyên gia dịch tễ hết ráo. Hì hì. Người khác làm được thì tôi làm được.
Trong lớp, tôi hay cho bài tập mang về nhà có tính cách đi ra ngoài chương trình một chút để sinh viên thấy cái hay cái lạ của Toán, chứ làm theo sách hoài chỉ học được chừng nấy thôi thì thầy xài làm gì. Thời buổi internet cái gì cũng có, tự học được rồi.
Có một bài tôi từng cho trong lớp toán thống kê, nay phủi bụi đem ra kể lại.
Gonorrhea (bệnh lậu) là một bệnh truyền qua tình dục. Khoảng 0.2% đàn ông và 0.15% phu nữ ở Mỹ bị bệnh này. Giả sử có một loại test kit để thử gonorrhea với độ chính xác 99%.
Tức là mỗi lần ra kết quả thì 99% xác suất kết quả đó đúng. Cứ 100 người có bệnh thì test kit này ra dương tính 99 lần, âm tính sai 1 lần, và cứ 100 người không bệnh thì test kit này ra âm tính 99 lần, dương tính sai 1 lần.
Giả sử một nguời đàn ông dùng test kit này và thấy mình bị dương tính. Vậy xác suất thật anh ấy có bệnh gonorrhea là bao nhiêu?
Thường thường tôi cho trắc nghiệm trước, trước khi cho tính thật. Câu hỏi trắc nghiệm là vậy.
Theo linh tính, không tính toán gì, xác suất thật anh ấy có bệnh gonorrhea là:
(A) Xấp xỉ 99%, vậy coi như trên 95%.
(B) Dưới đó chút xíu, coi như từ 75% tới 95%.
(C) Chắc thầy có mánh gì đây, vậy: từ 50% tới 75%.
(D) Ông này nhiều mánh lắm, cho xuống từ 25% tới 50%.
(E) Hong lẽ dưới nữa? Dưới 25%.
Nhiều người thấy, nếu test kit có độ chính xác là 99% thì chắc hẳn xác suất anh bạn này bị gonorrhea phải đâu đó xấp xỉ 99% . Đa số chọn đáp án A hay B. Cũng có em chọn C, D nhưng khi hỏi thì nói là, lẽ ra chọn A nhưng nghĩ thầy Nhiên hay cho câu hỏi mánh nên đổi xuống C hay D cầu may.
Quý vị nghĩ sao?
A, B, C, D, hay E?
Câu trả lời đúng là E, dưới 25%.
Trước khi giải đáp, để tôi nói lý do tại sao tôi cho bài tập này.
Bài này tôi cho để giới thiệu hai khái niệm, một khái niệm liên quan trực tiếp với bài toán này và một khái niệm liên quan xa hơn, và cái liên quan xa hơn mới là đáng kể.
Khái niệm liên quan xa hơn mang tên Simpson's paradox, tiếng Việt gọi là nghịch lý Simpson. Nghịch lý này xảy ra khi có điều nào đó đúng với từng phần của một tập hợp, nhưng lại không đúng đối với toàn bộ tập hợp đó. Thí dụ như có những điều đúng với từng giai cấp trong xã hội, từng loài thú trong hoang dã, từng ngành kỹ nghệ trong một nước, nhưng lại không đúng với toàn xã hội, toàn bộ các con thú, toàn bộ nền kinh tế.
Và ngược lại. Có khi có những điều đúng cho toàn bộ xã hội, nhưng đối với riêng từng tầng lớp, từng ngành nghề, từng địa phương, thì lại không đúng. Đó là nghịch lý Simpson.
Trở lại với bài toán trên.
Giả sử có 100,000 người đán ông. Vậy trong đó có 200 người có bệnh (0.2%), và số còn lại, 99,800 người không bệnh.
Đem hết 100,000 người ra thử. Với xác suất 99% đúng cả âm lẫn dương, 200 người có bệnh sẽ ra dương tính 198 lần và âm tính sai 2 lần.
99,800 người không bệnh sẽ ra âm tính 98,802 lần (99%) và số còn lại là dương tính sai, 998 lần.
Vậy có bao nhiêu người dương tính? 198 (đúng) và 998 (sai).
Anh bạn của chúng ta bị dương tính. Xác suất anh ta thuộc nhóm sai (998 người) cao gấp mấy lần xác suất thuộc nhóm đúng (198 người).
Xác suất anh ta thực sự bị bệnh gonorrhea là 198 / (198+998) = 0.166 = 16.6%
Các con toán trên có thể tóm tắt trong hai bảng sau đây.
Số người bệnh và kết quả thử nghiệm.
Anh bạn của chúng ta dương tính, vậy ảnh thuộc nhóm này.
Trong đó tỷ lệ thật sự có bệnh chỉ có 198 / 1196 mà thôi. 16.6%.
Để mở ngoặc nói thêm về toán, là khái niệm liên quan trực tiếp tôi nói ở trên.
Một số độc giả quen thuộc với xác suất có thể nhận ra đây cũng là một trường hợp “confusion of the inverse,” không rõ tiếng Việt gọi là gì. Đại ý là xác suất “nếu A thì B” có thể rất khác với “nếu B thì A.” Confusion of the inverse ở đây là nhầm lẫn giữa “nếu có bệnh thì kết quả dương tính 99%,” rất là khác với “nếu kết quả dương tính thì có bệnh.” Hai con số khác nhau.
Confusion of the inverse có thể giải thích bằng định lý Bayes (Bayes theorem). Simpson's Paradox cũng có thể giải thích bằng định lý Bayes. Cho nên hai cái liên quan tới nhau.
Đóng ngoặc.
Thí dụ này cho thấy “linh tính” của ngưòi bình thường rất dễ bị rơi vào nghịch lý. Tâm lý người ta hay cho rằng cái gì giống giống nhau sẽ cho ra kết quả giống nhau. Cái chung chung nó 99% thì cái cụ thể cũng 99%.
Người trong ngành không bị cái đó. Tôi có ông anh bác sĩ, tuy không chuyên môn về dịch tễ nhưng ông rành về nó. Ổng giải thích là dân dịch tễ học biết chuyện này xưa nay.
Độ chính xác 99% khi thử người có bệnh, trong dịch tễ học gọi là “sensitivity,” số người có bệnh và dương tính, chia cho tổng số người có bệnh.
Độ chính xác 99% khi thử người không bệnh, gọi là “specificity,” số người không bệnh và âm tính, chia cho tổng số người không bệnh.
Nhưng hai con số đó không đủ để cho biết độ chính xác sau khi thử một người. Độ chính xác một người thực sự có bệnh sau khi kết quả ra dương tính, trong dịch tễ học gọi là positive predictive value. Và tương tự, độ chính xác một người thực sự không bệnh sau khi kết quả ra âm tính, là negative predictive value.
Trong thí dụ ở trên, positive predictive value là 16.6%. Tại sao con số quá khác xa so với 99%? Vì số dương tính sai quá lớn. Tại sao số dương tính sai quá lớn khi test kit chính xác tới 99%? Vì số người không bệnh quá cao so với người có bệnh, nên dù chỉ có 1% dương tính sai, 1% của 99,800 người áp đảo số dương tính đúng, 99% của 200 người.
Positive predictive value bị ảnh hưởng bởi số phần trăm người có bệnh. Bệnh hiếm, thì dù test kit có độ chính xác (sensitivity và specificity) cực kỳ cao, kết quả dương tính cũng không tin tưởng được.
Trong dịch tễ học, người ta rút ra kết luận là khi bệnh hiếm có, thì không nên thử đại trà. Thử đại trà sẽ ra quá nhiều trường hợp dương tính sai.
Cụ thể là tuy thanh niên Mỹ quan hệ tình dục tùm lum, bác sĩ ít khi cho thử các bệnh tình dục hiếm như gonorreah hay syphillis trừ khi có lý do. Không thử đại trà.