יום שישי, 18 במאי 2018

סימולציות ככלי בטיחותי במשפט הפלילי


אם ארצה לתמצת מהי ראיית ה- די אן אי המשמשת בבתי משפט אעשה זאת זאת בשלוש מילים: "אוסף זוגות מספרים". הנה כי כן, תעודת הזהות הגנטית של כל אחד מאיתנו מורכבת ממספר מוגבל של זוגות מספרים. לדוגמה, 10 זוגות המספרים בעמודה הימנית (Allele values) של הטבלה הלקוחה מעמוד הויקיפדיה של הקיט SGM PLUS מהווה פרופיל גנטי של אדם מסוים (איננו יודעים מיהו) כפי שפרופיל כזה מופק בישראל ובאנגליה:



המדינה מחזיקה על פי חוק מאגר פרופילים גנטיים של עבריינים מורשעים ושל חשודים אשר נלקחה מהם דגימת DNA (ראו חוק סדר הדין הפלילי (סמכויות אכיפה – חיפוש בגוף ונטילת אמצעי זיהוי), תשנ"ו-1996)לכל פריט במאגר משויכים 10 זוגות מספרים וסה"כ 20 מספרים (10 כפול 2). המאגר שימושי למקרים בהם מבוצע פשע, והעבריין השאיר בזירת הפשע עקבה ביולוגית המכילה די אן אי כמו כמו דם, זרע, עור, זקיק שיער, רוק ועוד. מהעקבה מפיקים את הפרופיל הגנטי (10 זוגות מספרים) ולאחר מכן, סורקים את המאגר ומחפשים האם יש פרופיל במאגר הזהה בכל 20 המספרים לפרופיל מזירת הפשע. במידה ונמצאה התאמה, אזי מדובר על ראיה מאד חזקה כנגד התורם של הפרופיל במאגר. השאלה  המעניינת היא האם יתכן שיהיו שני בני אדם להם אותו פרופיל גנטי. אם הדבר אפשרי, אז הראיה כמובן חלשה יותר.

הגם שהפוסט הזה אינו עוסק בהיבטים ביולוגים של ראיית הדי אן אי, אציין כי כל זוג מספרים מייצג את האללים במקומות מסוימים במולקולת הדי אן אי בהם השונות בין בני אדם גדולה. כל מיקום כזה מכונה אתר ובאנגלית לוקוס. רשימת הלוקוסים נתונה בטור השמאלי בטבלה. לדוגמא, בפרופיל הגנטי לעיל, ובאתר  THO1 (מקום מסוים במולקולת ה-די אן אי) נמצאו האללים 6 ו-7. בפרופיל גנטי של אדם אחר ימצאו באותו אתר אללים אחרים. טבלאות שכיחות אללים מספקות את האינפורמציה הנוגעת לשכיחות של כל אלל ואלל בלוקוס מסוים באוכלוסיה מסוימת. לדוגמא, הנה טבלת שכיחויות אללים עבור האתר THO1 באוכלוסיה קווקזית (לבנה)  בארצות הברית:


מהטבלה רואים כי באתר THO1 אפשריים 8 אללים בלבד (5, 6, 7, 8, 9, 9.3, 10, 11). השכיחות של האלל 6 היא 23.1 אחוזים  והשכיחות של האלל 7 היא  19 אחוזים והשכיחות של האלל 5 היא כפרומיל.  היינו מתוך 10,000 אנשים, ל-2300 מהם יהיה את האלל 6; ל-1900 מהם יהיה את האלל 7; ואילו האלל 5 יהיה נדיר מאד – יופיע רק אצל 16 בני אדם.

תחת הנחות שיווי המשקל של הארדי ווינברג אפשר לחשב מאותן טבלאות את הנדירות של כל זוג אללים (ראה נוסחה בנספח א'). שימוש בנוסחה יגלה כי השכיחות של הזוג (6,7) באתר THO1 באוכלוסיה לבנה הוא 0.088. היינו ל-880 מתוך אותם 10000 אנשים לבנים, יהיה את זוג האללים הנ"ל. אם היינו מסתפקים בזוג הזה, הכוח של ראיית ה-די אן אי יהיה מוגבל שכן הראיה מצמצמת מאגר חשודים של 10,000 ל-880. אולם פרופיל גנטי בישראל מורכב מ-10 זוגות אללים ב-10 אתרים. ובדיוק כפי שלנחש מספר אחד בלוטו קל בהרבה מלנחש כמה מספרים, כך אפשר לחשב את הנדירות של יתר האתרים בעזרת טבלאות והנוסחה בנספח א', ותחת הנחת אי תלות בין האתרים אפשר להכפיל את ההסתברויות ולקבל את הסתברות ההתאמה המקרית של הפרופיל כולו באוכלוסיה הלבנה. היינו, ההסתברות שתתקבל התאמה באוכלוסיה בין פרופיל גנטי של אדם לפרופיל גנטי מזירת הפשע, בהינתן שהאדם הוא חף מפשע. הסתברות התאמה מקרית של אחד למיליון משמעותה שבקרב מיליון אנשים יהיה בממוצע עוד אדם אחד בלבד עם פרופיל גנטי כמו לעבריין. בע"פ 9724/02 - מוראד אבו-חמאד נ' מדינת ישראל, מתוארת ראיית די אן אי שתאמה לנאשם בתשעה אתרים ואשר אופיינה בהסתברות התאמה מקרית של אחד לשבע מיליארד. השופט מישאל חשין קבע כי בכל כדור הארץ כולו יש עוד אדם אחד שלו פרופיל גנטי כמו לעבריין.


למול ההסתברויות האינפיניטסימליות של אחד למיליארדים וטריליונים ומספרים נמוכים אף יותר המרמזים על ייחודיות, הגיעו התוצאות מספירת התאמות והתאמות חלקיות בין זוגות פרופילים גנטיים במאגר באריזונה שהכיל 65,493 פרופילים גנטיים בלבד. התוצאות היו כאלו: 122 התאמות ב-9 אתרים מתוך 13. 20 התאמות ב-10 אתרים מתוך 13. התאמה אחת של 11 אתרים מתוך 13. התאמה נוספת של 12 אתרים מתוך 13. נשאלת כמובן השאלה האם האמירה של השופט חשין כי הפרופיל הגנטי בן תשעה אתרים של מוראד אבו חאמד כל כך נדיר עד שיש רק עוד אחד כמוהו בכל העולם היא נכונה, לאור העובדה שבמאגר שמונה רק 65,493 התגלה כי לאחד מבין 228 פרופילים גנטיים יש פרופיל גנטי אחר שתואם לו לפחות בתשעה אתרים. האם התאוריה ההסתברותית בדבר נדירות הפרופיל הגנטי הוכחה כשגויה?

התשובה היא שלא. הסתברות היא תמיד דבר מבלבל. עצם קיום התאמות חלקיות ואף התאמות מלאות במאגרים גדולים יותר, אינן הפתעה כלל. זאת משתי סיבות:

א.     ישנן כ-715 אפשרויות לבחור 9 אתרים מבין 13. מכאן שכאשר מבצעים  השוואה לבחינת התאמה חלקית בתשעה אתרים, לא מבצעים השוואה אחת אלא מבצעים 715 השוואות שכאלו. הדבר מעלה כמובן את הסתברות ההתאמה המקרית.
ב.      איננו משווים פרופיל אחד ל-65,493 פרופילים אחרים. אנחנו משווים 65,493 ל-65,493. מדובר על מספר עצום של השוואות ובחלק מהן יתקבלו התאמות.

אם כך, השאלות היחידות שנותרו פתוחות לגבי המאגר באריזונה הן לא אלו הנוגעות לעצם קיום התאמות במספר אתרים גבוה, אלא האם מספר ההתאמות תואם את התאוריה ואת הנחות של הארדי וויינברג, ומה המשמעות של התאמות כאלו מבחינת ההכרעה המשפטית. באשר לדי אן אי של בעלי חיים, כמו זאב אפור (Canis lupus) ודוב חום (Ursus arctos ), התברר כי התיאוריה הסטטיסטית סוטה ממה שנמצא בפועל. יכולת ההפרדה בעזרת DNA עבור אותם בעלי חיים היא פחותה משמעותית מיכולת ההפרדה שמנבאת התאוריה. הפער בין התאוריה לבין המציאות מוסבר באמצעות קיומן של תתי-אוכלוסיות בתוך האוכלוסייה הנבדקת.

דרך אחת לענות על שתי השאלות לגבי בני אדם, היא לעשות סימולציה של מאגר פרופילים גנטי בגודל של המאגר באריזונה. היינו, לכתוב תוכנה אשר מייצרת בעזרת מחולל מספרים אקראיים 65,493 סדרות של 13 זוגות מספרים ואשר ההתפלגות של אותם המספרים, היא כמו בטבלאות שכיחות האללים. אותם 65,493 פרופילים גנטיים סינתטיים, תואמים לחלוטין את התאוריה הגנטית כי האללים בפרופילים מתפלגים בדיוק לפי הטבלאות. לאחר שיצרנו פרופילים גנטיים סינתטיים, אפשר לספור את כמות ההתאמות החלקיות בסימולציה ולהשוות לתוצאות האמת מאריזונה. ככל שיש פער יותר גדול, בין התוצאות באריזונה לבין תוצאות הסימולציה כך המציאות שונה יותר מהתאוריה הגנטית. סימולציה כזאת נעשה על ידי Mueller. על פי נתונים דמוגרפים הוא הניח שהמאגר כולל לבנים, שחורים, היספנים ושני שבטים אינדיאנים. בסימולציות אחרות הוא הביא בחשבון תתי אוכלוסיות וכן קיומם של אחים. תחת הנחות מסוימות הוא גילה שבממוצע, 100 זוגות פרופילים תואמים חלקית בתשעה אתרים ו-3.9 פרופילים התואמים ב-10 אתרים. מבחינת המשפט הפלילי, שתי התוצאות הללו לא רחוקות כלל.  הנה כי כן מטרת הסימולציה הייתה לבדוק את התאוריה למול המציאות שהתגלתה במאגר והתוצאות - הגם שלא היו 100% זהות - קרובות מספיק למציאות לכל שימוש משפטי כלשהו.

דרך נוספת לבדוק האם התוצאות באריזונה תואמות את התאוריה הגנטית היא על ידי חישוב תיאורטי ישיר של כמות ההתאמות החלקיות הצפויות במאגר.  Weir הניח שהמאגר מונה לבנים בלבד והכניס את תיקון טטה לתתי אוכלוסיות בשיעור 0.03 וקיבל 10 התאמות ב-10 אתרים ו-530 התאמות בתשעה אתרים. אם היה מניח שהמאגר מונה קבוצות אוכלוסיה שונות כפי שעשה מולר היה מקבל תוצאות שדומות יותר למאגר באריזונה.

גם אני פרסמתי בעבר חישובים תאורטיים וסימולציות של עבודת משטרה למול מאגר שרלוונטיות לישראל. במסגרת המחקר לקראת פרסום ספר באוקספורד ביחד עם סנג'רו (ספר שלא פורסם בסופו של דבר) חזרתי על המחקר של Mueller ושל Weir ווידאתי שאני מקבל תוצאות כפי שהם קיבלו. בין היתר, ביצעתי חישוב תאורטי לגבי כמות ההתאמות החלקיות בפרופילים גנטיים בני 13 אתרים בארה"ב כולה אשר מספר התושבים בה נכון ל-29.8.2013 היה 316,560,000. זאת תחת ההנחה כי הרכב האוכלוסייה הוא 72.4% לבנים, 12.6% שחורים, 7.7% היספנים, ועוד 7.3% אחרים. התוצאות שהתקבלו היו כאלו:
עבור פרופילים גנטיים שהופקו ב-13 אתרים, יהיו:
752 זוגות תואמים ב-13 אתרים מתוך 13,
 112,112 התאמות ב-12 אתרים מתוך 13,
  7.55 מיליון התאמות ב-11 אתרים מתוך 13,
 305 מיליון התאמות של 10 אתרים מתוך 13,
 8.27 מיליארד התאמות של 9 אתרים מתוך 13.
עבור פרופילים גנטיים שהופקו ב-10 אתרים,  יהיו:
 353,849 זוגות תואמים בעשרה אתרים מתוך העשרה,
 45 מיליון התאמות בתשעה אתרים מתוך העשרה,
 ו-2.5 מיליארד התאמות בשמונה אתרים מתוך העשרה.
עבור פרופילים גנטיים שהופקו ב-6 אתרים בלבד  יהיו:
  1.95 מיליארד  זוגות תואמים של 6 אתרים מתוך 6,
 192 מיליארד התאמות של 5 אתרים מתוך 6,
 7.8 טריליון התאמות של 4 אתרים מתוך 6.

האם ייתכן  שאדם שהפרופיל הגנטי שלו מופיע במאגר גדול, יופלל כתוצאה מפשע שביצע אדם שהפרופיל הגנטי שלו אינו נמצא במאגר? אנו יודעים כי ב-27.6% מהמקרים שבהם פוענחו פשעים בבריטניה בשנות האלפיים באמצעות מאגר נתונים, התגלתה ההתאמה ליותר מאדם אחד.  זאת, מאחר והאיכות של הדגימות מזירת הפשע היא ירודה וכתוצאה מכך, הפרופיל שמופק הוא חלקי ומוגבל מבחינת יכולת ההפרדה בין אנשים שונים. ניתן להניח כי כך גם במקומות אחרים בעולם וגם בארה"ב. לצערנו, לא  פורסמו נתונים אודות אותן התאמות ואיננו יודעים מהו המספר המרבי של אתרים שבהם התגלתה התאמה ליותר מחשוד אחד.

לצורך בדיקת אפשרות זאת, ביצעתי סימולציה של עבודה משטרתית מול מאגר פרופילים גנטיים המכיל  10,477,600 פרופילים גנטיים (כמספר הפרופילים שבמאגר הלאומי האמריקני אז), המורכבים משישה אתרים כל אחד. הסימולציה נכתבה ב-c++ (שפת תוכנה). . ספירת התאמות מלאות בסימולציה בין פרופילים גנטיים המורכבים משישה אתרים, מעלה כך: 417601 זוגות פרופילים זהים,  50726 שלישיות, 9059 רביעיות,  2043 חמישיות,  542 שישיות,  118 שביעיות,  27 שמיניות,  9 תשיעיות,  5 עשיריות,  2 קבוצות של 11 פרופילים גנטיים החולקים את אותו פרופיל גנטי בין 6 אתרים. הסימולציה של חקירת עבודה משטרתית למול המאגר בוצעה באופן הבא. הגרלתי פרופיל גנטי אקראי אשר מדמה פרופיל גנטי של עבריין שאינו נמצא במאגר, ואשר נמצא בזירת פשע פלילי 1. סרקתי את מאגר הנתונים ובדקתי אם יש התאמה. אם נמצאה התאמה, הפסקתי וקבעתי כי בניסוי מספר 1 התקבלה התאמה מקרית כבר אחרי סריקה אחת. אם לא התקבלה התאמה הגרלתי פרופיל גנטי שני, אשר מדמה פרופיל של עבריין אחר שאינו נמצא במאגר, אשר ביצע את פשע מס 2. אם נמצאה התאמה, הפסקתי וקבעתי כי בניסוי מספר 1 התקבלה התאמה מקרית אחרי 2 סריקות. אם לא נמצאה התאמה המשכתי עוד ועוד, עד שהתקבלה (למשל אחרי Y=18 ניסיונות) במקרה כזה קבעתי כי בניסוי מספר 1 התקבלה התאמה מקרית ראשונה אחרי Y סריקות. זהו ציר ה-Y בגרף – "מספר הסריקה שבה התקבלה התאמה ראשונה". מאחר ומדובר במספרים אקראיים והתוצאות בכל ניסוי יהיו אחרות, עשיתי 5,000 ניסיונות כאלה. התוצאות מוצגות באופן שציר ה-X לא יהיה מספרו של הניסוי האקראי, אלא מינוס הלוגריתם העשרוני של הסתברות ההתאמה המקרית באותו ניסוי שבו התקבלה התאמה מקרית. כך אפשר לקבל מידע לא רק לגבי ההתאמה, אלא גם לגבי ההסתברות לאותה התאמה מקרית. הנה גרף המתאר את התוצאות:


רואים מהגרף כי ייתכן שהתאמה מקרית תתקבל כבר לאחר סריקה אחת,  וייתכן שהיא תתקבל רק לאחר 70 סריקות. אנו רואים בציור כי התאמה מקרית יכולה להתקבל גם כאשר הסתברות ההתאמה המקרית נמוכה עד כדי אחד ל-12.5 מיליארד (אחד חלקי 10 בחזקת 10.1). 

כדי לראות את המקרים שבהם התאמה מקרית התקבלה כבר לאחר מספר קטן של סריקות, עשיתי "זום" לגרף, כך שהוא מתמקד רק באותן התאמות מקריות שהתקבלו לאחר פחות מ-20 סריקות:


כל נקודה על הגרף משמעותה הרשעה של חף מפשע. זאת מכיוון שאנשים מורשעים על סמך ראיית די אן אי לבדה. כל נקודה על הגרף משמעותה גם שהעבריין האמיתי חמק מעונש. ניתן לראות כי גם אחרי סריקה בודדת אפשר לקבל התאמה מקרית, שיוצרת זיהוי מוטעה, וזאת אפילו כאשר הסתברות ההתאמה המקרית היא רק אחד למיליארדים. ואכן אנשים הורשעו על סמך התאמות בשישה אתרים, כאשר ראיית הדי אן אי היא ראיה יחידה. אתאר שתי ההרשעות מפורסמות שכאלו.

חקירה מחודשת מרצח ואונס שבוצע בשנת 1972 הוביל לניסיון להפיק פרופיל די אן אי מדגימה שנשמרה מזמן הרצח. מהדגימה הצליחו להפיק פרופיל רק משישה אתרים. הסתברות ההתאמה המקרית, הייתה 1 ל-1.1 מיליון. בסריקה במאגר נמצאה התאמה לג'ון פקט (John Puckett) שהיה אז מעל גיל 70 ואשר חי חיים שקטים במשך שנים רבות.  שום דבר מלבד הראיה לא קשר אותו לרצח. 

מקרה נוסף מאנגליה הוא המקרה של דניס אדמס (Denis John Adams) בן 37. סריקה במאגר פרופילים גנטיים הניבה התאמה לפרופיל בן שישה אתרים של העבריין במקרה אונס לא מפוענח שהתרחש שנתיים קודם לכן. המתלוננת טענה כי האנס היה בחור צעיר בגילאים 20-25. היא לא זיהתה את הנאשם במסדר זיהוי. היא טענה כי הוא אינו דומה לאנס. לדבריה, אדמס  נראה מבוגר מהאנס, אשר היה צעיר. אדם סיפק אליבי לזמן האונס שלא הופרך ואף נתמך בעדות חברתו. למרות כל אלו אדמס הורשע במשפט ובמשפט חוזר.

ככל שבידי מקבלי ההחלטות היו סימולציות של תוצאות שכאלו, יתכן שהם לא היו ממהרים להרשיע נאשם, סתם בגלל התאמה במאגר די אן אי, ללא ראיות נוספות שקושרות את הנאשם לזירת הפשע. מניין לנו שאדמס ופקט אינן אחת מהנקודות על הגרף? גם כיום, ניתן להשתמש בסימולציות שכאלו כדי לבדוק הרשעות בעבר שהתבססו על התאמה במספר אתרים קטן או לחילופין כדי לבדוק הרשעות המבוססות על פרופילים חלקיים או אפילו סימולציה של הפקה שגויה של פרופילים גנטיים.

השימוש בסימולציות ממוחשבות ככלי מחקר נפוץ מאוד בתחומי המדע. בפרט, משתמשים בו בתחומים הנדסיים שבהם שואפים לשיעור תקלות נמוך מאוד, כמו תעופה, הנדסת תחנות כוח גרעיניות ותעשיות צבאיות. השימוש בסימולציות נפוץ גם בכלכלה ובניהול, ואף הוכנס לתחום הרפואה.  ה-FDA מעודד שימוש בסימולציות ממוחשבות בשלבי התכנון של מכשור רפואי. גם בתחום המשפטי ניתן לראות מחקרים ראשונים העושים שימוש בסימולציות. סימולציות לא מוגבלות לראיות מדעיות. בתחומי הפסיכולוגיה בוצעו ניסויים חכמים, בעדויות ראיה ואף בראיית ההודאה המהווים בעצם סימולציה של ההליך המשפטי בתנאי מעבדה מבוקרים.

לאור העובדה שתאונות (הרשעות שווא) הן נסתרות במשפט הפלילי, סימולציות בתנאים מבוקרים, הן כלי מרכזי ביותר בכל פיתוח תורת בטיחות בתחום המשפטי. שכן בסימולציה  ה-ground truth ידוע.

נספח א' - נוסחת הרדי ווינברג לחישוב שכיחות זוג אללים באתר מסוים על סמך טבלאות שכיחות אללים באוכלוסיה:





אין תגובות:

הוסף רשומת תגובה