יום חמישי, 24 במאי 2018

How Many Embarrassing Mistakes can Sangero Make in Four Simple Sentences?



Apparently, after Sangero received from me original high-quality research demonstrating the use of simulations as a safety tool in criminal law, he chose to suggest in a book crediting him alone the use a certain simulation (“using strong computers”) as such safety tool. But in the four sentences he used to make this suggestion, he made highly embarrassing mistakes that indicate he did not really understand the nature of simulations and the studies of other researchers in this field.

In the past 25 years, I have been dealing with computer simulations in various fields almost every day. Among else, I published two papers containing theoretical calculations and original software simulations predicting the number of full matches and the number of partial matches between genetic profiles in databases and in the entire Israel's population.

While working on the book about safety in criminal law which was intended to be published by Oxford University Press I provided Sangero with many pages of new original research which includes, among else: that simulations are common in various study areas; references to a source demonstrating that the FDA considers simulations to be an important safety instrument; and description of the partial matches in many loci between genetic profiles found in the Arizona DNA database which only includes 65,493 genetic profiles; I provided citation to the original papers of Mueller and Weir, which I knew in-depth and described each of their analysis.  Among else, in order to learn the number of matches found in the US national database, I conducted - specifically for the book - simulation of a DNA database with 10,477,600 profiles - the size of the NDIS (the US national database) at the time. I also performed theoretical calculations relating to the number of matches in the entire USA population. I linked the study to the disputed conviction of John Puckett. In this manner, I demonstrated how simulation can be a prominent safety tool in criminal law (see Annexes at the end of this post)

The notion of using simulation as a safety instrument in criminal law, not only with respect to DNA evidence, is one of the most profound, new and original ideas I contributed to the draft of the safety book with Sangero. It is entirely my idea, and Sangero has no part in it. It is based on my knowledge and extensive experience of the enormous use of developing simulations and on my familiarity with the legal issues. I mentioned simulations as an important safety tool in criminal law in email correspondence and drafts of previous chapters exchanged with Sangero. Clearly, he should not have suggested using simulations as a safety tool in criminal law in publications bearing his name only. After all, this was not his idea.

Indeed, Sangero did not include my simulations and calculation in the book. But I was amazed to read in pages 114-115 four sentences that in which he suggests (“I contend”) performing certain simulations as an important safety tool in criminal law. These original four sentences appear in Annex A at the end of the post:

“A few researchers, including Bruce Weir and Laurence Mueller, have used simulations with databases in their research. But the databases available to these researchers are relatively small. I contend that conducting expanded simulations on the broadest national database (NDIS) would be an important safety tool for the criminal justice system.  Indeed, people should not be judged and sentenced to jail on the basis of theory and calculations (of the RMP) alone, when we can verify (using strong computers) the exact RMP for each number of loci in a profile”.
However, we can easily see that this section includes very embarrassing mistakes:

(a)       The sentence: “...when we can verify (using strong computers) the exact RMP for each number of loci in a profile” is clearly wrong and self-contradicting. Simulations like the one performed by Mueller do not concern real genetic profiles, but synthetic ones, produced based on existing theoretical models, alleles frequencies, and random numbers’ generator. Therefore, “the exact RMP for each number of loci in a profile” (of true genetic profiles) cannot be verified based on simulated synthetic profiles created of random numbers. This is Sangero’s figment of imagination, as he probably does not really understand what a simulation of a genetic profiles database is.

B.        For computing “the exact RMP” (to the extent such concept may be defined), from labeled profiles in large databases, there is no need for a computer as strong as the one required for simulations. All you have to do is calculate the allele’s frequencies in a relevant population. This is a simple enough calculation that any modest computer can complete in milliseconds. The claim that exact RMP calculation requires a strong computer is another one of Sangero’s figments of imagination.

C.         Weir did not perform a simulation, not with a small database and not with a large database. Weir did not perform any simulation. He made a theoretical calculation that is intended to predict the average number of full and partial matches in a database. He also compared his theoretical calculation with the number of partial matches he found in his database. Sangero claimed that Weir conducted simulation. This is another figment of his imagination which indicates he did not understand the difference between simulation and theoretical calculation, nor did he understand what Weir did.

D.         Laurence Mueller did not conduct simulation with a small (or large) database. This, simply because Mueller’s simulation itself generated synthetic data (randomly-generated, not real, profiles). Mueller simulated a database the size of the Arizona database based on a genetic model and tables of allele frequencies in the population, and counted the partial matches there. He attempted to compare this with the partial matches found in the true Arizona database. Therefore, this is another of Sangero’s figments of imagination.

Needless to mention that in page 161 of David H. Kaye’s paper, cited by Sangero (in footnote 68) to support his arguments there is no trace of such figments. In general, Kaye’s entire paper does not mention any simulation conducted by Bruce Weir. This, as noted above, simply since Weir did not perform any simulation. Simulation is mentioned in Kaye’s paper with respect to Mueller’s simulation, not in the context of ”exact” RMP calculation. Of course, the paper does not mention that Mueller conducted his simulation on a small database.

This leads us to the following serious conclusions:
A.       Sangero was exposed to my extensive study of simulations and matches in databases and fails to mention it anywhere in his book.
B.        He chose to write about a technical matter which he does not understand, thereby generating embarrassing mistakes. Beyond embarrassment, I find publication of erroneous academic content to lack academic integrity.
C.             Sangero cited a source that does not support the content he claims to have found there.
D.      In the same few sentences, Sangero demonstrated ignorance and misunderstanding of technical matters related to the papers he cited.

How then, did Sangero form the erroneous statement: “I contend that conducting expanded simulations on the broadest national database (NDIS) would be an important safety tool for the criminal justice system”? Obviously, the content of this statement is not the conclusion of any of the papers on which he supposedly relies. We can assume that Sangero was highly influenced by the study I gave him, specifically from the fact I performed simulation on a database as big as the NDIS. Apparently, he did everything he could to be the one suggesting (alone) the use of simulations as a safety tool in criminal law, although he does not understand the nature of simulations.

Annex A - Pages 114-115 in Sangero’s book subject of the above:


Annex B - General information about simulations I provided Sangero with.



Annex C: Distribution of genetic profile in my simulation:




Annex D: Results of simulation of a police investigation in an NDIS-sized databased on one profile between six loci (the number of loci in John Puckett’s case)



Annex E: Zoom-in on the Annex D chart. 



Annex F: Results of theoretical calculations and reference to John Puckett’s conviction. 





יום שישי, 18 במאי 2018

סימולציות ככלי בטיחותי במשפט הפלילי


אם ארצה לתמצת מהי ראיית ה- די אן אי המשמשת בבתי משפט אעשה זאת זאת בשלוש מילים: "אוסף זוגות מספרים". הנה כי כן, תעודת הזהות הגנטית של כל אחד מאיתנו מורכבת ממספר מוגבל של זוגות מספרים. לדוגמה, 10 זוגות המספרים בעמודה הימנית (Allele values) של הטבלה הלקוחה מעמוד הויקיפדיה של הקיט SGM PLUS מהווה פרופיל גנטי של אדם מסוים (איננו יודעים מיהו) כפי שפרופיל כזה מופק בישראל ובאנגליה:



המדינה מחזיקה על פי חוק מאגר פרופילים גנטיים של עבריינים מורשעים ושל חשודים אשר נלקחה מהם דגימת DNA (ראו חוק סדר הדין הפלילי (סמכויות אכיפה – חיפוש בגוף ונטילת אמצעי זיהוי), תשנ"ו-1996)לכל פריט במאגר משויכים 10 זוגות מספרים וסה"כ 20 מספרים (10 כפול 2). המאגר שימושי למקרים בהם מבוצע פשע, והעבריין השאיר בזירת הפשע עקבה ביולוגית המכילה די אן אי כמו כמו דם, זרע, עור, זקיק שיער, רוק ועוד. מהעקבה מפיקים את הפרופיל הגנטי (10 זוגות מספרים) ולאחר מכן, סורקים את המאגר ומחפשים האם יש פרופיל במאגר הזהה בכל 20 המספרים לפרופיל מזירת הפשע. במידה ונמצאה התאמה, אזי מדובר על ראיה מאד חזקה כנגד התורם של הפרופיל במאגר. השאלה  המעניינת היא האם יתכן שיהיו שני בני אדם להם אותו פרופיל גנטי. אם הדבר אפשרי, אז הראיה כמובן חלשה יותר.

הגם שהפוסט הזה אינו עוסק בהיבטים ביולוגים של ראיית הדי אן אי, אציין כי כל זוג מספרים מייצג את האללים במקומות מסוימים במולקולת הדי אן אי בהם השונות בין בני אדם גדולה. כל מיקום כזה מכונה אתר ובאנגלית לוקוס. רשימת הלוקוסים נתונה בטור השמאלי בטבלה. לדוגמא, בפרופיל הגנטי לעיל, ובאתר  THO1 (מקום מסוים במולקולת ה-די אן אי) נמצאו האללים 6 ו-7. בפרופיל גנטי של אדם אחר ימצאו באותו אתר אללים אחרים. טבלאות שכיחות אללים מספקות את האינפורמציה הנוגעת לשכיחות של כל אלל ואלל בלוקוס מסוים באוכלוסיה מסוימת. לדוגמא, הנה טבלת שכיחויות אללים עבור האתר THO1 באוכלוסיה קווקזית (לבנה)  בארצות הברית:


מהטבלה רואים כי באתר THO1 אפשריים 8 אללים בלבד (5, 6, 7, 8, 9, 9.3, 10, 11). השכיחות של האלל 6 היא 23.1 אחוזים  והשכיחות של האלל 7 היא  19 אחוזים והשכיחות של האלל 5 היא כפרומיל.  היינו מתוך 10,000 אנשים, ל-2300 מהם יהיה את האלל 6; ל-1900 מהם יהיה את האלל 7; ואילו האלל 5 יהיה נדיר מאד – יופיע רק אצל 16 בני אדם.

תחת הנחות שיווי המשקל של הארדי ווינברג אפשר לחשב מאותן טבלאות את הנדירות של כל זוג אללים (ראה נוסחה בנספח א'). שימוש בנוסחה יגלה כי השכיחות של הזוג (6,7) באתר THO1 באוכלוסיה לבנה הוא 0.088. היינו ל-880 מתוך אותם 10000 אנשים לבנים, יהיה את זוג האללים הנ"ל. אם היינו מסתפקים בזוג הזה, הכוח של ראיית ה-די אן אי יהיה מוגבל שכן הראיה מצמצמת מאגר חשודים של 10,000 ל-880. אולם פרופיל גנטי בישראל מורכב מ-10 זוגות אללים ב-10 אתרים. ובדיוק כפי שלנחש מספר אחד בלוטו קל בהרבה מלנחש כמה מספרים, כך אפשר לחשב את הנדירות של יתר האתרים בעזרת טבלאות והנוסחה בנספח א', ותחת הנחת אי תלות בין האתרים אפשר להכפיל את ההסתברויות ולקבל את הסתברות ההתאמה המקרית של הפרופיל כולו באוכלוסיה הלבנה. היינו, ההסתברות שתתקבל התאמה באוכלוסיה בין פרופיל גנטי של אדם לפרופיל גנטי מזירת הפשע, בהינתן שהאדם הוא חף מפשע. הסתברות התאמה מקרית של אחד למיליון משמעותה שבקרב מיליון אנשים יהיה בממוצע עוד אדם אחד בלבד עם פרופיל גנטי כמו לעבריין. בע"פ 9724/02 - מוראד אבו-חמאד נ' מדינת ישראל, מתוארת ראיית די אן אי שתאמה לנאשם בתשעה אתרים ואשר אופיינה בהסתברות התאמה מקרית של אחד לשבע מיליארד. השופט מישאל חשין קבע כי בכל כדור הארץ כולו יש עוד אדם אחד שלו פרופיל גנטי כמו לעבריין.


למול ההסתברויות האינפיניטסימליות של אחד למיליארדים וטריליונים ומספרים נמוכים אף יותר המרמזים על ייחודיות, הגיעו התוצאות מספירת התאמות והתאמות חלקיות בין זוגות פרופילים גנטיים במאגר באריזונה שהכיל 65,493 פרופילים גנטיים בלבד. התוצאות היו כאלו: 122 התאמות ב-9 אתרים מתוך 13. 20 התאמות ב-10 אתרים מתוך 13. התאמה אחת של 11 אתרים מתוך 13. התאמה נוספת של 12 אתרים מתוך 13. נשאלת כמובן השאלה האם האמירה של השופט חשין כי הפרופיל הגנטי בן תשעה אתרים של מוראד אבו חאמד כל כך נדיר עד שיש רק עוד אחד כמוהו בכל העולם היא נכונה, לאור העובדה שבמאגר שמונה רק 65,493 התגלה כי לאחד מבין 228 פרופילים גנטיים יש פרופיל גנטי אחר שתואם לו לפחות בתשעה אתרים. האם התאוריה ההסתברותית בדבר נדירות הפרופיל הגנטי הוכחה כשגויה?

התשובה היא שלא. הסתברות היא תמיד דבר מבלבל. עצם קיום התאמות חלקיות ואף התאמות מלאות במאגרים גדולים יותר, אינן הפתעה כלל. זאת משתי סיבות:

א.     ישנן כ-715 אפשרויות לבחור 9 אתרים מבין 13. מכאן שכאשר מבצעים  השוואה לבחינת התאמה חלקית בתשעה אתרים, לא מבצעים השוואה אחת אלא מבצעים 715 השוואות שכאלו. הדבר מעלה כמובן את הסתברות ההתאמה המקרית.
ב.      איננו משווים פרופיל אחד ל-65,493 פרופילים אחרים. אנחנו משווים 65,493 ל-65,493. מדובר על מספר עצום של השוואות ובחלק מהן יתקבלו התאמות.

אם כך, השאלות היחידות שנותרו פתוחות לגבי המאגר באריזונה הן לא אלו הנוגעות לעצם קיום התאמות במספר אתרים גבוה, אלא האם מספר ההתאמות תואם את התאוריה ואת הנחות של הארדי וויינברג, ומה המשמעות של התאמות כאלו מבחינת ההכרעה המשפטית. באשר לדי אן אי של בעלי חיים, כמו זאב אפור (Canis lupus) ודוב חום (Ursus arctos ), התברר כי התיאוריה הסטטיסטית סוטה ממה שנמצא בפועל. יכולת ההפרדה בעזרת DNA עבור אותם בעלי חיים היא פחותה משמעותית מיכולת ההפרדה שמנבאת התאוריה. הפער בין התאוריה לבין המציאות מוסבר באמצעות קיומן של תתי-אוכלוסיות בתוך האוכלוסייה הנבדקת.

דרך אחת לענות על שתי השאלות לגבי בני אדם, היא לעשות סימולציה של מאגר פרופילים גנטי בגודל של המאגר באריזונה. היינו, לכתוב תוכנה אשר מייצרת בעזרת מחולל מספרים אקראיים 65,493 סדרות של 13 זוגות מספרים ואשר ההתפלגות של אותם המספרים, היא כמו בטבלאות שכיחות האללים. אותם 65,493 פרופילים גנטיים סינתטיים, תואמים לחלוטין את התאוריה הגנטית כי האללים בפרופילים מתפלגים בדיוק לפי הטבלאות. לאחר שיצרנו פרופילים גנטיים סינתטיים, אפשר לספור את כמות ההתאמות החלקיות בסימולציה ולהשוות לתוצאות האמת מאריזונה. ככל שיש פער יותר גדול, בין התוצאות באריזונה לבין תוצאות הסימולציה כך המציאות שונה יותר מהתאוריה הגנטית. סימולציה כזאת נעשה על ידי Mueller. על פי נתונים דמוגרפים הוא הניח שהמאגר כולל לבנים, שחורים, היספנים ושני שבטים אינדיאנים. בסימולציות אחרות הוא הביא בחשבון תתי אוכלוסיות וכן קיומם של אחים. תחת הנחות מסוימות הוא גילה שבממוצע, 100 זוגות פרופילים תואמים חלקית בתשעה אתרים ו-3.9 פרופילים התואמים ב-10 אתרים. מבחינת המשפט הפלילי, שתי התוצאות הללו לא רחוקות כלל.  הנה כי כן מטרת הסימולציה הייתה לבדוק את התאוריה למול המציאות שהתגלתה במאגר והתוצאות - הגם שלא היו 100% זהות - קרובות מספיק למציאות לכל שימוש משפטי כלשהו.

דרך נוספת לבדוק האם התוצאות באריזונה תואמות את התאוריה הגנטית היא על ידי חישוב תיאורטי ישיר של כמות ההתאמות החלקיות הצפויות במאגר.  Weir הניח שהמאגר מונה לבנים בלבד והכניס את תיקון טטה לתתי אוכלוסיות בשיעור 0.03 וקיבל 10 התאמות ב-10 אתרים ו-530 התאמות בתשעה אתרים. אם היה מניח שהמאגר מונה קבוצות אוכלוסיה שונות כפי שעשה מולר היה מקבל תוצאות שדומות יותר למאגר באריזונה.

גם אני פרסמתי בעבר חישובים תאורטיים וסימולציות של עבודת משטרה למול מאגר שרלוונטיות לישראל. במסגרת המחקר לקראת פרסום ספר באוקספורד ביחד עם סנג'רו (ספר שלא פורסם בסופו של דבר) חזרתי על המחקר של Mueller ושל Weir ווידאתי שאני מקבל תוצאות כפי שהם קיבלו. בין היתר, ביצעתי חישוב תאורטי לגבי כמות ההתאמות החלקיות בפרופילים גנטיים בני 13 אתרים בארה"ב כולה אשר מספר התושבים בה נכון ל-29.8.2013 היה 316,560,000. זאת תחת ההנחה כי הרכב האוכלוסייה הוא 72.4% לבנים, 12.6% שחורים, 7.7% היספנים, ועוד 7.3% אחרים. התוצאות שהתקבלו היו כאלו:
עבור פרופילים גנטיים שהופקו ב-13 אתרים, יהיו:
752 זוגות תואמים ב-13 אתרים מתוך 13,
 112,112 התאמות ב-12 אתרים מתוך 13,
  7.55 מיליון התאמות ב-11 אתרים מתוך 13,
 305 מיליון התאמות של 10 אתרים מתוך 13,
 8.27 מיליארד התאמות של 9 אתרים מתוך 13.
עבור פרופילים גנטיים שהופקו ב-10 אתרים,  יהיו:
 353,849 זוגות תואמים בעשרה אתרים מתוך העשרה,
 45 מיליון התאמות בתשעה אתרים מתוך העשרה,
 ו-2.5 מיליארד התאמות בשמונה אתרים מתוך העשרה.
עבור פרופילים גנטיים שהופקו ב-6 אתרים בלבד  יהיו:
  1.95 מיליארד  זוגות תואמים של 6 אתרים מתוך 6,
 192 מיליארד התאמות של 5 אתרים מתוך 6,
 7.8 טריליון התאמות של 4 אתרים מתוך 6.

האם ייתכן  שאדם שהפרופיל הגנטי שלו מופיע במאגר גדול, יופלל כתוצאה מפשע שביצע אדם שהפרופיל הגנטי שלו אינו נמצא במאגר? אנו יודעים כי ב-27.6% מהמקרים שבהם פוענחו פשעים בבריטניה בשנות האלפיים באמצעות מאגר נתונים, התגלתה ההתאמה ליותר מאדם אחד.  זאת, מאחר והאיכות של הדגימות מזירת הפשע היא ירודה וכתוצאה מכך, הפרופיל שמופק הוא חלקי ומוגבל מבחינת יכולת ההפרדה בין אנשים שונים. ניתן להניח כי כך גם במקומות אחרים בעולם וגם בארה"ב. לצערנו, לא  פורסמו נתונים אודות אותן התאמות ואיננו יודעים מהו המספר המרבי של אתרים שבהם התגלתה התאמה ליותר מחשוד אחד.

לצורך בדיקת אפשרות זאת, ביצעתי סימולציה של עבודה משטרתית מול מאגר פרופילים גנטיים המכיל  10,477,600 פרופילים גנטיים (כמספר הפרופילים שבמאגר הלאומי האמריקני אז), המורכבים משישה אתרים כל אחד. הסימולציה נכתבה ב-c++ (שפת תוכנה). . ספירת התאמות מלאות בסימולציה בין פרופילים גנטיים המורכבים משישה אתרים, מעלה כך: 417601 זוגות פרופילים זהים,  50726 שלישיות, 9059 רביעיות,  2043 חמישיות,  542 שישיות,  118 שביעיות,  27 שמיניות,  9 תשיעיות,  5 עשיריות,  2 קבוצות של 11 פרופילים גנטיים החולקים את אותו פרופיל גנטי בין 6 אתרים. הסימולציה של חקירת עבודה משטרתית למול המאגר בוצעה באופן הבא. הגרלתי פרופיל גנטי אקראי אשר מדמה פרופיל גנטי של עבריין שאינו נמצא במאגר, ואשר נמצא בזירת פשע פלילי 1. סרקתי את מאגר הנתונים ובדקתי אם יש התאמה. אם נמצאה התאמה, הפסקתי וקבעתי כי בניסוי מספר 1 התקבלה התאמה מקרית כבר אחרי סריקה אחת. אם לא התקבלה התאמה הגרלתי פרופיל גנטי שני, אשר מדמה פרופיל של עבריין אחר שאינו נמצא במאגר, אשר ביצע את פשע מס 2. אם נמצאה התאמה, הפסקתי וקבעתי כי בניסוי מספר 1 התקבלה התאמה מקרית אחרי 2 סריקות. אם לא נמצאה התאמה המשכתי עוד ועוד, עד שהתקבלה (למשל אחרי Y=18 ניסיונות) במקרה כזה קבעתי כי בניסוי מספר 1 התקבלה התאמה מקרית ראשונה אחרי Y סריקות. זהו ציר ה-Y בגרף – "מספר הסריקה שבה התקבלה התאמה ראשונה". מאחר ומדובר במספרים אקראיים והתוצאות בכל ניסוי יהיו אחרות, עשיתי 5,000 ניסיונות כאלה. התוצאות מוצגות באופן שציר ה-X לא יהיה מספרו של הניסוי האקראי, אלא מינוס הלוגריתם העשרוני של הסתברות ההתאמה המקרית באותו ניסוי שבו התקבלה התאמה מקרית. כך אפשר לקבל מידע לא רק לגבי ההתאמה, אלא גם לגבי ההסתברות לאותה התאמה מקרית. הנה גרף המתאר את התוצאות:


רואים מהגרף כי ייתכן שהתאמה מקרית תתקבל כבר לאחר סריקה אחת,  וייתכן שהיא תתקבל רק לאחר 70 סריקות. אנו רואים בציור כי התאמה מקרית יכולה להתקבל גם כאשר הסתברות ההתאמה המקרית נמוכה עד כדי אחד ל-12.5 מיליארד (אחד חלקי 10 בחזקת 10.1). 

כדי לראות את המקרים שבהם התאמה מקרית התקבלה כבר לאחר מספר קטן של סריקות, עשיתי "זום" לגרף, כך שהוא מתמקד רק באותן התאמות מקריות שהתקבלו לאחר פחות מ-20 סריקות:


כל נקודה על הגרף משמעותה הרשעה של חף מפשע. זאת מכיוון שאנשים מורשעים על סמך ראיית די אן אי לבדה. כל נקודה על הגרף משמעותה גם שהעבריין האמיתי חמק מעונש. ניתן לראות כי גם אחרי סריקה בודדת אפשר לקבל התאמה מקרית, שיוצרת זיהוי מוטעה, וזאת אפילו כאשר הסתברות ההתאמה המקרית היא רק אחד למיליארדים. ואכן אנשים הורשעו על סמך התאמות בשישה אתרים, כאשר ראיית הדי אן אי היא ראיה יחידה. אתאר שתי ההרשעות מפורסמות שכאלו.

חקירה מחודשת מרצח ואונס שבוצע בשנת 1972 הוביל לניסיון להפיק פרופיל די אן אי מדגימה שנשמרה מזמן הרצח. מהדגימה הצליחו להפיק פרופיל רק משישה אתרים. הסתברות ההתאמה המקרית, הייתה 1 ל-1.1 מיליון. בסריקה במאגר נמצאה התאמה לג'ון פקט (John Puckett) שהיה אז מעל גיל 70 ואשר חי חיים שקטים במשך שנים רבות.  שום דבר מלבד הראיה לא קשר אותו לרצח. 

מקרה נוסף מאנגליה הוא המקרה של דניס אדמס (Denis John Adams) בן 37. סריקה במאגר פרופילים גנטיים הניבה התאמה לפרופיל בן שישה אתרים של העבריין במקרה אונס לא מפוענח שהתרחש שנתיים קודם לכן. המתלוננת טענה כי האנס היה בחור צעיר בגילאים 20-25. היא לא זיהתה את הנאשם במסדר זיהוי. היא טענה כי הוא אינו דומה לאנס. לדבריה, אדמס  נראה מבוגר מהאנס, אשר היה צעיר. אדם סיפק אליבי לזמן האונס שלא הופרך ואף נתמך בעדות חברתו. למרות כל אלו אדמס הורשע במשפט ובמשפט חוזר.

ככל שבידי מקבלי ההחלטות היו סימולציות של תוצאות שכאלו, יתכן שהם לא היו ממהרים להרשיע נאשם, סתם בגלל התאמה במאגר די אן אי, ללא ראיות נוספות שקושרות את הנאשם לזירת הפשע. מניין לנו שאדמס ופקט אינן אחת מהנקודות על הגרף? גם כיום, ניתן להשתמש בסימולציות שכאלו כדי לבדוק הרשעות בעבר שהתבססו על התאמה במספר אתרים קטן או לחילופין כדי לבדוק הרשעות המבוססות על פרופילים חלקיים או אפילו סימולציה של הפקה שגויה של פרופילים גנטיים.

השימוש בסימולציות ממוחשבות ככלי מחקר נפוץ מאוד בתחומי המדע. בפרט, משתמשים בו בתחומים הנדסיים שבהם שואפים לשיעור תקלות נמוך מאוד, כמו תעופה, הנדסת תחנות כוח גרעיניות ותעשיות צבאיות. השימוש בסימולציות נפוץ גם בכלכלה ובניהול, ואף הוכנס לתחום הרפואה.  ה-FDA מעודד שימוש בסימולציות ממוחשבות בשלבי התכנון של מכשור רפואי. גם בתחום המשפטי ניתן לראות מחקרים ראשונים העושים שימוש בסימולציות. סימולציות לא מוגבלות לראיות מדעיות. בתחומי הפסיכולוגיה בוצעו ניסויים חכמים, בעדויות ראיה ואף בראיית ההודאה המהווים בעצם סימולציה של ההליך המשפטי בתנאי מעבדה מבוקרים.

לאור העובדה שתאונות (הרשעות שווא) הן נסתרות במשפט הפלילי, סימולציות בתנאים מבוקרים, הן כלי מרכזי ביותר בכל פיתוח תורת בטיחות בתחום המשפטי. שכן בסימולציה  ה-ground truth ידוע.

נספח א' - נוסחת הרדי ווינברג לחישוב שכיחות זוג אללים באתר מסוים על סמך טבלאות שכיחות אללים באוכלוסיה:





יום שבת, 12 במאי 2018

כמה טעויות מביכות סנג'רו מסוגל לייצר בארבעה משפטים בודדים?


מסתבר שלאחר שסנג'רו קיבל ממני מחקר מקורי ואיכותי המראה כיצד ניתן להשתמש בסימולציות ככלי בטיחותי במשפט הפלילי, הוא בחר להציע בספר הנושא את שמו בלבד שימוש בסימולציה מסוימת (בעזרת מחשבים חזקים) ככלי בטיחותי במשפט הפלילי. אלא שבארבעה משפטים בהם הוא הציע זאת, הוא עשה טעויות מביכות מאד המלמדות שהוא לא באמת הבין מהי סימולציה ומה חוקרים אחרים בתחום עשו.

ב-25 השנה האחרונות, אני עוסק בסימולציות ממוחשבות כמעט באופן יום יומי בתחומים רבים. בין היתר, פרסמתי שני מאמרים בהם חישובים תאורטיים וסימולציות מקוריות בתוכנה, החוזים את מספר ההתאמות המלאות ואת מספר התאמות החלקיות בין פרופילים גנטיים במאגרים ובאוכלוסיה כולה.

במהלך העבודה על הספר בבטיחות במשפט הפלילי שהיה עתיד להתפרסם באוקספורד, העברתי לסנג'רו עמודים רבים בהם מחקר מקורי וחדש המראה בין היתר: כי סימולציות נפוצות בתחומי מחקר שונים; הפנתי  למקור המראה כי ה- FDA רואה בסימולציות כלי בטיחותי חשוב; בנוסף, תיארתי את ההתאמות החלקיות במספר אתרים גבוה בין פרופילים גנטיים שנמצאו במאגר ה-DNA באריזונה שכלל 65,493 פרופילים גנטיים בלבד; הפנתי למאמרים המקוריים של Mueller ו- Weir אותם הכרתי לעומק ותיארתי את הניתוח של כל אחד מהם.  בין היתר, כדי לדעת את מספר התאמות שימצאו במאגר הלאומי האמריקני, ביצעתי במיוחד לצרכי הספר סימולציה של מאגר DNA המונה 10,477,600 פרופילים - כגודל המאגר הלאומי NDIS בארה"ב באותה תקופה. כן ביצעתי חישוביים תאורטיים הנוגעים לגבי מספר ההתאמות באוכלוסיה כולה. קישרתי את המחקר להרשעה השנויה במחלוקת של John Puckett. כך המחשתי כיצד סימולציה יכולה להוות כלי בטיחותי מהמעלה הראשונה למשפט הפלילי (ראו נספחים בסוף הפוסט הנוכחי)

הרעיון בדבר אפשרות השימוש בסימולציה, ככלי בטיחותי במשפט הפלילי, ולא רק בכל הקשור לראיית - DNA, הינו אחד העמוקים והמקוריים והחדשים שהבאתי לטיוטת הספר עם סנג'רו על בטיחות. הוא כולו שלי ולסנג'רו אין כל חלק בו. הוא מבוסס על הידע שלי וניסיון רב השנים שלי בדבר התועלת העצומה בפיתוח סימולציות ועל ההכרות שלי עם אופי הבעיות בתחום המשפטי. גם בתחלופות דואר אלקטרוני, וטיוטות של פרקים קודמים ביני לבין סנג'רו, הזכרתי את הסימולציה ככלי בטיחותי חשוב במשפט הפלילי. ברור שהיה אסור לו להציע להשתמש בסימולציות ככלי בטיחותי למשפט הפלילי בפרסומים הנושאים את שמו בלבד. הרי לא מדובר על רעיון שלו.

סנג'רו אכן לא כלל בספר את הסימולציות והחישובים שלי. אולם נדהמתי לקרוא בעמוד 114-115 ארבעה משפטים אשר בהם הצעה בגוף ראשון ("אני טוען") לבצע סימלוציות מסוימות, ככלי בטיחותי חשוב במשפט הפלילי. אותם ארבעה משפטים באנגלית מופיעים בסוף הפוסט - בנספח א' - ולהלן תרגום חופשי שלי שלהם:

"מעט חוקרים, כולל Bruce Weir ו- Laurence Muellerהשתמשו בסימולציות עם בסיס נתונים במחקר שלהם. אבל בסיסי הנתונים שהיו זמינים להם היו קטנים. אני טוען כי ביצוע סימולציות נרחבות במאגרי ה-DNA הלאומיים NDIS)) יהוה כלי בטיחותי חשוב במשפט הפלילי. אכן, אנשים לא צרכים להישפט ולהשלח לכלא על בסיס תיאוריה וחישובים (של הסתברות התאמה מקרית RMP) לבדם, כאשר אנו יכולים לוודא בעזרת סימולציות (תוך שימוש במחשבים חזקים) את הסתברות ההתאמה המקרית האמיתית, עבור כל כמות של אתרים בפרופיל."
אלא שלא קשה לגלות כי הקטע כולל טעויות מביכות מאד:

א.     המשפט... "כאשר אנו יכולים לוודא בעזרת סימולציות (תוך שימוש במחשבים חזקים) את הסתברות ההתאמה המקרית האמיתית" הוא משפט שגוי בעליל הכולל סתירה פנימית. כי סימולציה בדומה לזאת שנעשתה על ידי Mueller, לא עוסקת בפרופילים גנטיים אמיתיים, אלא בפרופילים סינתטיים המיוצרים על סמך מודלים תאורטיים קיימים ועל סמך טבלאות שכיחות אללים באוכלוסיה ועל סמך מחולל מספרים אקראיים. לכן לא ניתן לוודא את "הסתברות ההתאמה המקרית האמיתית" (של פרופילים גנטיים מציאותיים), על סמך פרופילים סינתטיים שיוצרו בסימולציה ממספרים אקראיים. מדובר על המצאה של סנג'רו, שכנראה לא באמת מבין מהי סימולציה של מאגר פרופילים גנטי.

ב.      לצורך חישוב הסתברות ההתאמה המקרית "האמיתית" (ככל שניתן להגדיר מושג שכזה), מדטה מתויג הנמצא במאגרים גדולים, אין צורך במחשב חזק כמו זה הדרוש לביצוע סימולציה. כל מה שצריך, זה לחשב את שכיחות האללים באוכלוסיה רלוונטית בעזרת חישוב פשוט המתבצע בשברירי שנייה בכל מחשב צנוע. הטענה כי יש צורך במחשב חזק כדי לחשב הסתברות התאמה מקרית "אמיתית", היא המצאה נוספת של סנג'רו.

ג.      החוקר Weir לא ביצע סימולציה לא עם בסיס נתונים קטן ולא עם גדול. Weir לא ביצע סימולציה בכלל. הוא ביצע חישוב תיאורטי שאמור לנבא את הכמות הממוצעת של התאמות וההתאמות חלקיות במאגר. הוא גם השווה את החישוב התיאורטי שלו, לכמות ההתאמות החלקיות שמצא במאגר שהיה ברשותו. הטענה כי Weir ביצע סימולציה היא המצאה של סנג'רו המלמדת שהוא לא הבין את ההבדל בין סימולציה לבין חישוב תיאורטי, ולא את מה ש- Weir ביצע.

ד.      Laurence Mueller לא ביצע סימולציה עם בסיס נתונים קטן (וגם לא גדול) מהסיבה הפשוטה שהסימולציה אותה Mueller ביצע ייצרה בעצמה דטה סינטטי (פרופילים מוגרלים ולא אמיתיים). החוקר Mueller דימה מאגר בגודל של המאגר באריזונה על סמך מודל גנטי וטבלאות שכיחות אללים באוכלוסיה, וספר את כמות ההתאמות החלקיות בה. הוא ניסה להשוות זאת לתוצאות ההתאמות החלקיות שהתגלו במאגר האמיתי באריזונה. מכאן ששוב מדובר על המצאה של סנג'רו.

מיותר לציין כי בעמוד 161 במאמר של David H. Kaye לשם סנג'רו מפנה (בהערת שוליים 68) כדי לתמוך את טיעוניו אין שום זכר להמצאות הללו. בפרט, בכל המאמר של Kaye אין שום אזכור כי החוקר Bruce Weir ביצע סימולציה. זאת, כאמור, מהסיבה הפשוטה כי Weir לא ביצע סימולציה. המילה סימולציה מופיעה במאמר של Kaye בהקשר של הסימולציה של  Mueller ולא בהקשר של חישוב הסתברות התאמה מקרית "אמיתית". וכמובן, שלא כתוב במאמר כי Mueller  ביצע סימולציה על בסיס נתונים קטן.

מכאן, עולים הדברים החמורים הבאים:
א.     סנג'רו נחשף למחקר נרחב שלי בנושא סימולציות והתאמות במאגרים ולא מאזכר זאת בספר בשום מקום.
ב.      הוא בחר לכתוב על נושא טכני בו אינו מבין ותוך כדי כך ייצר טעויות מביכות.
ג.      סנג'רו הפנה למקור, שלא תומך בתכנים אותם הוא טען שמצא בו.
ד.   באותם משפטים ספורים, סנג'רו הראה בורות גדולה וחוסר הבנה בנושאים טכניים הקשורים למאמרים אליהם הוא התייחס.

ברור אם כך, כי המשפט השגוי: " אני טוען כי ביצוע סימולציות נרחבות במאגרי ה-DNA הלאומיים NDIS)) יהוה כלי בטיחותי חשוב במשפט הפלילי"? אינו עולה מאף אחד מהמחקרים עליהם הוא לכאורה מתבסס. יש להניח כי סנג'רו הושפע מאד מהמחקר שהעברתי אליו, ובפרט מהעובדה שביצעתי סימולציה של מאגר בגודל של ה-NDIS. הוא כנראה ניסה בכל כוחו להיות זה שמציע (בגוף ראשון) לבצע סימולציות ככלי בטיחותי במשפט הפלילי, וזאת, גם שאינו מבין מהי סימולציה.

נספח א- עמודים 114-115 בספרו של סנג'רו נשוא הדברים לעיל:


נספח ב- מידע כללי לגבי סימולציות שהעברתי לסנג'רו. 


נספח ג':התפלגות הפרופילים הגנטיים בסימולציה שעשיתי:
נספח ד': תוצאות סימולציה של חקירה משטרתית במאגר בגודל של NDIS על פרופיל בין שישה אתרים (כמו מספר האתרים במקרה של ג'ון פאקט)

נספח ה': הגדלה של הגרף בנספח ד'. 




נספח ו': תוצאות מחישובים תאורטיים והתייחסות להרשעתו של ג'ון פאקט.