המדע והעסקים המודרניים משתמשים יותר ויותר באלגוריתמים מתוחכמים של בינה מלאכותית כדי לחזות אירועים עתידיים – מביצועי תלמידים ועד תוצאות בחירות. עם זאת, מתעוררת בעיה רצינית: האלגוריתמים האלה כל כך מורכבים שאפילו יוצריהם לא תמיד מבינים בדיוק איך המכונה מקבלת החלטות. מערכות אטומות כאלה מומחים מתקשרים "קופסאות שחורות" – אנחנו רואים מה יש בקלט ובפלט, אבל אנחנו לא יודעים מה קורה בפנים.
מתמטיקאים מאוניברסיטת סטנפורד, בראשות עמנואל קנדס, מצאו דרך להעריך את המהימנות של תחזיות AI מבלי להסתכל לתוך הקופסה השחורה. במקום לנסות להבין את מיליארדי הפרמטרים של רשת עצבית, הם פיתחו מנגנון מתמטי שמנתח את תוצאות עבודתו וקובע עד כמה התחזיות יכולות להיות מדויקות בכל מקרה ספציפי.
החוקרים בדקו לראשונה את שיטתם על בעיה שמדאיגה אוניברסיטאות רבות: איך לחזות את הצלחתם של סטודנטים עתידיים? AI מנתחת מגוון שלם של נתונים על הפונה: ציונים בבית הספר, הישגי ספורט, מאפיינים דמוגרפיים. לימודי LLM מודרניים אפילו מאפשרים לך להעריך את איכות מאמרי הקבלה על ידי הפיכת טקסטים לקבוצות של פרמטרים מספריים.
היתרון העיקרי של הגישה החדשה הוא שהמערכת לא רק מייצרת תוצאה אחת צפויה, אלא מציגה את ההתפשטות האפשרית. לדוגמה, עבור מועמד אחד הוא יכול לחזות GPA בטווח רחב של 2.9 עד 3.9, ולאחר הוא יכול לתת תחזית הרבה יותר מדויקת – מ-3.3 עד 3.5. זה עוזר לוועדות הקבלה להעריך טוב יותר את הסיכון בעת קבלת החלטות.
הצלחת ניסוי החיזוי האקדמי נתנה השראה לעיתונאים בוושינגטון פוסט לנקוט בגישה דומה לחיזוי תוצאות הבחירות. הם יצרו מערכת שמשתמשת בנתונים דמוגרפיים ובתוצאות הצבעה ידועות כבר כדי לחזות את התוצאה במחוזות שבהם הקולות עדיין נספרים.
המערכת מתאימה כל הזמן את התחזיות שלה כאשר נתונים חדשים הופכים זמינים. ככל שיותר מתחמים מסיימים לספור, טווח התוצאות האפשריות מצטמצם והדיוק של התחזיות עולה.
הטכנולוגיה הראתה תוצאות מרשימות עוד יותר ברפואה. לחברות התרופות יש מאגרי מידע עצומים של תרכובות כימיות – לחלקן יש מידע על מאות מיליוני חומרים המאוחסנים בארכיון שלהן. בעבר, החיפוש אחר מולקולות מבטיחות ליצירת תרופות חדשות ארך שנים, אך כעת, הודות לבינה מלאכותית, התהליך מואץ מספר פעמים.
אלגוריתמים מנתחים את התכונות של תרכובות ומזהים את אלו שסביר להניח שיסייעו להילחם במחלות ספציפיות. במקביל, מתמטיקאים מסטנפורד מבטיחים שכ-80% מהחומרים שנבחרו על ידי המערכת אכן יתבררו כמבטיחים בבדיקות מעבדה נוספות.
הצוות של קנדס הרחיק לכת עוד יותר ופתר את בעיית המחסור בנתונים לאימון בינה מלאכותית. כאשר אין מספיק דוגמאות אמיתיות, המערכת יוצרת "תאומים דיגיטליים" – דגימות מלאכותיות שמגדילות את גודל המדגם. אלגוריתמים מיוחדים מתקנים עיוותים אפשריים כך שהתוצאות יישארו אמינות.
הצלחת ההתפתחויות הללו גרמה לפרופסור קנדס לחשוב על הצורך לשנות את הגישה להוראת סטטיסטיקה. במקום שינון מסורתי של נוסחאות, הוא מציע לפתח חשיבה אינדוקטיבית אצל תלמידים מגיל צעיר – יכולת להסיק מסקנות סבירות על סמך תצפיות.
כדי להמחיש את חשיבותה של גישה זו, קנדס נותן דוגמה היסטורית מעניינת. בשנות ה-30, הביולוג קורבט חקר פרפרים במלזיה. מדי יום הוא רשם את מספר הפעמים שנתקל בנציגים של מינים שונים. כשחזר לאנגליה, הוא פנה לסטטיסטיקאי המפורסם ר.א. פישר בשאלה: כמה מינים חדשים יוכל לגלות אם יחזור למלזיה לחצי שנה? מדענים מודרניים מתמודדים עם אתגרים דומים, למשל כאשר הם מנסים לחזות כמה סוגים חדשים של תאים סרטניים הם יוכלו למצוא בזמן נתון.
השיטות שפותחו גם עוזרות לפתור את אחת הבעיות המרכזיות של המדע המודרני – הקושי לאמת את תוצאות המחקר. כאשר מדענים עובדים עם כמויות אדירות של נתונים ומשתמשים במודלים מורכבים עם מיליארדי פרמטרים, חשוב במיוחד שיהיו דרכים אמינות לאמת את הממצאים שלהם.
התקדמות הטכנולוגיה משנה גם את מדע הנתונים עצמו. לדברי קנדס, היא כבר חרגה הרבה מעבר לסטטיסטיקה הקלאסית, אם כי החשיבה הסטטיסטית נותרה הבסיס שלה. שינויים אלה נראים בבירור בעבודתו של עמיתו Jure Leskovec במהלך מגיפת COVID-19.
לסקובץ יצר מודל דיגיטלי בקנה מידה גדול שעוקב אחר תנועותיהם של 100 מיליון אמריקאים. התוכנית אפשרה לחזות בצורה מדויקת יותר את התפשטות הנגיף באזורים שונים במדינה, תוך התחשבות במאפייני ההתנהגות של אנשים בכל מקום ספציפי.
החוקרים מדגישים כי השיטות שלהם אינן מחליפות ניסויים מדעיים מסורתיים. הם עוזרים לתכנן נכון את המחקר, לחסוך זמן ומשאבים בדרך לפריצות דרך מדעיות. זה הופך להיות חשוב במיוחד כעת כאשר נפחי הנתונים גדלים באופן אקספוננציאלי.