קבוצה של מדענים ממכון Arc פיתחה יסוד דגם חדש בינה מלאכותית בשם Evo, המסוגלת לנתח ולפרש רצפים ביולוגיים. בניגוד למודלים של שפה קונבנציונלית כמו Google Gemini או ChatGPT, הפיתוח הוכשר לא על טקסטים, אלא על החומר הגנטי של מיליוני מיקרואורגניזמים.
יוצרי הטכנולוגיה הציבו לעצמם משימה שאפתנית – ליצור מודל בסיסי לעבודה עם נתונים גנומיים. Evo מנתח רצפי DNA, RNA וחלבונים באותו אופן שבו מודלים של שפה מעבדים מילים ומשפטים. במקרה זה, כל זוג בסיסי DNA נתפס על ידי האלגוריתם כ"מילה" נפרדת בטקסט ביולוגי ענק.
מאגר ההדרכה כולל מידע על 2.7 מיליון גנומים פרוקריוטיים ופאג'ים. כמות הנתונים האדירה הזו אפשרה למודל לא רק לחקור רצפים קיימים, אלא גם לחזות כיצד שינויים קטנים בקוד הגנטי יכולים להשפיע על האורגניזם כולו.
היוצרים של Evo מדגישים את מורכבות המשימה – אפילו לגנום המיקרוביאלי הפשוט ביותר יש מורכבות מדהימה. למרות זאת, הטכנולוגיה הצליחה להשיג הבנה עמוקה של הקוד הגנטי, החל מיסודות DNA בסיסיים ועד גנומים שלמים.
הטכנולוגיה פועלת במקביל בכמה רמות. הוא לוקח בחשבון הן את הרב-מודאליות של הדוגמה המרכזית של הביולוגיה המולקולרית (היחסים של DNA, RNA וחלבונים) והן את האופי ההיררכי של האבולוציה – ממולקולות בודדות ועד לאורגניזמים שלמים.
בפועל, Evo מייצרת רצפים ריאליסטיים רחבי הגנום ואף מעצבת מערכות ביולוגיות חדשות. אימות מעבדה של מערכות CRISPR סינתטיות וטרנספוזונים IS200/IS605 שנוצרו באמצעות בינה מלאכותית כבר בוצע.
התקדמות חשובה נוספת היא היכולת של Evo ליצור שילובים של חלבונים ו-RNA המספקים הגנה מפני זיהומים ויראליים. עם זאת, הטכנולוגיה עדיין לא מושלמת – חלק מרצפי ה-DNA שנוצרו התבררו כלא פונקציונליים, כמו צילום מטושטש במקום תמונה ברורה.
הגרסה הנוכחית של Evo היא 1.0 ועדיין לא מוכנה לעבוד עם הגנום האנושי. עם זאת, עצם היישום המוצלח של למידת מכונה בתחום הביולוגיה המולקולרית פותחת אפשרויות עצומות למחקר עתידי.
אלכסנדר אנטיפוב
קישור למקור