מחקר: ChatGPT יותר טוב מכלי הרפואה המומחים

צ'אט ג'יפטי/ShutterStock

האינטואיציה שלנו אומרת שהתשובה ברורה. אם יש כלי שנבנה במיוחד לרפואה, עם גישה לספרות רפואית ולקווים מנחים, הוא כנראה יהיה טוב יותר ממודל כללי שיודע גם לכתוב שיר, גם לתכנן טיול בפראג וגם לתת מתכון לעוגת גבינה.

אבל מאמר חדש שפורסם ב-Nature Medicine מצביע דווקא על הכיוון ההפוך. החוקרים השוו בין כלים רפואיים ייעודיים כמו OpenEvidence ו-UpToDate Expert AI לבין מודלים כלליים מובילים - GPT, Gemini ו-Claude. ההשוואה כללה שלושה שלבים: 500 שאלות ידע רפואי בסגנון בחינות ההסמכה האמריקאיות, 500 משימות שבחנו התאמה לשיפוט של רופאים ו-100 שאלות אמיתיות שנשאלו על ידי קלינאים במהלך העבודה השוטפת.

התוצאה הייתה עקבית: המודלים הכלליים ניצחו בכל המדדים.

במבחן MedQA, Gemini הגיע לדיוק של 97.4%, GPT ל-94.2%, בעוד OpenEvidence ו-UpToDate נותרו סביב 89%. גם בהערכות של רופאים על שאלות אמיתיות מהשטח, המודלים הכלליים דורגו גבוה יותר מבחינת נכונות קלינית, שלמות התשובה ובהירותה.

גם הניסיון שלנו בתחום קבלת ההחלטות באונקולוגיה מוביל למסקנה דומה. כאשר ניסינו להגביל את המודלים באמצעות קווים מנחים וספרות רפואית מוגדרת מראש, לא בהכרח קיבלנו תשובות טובות יותר. לעיתים להפך. נדמה שדווקא הגמישות, היכולת לבצע הכללות ולחבר בין מקורות ידע שונים, הן חלק מהיתרון של המודלים החזקים ביותר.

שיחה עם רופא אונליין בטלפון הנייד/ShutterStock

וזה לא ייחודי לרפואה. לאחרונה פורסם כי מערכת כללית של OpenAI סייעה במציאת פתרון לבעיה מתמטית ותיקה ממשפחת בעיות המרחקים של ארדש - לא באמצעות מומחיות צרה במתמטיקה, אלא באמצעות זיהוי קשרים לא צפויים בין רעיונות שונים. נראה שלעיתים היתרון הגדול ביותר אינו עומק צר בתחום אחד, אלא היכולת לחבר בין עולמות ידע שונים.

אולי זה לא באמת צריך להפתיע אותנו. המודלים הכלליים נהנים מהשקעה עצומה, ממחזורי שיפור מהירים, ממאות מיליוני משתמשים ומתהליכי ולידציה בלתי פוסקים. הם נבחנים מדי יום כמעט בכל תחום אפשרי - החל מכתיבת קוד ועד להסברים מדעיים מורכבים. המודלים הטובים ביותר פשוט ממשיכים להשתפר בקצב שקשה לכלי נישה להתחרות בו.

וכך זה גם מנקודת המבט של המשתמשים. אמא שלי, בת 88, אינה שואלת האם מדובר ב-"Medical AI". היא משתמשת באותו מודל גם כדי לקבל מתכון לעוגת גבינה וגם כדי להבין טוב יותר בעיה רפואית. מבחינתה, ובמידה רבה גם מבחינתנו, השאלה אינה כיצד המודל משווק את עצמו - אלא האם הוא נותן תשובה טובה.

אין פירוש הדבר שלכלים ייעודיים אין מקום. ייתכן שבעתיד נראה מודלים המבוססים על נתוני בתי חולים, או מערכות שתוכננו למשימות צרות ומוגדרות היטב. ייתכן גם שהשאלה אינה האם צריך מודלים כלליים או מודלים ייעודיים, אלא כיצד משלבים ביניהם בצורה הנכונה. אבל נכון להיום, עצם ההגדרה של כלי כ-"Medical AI" אינה הופכת אותו למדויק יותר.

המסר המרכזי מהמאמר פשוט: צריך להפסיק להניח שמומחיות מוצהרת עדיפה על ביצועים מוכחים. השאלה החשובה אינה האם המודל הוא "רפואי", אלא האם הוא מדויק יותר, בטוח יותר ומועיל יותר בעולם האמיתי.

במשך שנים ברפואה הנחנו שמומחיות צרה תמיד עדיפה. ייתכן שבעידן הבינה המלאכותית, לפחות בחלק מהמשימות הקוגניטיביות, דווקא הרוחב, הגיוון וההשקעה האדירה במודלים הכלליים הם שמעניקים את היתרון.

פרופ' עידו וולף הוא מנהל המערך האונקולוגי, המרכז הרפואי איכילוב וראש ביה"ס לרפואה, הפקולטה לרפואה ע"ש גריי, אוניברסיטת תל אביב

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

הפתעה בעולם הבינה המלאכותית: ChatGPT עקף את כלי הרפואה המומחים

מחקר שפורסם במגזין Nature הנחשב גילה כי המודלים הכלליים של הבינה המלאכותית כמו קלוד וג'ימיני היו טובים יותר מכלים יעודיים לרפואה

טרם התפרסמו תגובות