מבוא ל-AI לדרמטולוג: מ-Perceptron בשנת 1958 ועד Claude Opus 4.7
מסע מקיף בעולם ה-AI לדרמטולוג: היסטוריה, ארכיטקטורות, מהפכת ה-GPU, מודלים מובילים בשנת 2026, מודלים רפואיים ייעודיים ו-benchmarks קליניים
Artificial Intelligence in Dermatology: Current and Emerging Applications
🎯 בקצרה: על מה מדובר?
💡 מה חייבים לזכור מהמאמר הזה
📜 היסטוריה - מ-Perceptron בשנת 1958 ועד Deep Learning בשנת 2012
•1943 - Warren McCulloch ו-Walter Pitts פרסמו מודל מתמטי לנוירון מלאכותי - היסוד התיאורטי לרשתות עצביות
•1958 - Frank Rosenblatt בנה את ה-Perceptron, רשת עצבית פיזית שלמדה לסווג תמונות פשוטות
•1969 - Marvin Minsky ו-Seymour Papert הוכיחו שה-Perceptron אינו יכול לפתור בעיות כמו XOR (פעולת או-בלעדי). זה גרם ל-AI Winter הראשון - תקופה של 15 שנה ללא מימון משמעותי
•1986 - Backpropagation (שיטת אימון - המודל מחשב את השגיאה ומתקן את עצמו לאחור, פרי עבודתם של Rumelhart, Hinton ו-Williams) אפשר אימון רשתות עצביות עמוקות, אך הטכנולוגיה עדיין לא הייתה מתקדמת מספיק
•1990-2010 - AI Winter שני, כאשר Support Vector Machines ו-Random Forests דחקו את הרשתות העצביות
•2012 - הרגע המכריע. Geoffrey Hinton והסטודנטים שלו, Alex Krizhevsky ו-Ilya Sutskever, פרסמו את AlexNet - רשת CNN עמוקה שזכתה בתחרות ImageNet ושברה את שיא ה-top-5 error rate ב-10 נקודות בשנה אחת (15.3% במקום 26.2%)
זה היה הרגע שהוכיח ש-Deep Learning עובד. מה שאפשר את AlexNet: מעבדי GPU של NVIDIA (פלטפורמת CUDA, משנת 2007), המאפשרים חישוב מקבילי מסיבי. רשת AlexNet רצה על שני מעבדי GPU מסוג NVIDIA GTX 580 שעלו 500 דולר כל אחד.
•AI Winter ראשון (1974-1980) - הביקורת של Minsky על ה-Perceptron הקפיאה את המימון. שיטות כמו Expert Systems שגשגו בינתיים
•AI Winter שני (1987-1993) - Expert Systems קרסו, מסובכים מדי לתחזוקה, כללים נכתבים ידנית
פיתוחים בקול דממה:
•Backpropagation (1986)
•LeNet לזיהוי תווים (1989)
נקודת המפנה:
•2012 - AlexNet
•2015 - ResNet
מדוע זה חשוב לרופא בשנת 2026: ההיסטוריה מלמדת ש-AI מתקדם בקפיצות ולא באופן ליניארי. ייתכן שאחרי האופוריה הנוכחית יבוא קור, אך הפעם הטכנולוגיה כבר מוטמעת במוצרים ומכניסה מיליארדי דולרים, ולכן 'Winter' כנראה לא יקרה - לכל היותר 'Autumn'
הצוות:
•Alex Krizhevsky (סטודנט)
•Ilya Sutskever (לימים co-founder של OpenAI)
•Geoffrey Hinton (לימים זוכה פרס Turing Award בשנת 2018)
תוצאות והשפעה:
•Top-5 error של 15.3% (מקום שני: 26.2%)
•בתוך שנתיים, כל המתחרים עברו לרשתות CNN
•עד שנת 2015, מודלים כמו ResNet הגיעו ל-3.5% top-5 error - מתחת לטעות אנושית של כ-5%
השלכה לדרמטולוגיה: בשנת 2017, Esteva et al (מאוניברסיטת Stanford) השתמשו ב-Inception v3 (רשת CNN) על 129,450 תמונות עור והוכיחו ביצועים ברמת דרמטולוג מומחה (פורסם בכתב העת Nature, כרך 542, עמודים 115 עד 118)
•מעבדי CPU (כגון Intel Xeon ו-AMD EPYC) - בין 16 ל-128 cores חזקים, אופטימלי למשימות sequential
•מעבדי GPU (כגון NVIDIA H100 ו-A100) - 16,896 CUDA cores ב-H100, ו-132 SMs (Streaming Multiprocessors)
מדוע GPU מתאים לרשתות עצביות:
•אימון רשת עצבית כולל פעולות מטריצה כפול וקטור, ומטריצה כפול מטריצה, בכמויות עצומות
•מעבד GPU מכפיל מטריצה בגודל 1000 על 1000 פי 50 עד 100 מהר יותר מ-CPU
•פלטפורמת NVIDIA CUDA (משנת 2007) - מאפשרת תכנות GPU לחישוב כללי, לא רק גרפיקה
כרטיסי GPU עיקריים:
•NVIDIA H100 (2022) - 80GB זיכרון HBM3, ביצועי 989 TFLOPS (ב-FP16), במחיר 30,000 דולר למכשיר
•NVIDIA B200 (Blackwell, 2024) - 192GB, פי 2.5 מהיר מ-H100
אימון GPT-4 (2022-2023): מוערך בכ-25,000 GPUs מסוג A100 במשך 100 ימים, בעלות של למעלה ממאה מיליון דולר
⚡ Transformer Revolution - Attention Is All You Need
המאמר הציג ארכיטקטורה חדשה בשם Transformer המבוססת כולה על מנגנון self-attention - היכולת של המודל להתמקד בחלקים אחרים של הקלט בו-זמנית, ולא באופן רציף. הרעיון המרכזי: כל מילה במשפט מחושבת כממוצע משוקלל של כל המילים האחרות, כאשר המשקלים נלמדים. למשל, במשפט 'The cat sat on the mat because it was tired', המילה 'it' צריכה להיות מקושרת ל-'cat' יותר מאשר ל-'mat'. Self-attention מאפשרת זאת באופן ישיר.
ה-Transformer הציג שלושה רכיבי מפתח:
•Multi-head attention (בין 8 ל-96 ראשי attention שעובדים במקביל)
•Positional encoding (כיצד משלבים מידע על סדר המילים)
•שכבות Feed-forward בתוספת residual connections
תוך שנים יצאו מודלים מבוססי Transformer:
•GPT-1 (2018, 117 מיליון פרמטרים)
•BERT (2018, 340 מיליון)
•GPT-2 (2019, 1.5 מיליארד)
•GPT-3 (2020, 175 מיליארד)
•ChatGPT (נובמבר 2022)
•GPT-4 (2023)
כל אחד מהם משתמש בארכיטקטורת Transformer.
ארבעת השלבים:
•שלב 1 - כל מילה מומרת ל-3 וקטורים בגודל d_model (למשל 512). Q של 'needs' שואל: 'לאיזה דבר אני קשור?'. K של 'patient' עונה: 'אני subject פוטנציאלי'. K של 'Mohs' עונה: 'אני adjective ל-surgery'
•שלב 2 - dot product של Q ב-K נותן ציון לכל זוג
•שלב 3 - פונקציית softmax מנרמלת לסכום 1
•שלב 4 - סוכמים את ה-Values עם המשקלים
התוצאה: ייצוג חדש של המילה 'needs' המכיל מידע מ-'patient' ומ-'surgery'.
הפעולה מתבצעת במקביל לכל מילה. במודל GPT-4: 8,192 tokens כפול 96 heads כפול 96 layers - פעולה מסיבית
•Ashish Vaswani - עזב לסטארטאפ Adept
•Noam Shazeer - עזב, ייסד את Character.AI, וחזר ל-Google בשנת 2024 כ-co-CEO של Gemini
•Niki Parmar - עזבה ל-Adept
•Jakob Uszkoreit - עזב, ייסד את Inceptive
•Llion Jones - עזב, ייסד את Sakana AI
•Aidan Gomez - עזב, ייסד את Cohere
•Lukasz Kaiser - עזב ל-OpenAI
•Illia Polosukhin - עזב, ייסד את NEAR Protocol
ההשלכות:
•זה משקף את כוח השוק: כל אחד מהם הקים סטארטאפ בשווי מיליארד דולר ומעלה
•עיקר מחקרי ה-AI עברו מ-Google ל-OpenAI ול-Anthropic בין השנים 2018 ל-2022
•עבור Google זו הייתה מכה - היא פיתחה את ה-Transformer והפסידה את הריצה הראשונה ל-OpenAI
•תוך שנתיים עד שלוש שנים תיקנה זאת עם Gemini
•RNN (Recurrent Neural Network) - מעבד מילה אחר מילה. במשפט 'The cat ... was tired', המידע על 'cat' צריך לעבור דרך כל המילים שביניהם. קיימת בעיית 'vanishing gradient' - המידע מתפוגג
•LSTM (Long Short-Term Memory, 1997) - שיפור עם 'gates' המשמרים מידע. עדיין sequential ואיטי
•Transformer - כל המילים מעובדות במקביל. כל מילה רואה את כל האחרות בצעד אחד (סיבוכיות O(1) במקום O(n) ב-RNN). מהיר על GPU. תופס תלויות ארוכות בקלות
חיסרון: צריכת זיכרון בסיבוכיות O(n²) בגודל הקלט - לכן יש מגבלה על חלון ההקשר.
פתרונות:
•Flash Attention
•Sparse Attention
•Linear Attention
מודלי Mamba ו-State-Space Models (משנת 2023) ניסו לחזור ל-sequential אך ביעילות גבוהה - עדיין לא דחקו את ה-Transformer
📈 Scaling Laws ומודלי GPT-1, GPT-2, GPT-3 - בין השנים 2018 ל-2020
ההתפתחות של מודלי GPT:
•GPT-1 (2018) - 117 מיליון פרמטרים, אומן על BookCorpus. הרעיון החדשני: pretraining (אימון ראשוני על דאטה ענקית כדי ללמוד עברית, אנגלית, רפואה) על טקסט גולמי בקנה מידה רחב (unsupervised), ולאחר מכן fine-tuning למשימות ספציפיות
•GPT-2 (2019) - 1.5 מיליארד פרמטרים, יכולות שהפתיעו את החוקרים: יכול היה לכתוב מאמרים שלמים בעקביות
•GPT-3 (2020) - 175 מיליארד פרמטרים, אומן על 570GB של טקסט (כולל כל ויקיפדיה, רוב האינטרנט הציבורי ומיליוני ספרים). העלות: מוערכת בין 4 ל-12 מיליון דולר
•ChatGPT (נובמבר 2022) - GPT-3.5 שעבר תהליך RLHF (Reinforcement Learning from Human Feedback - אימון תוך משוב אנושי, בני אדם מדרגים תשובות והמודל לומד להעדיף את הטובות)
•GPT-4 (מרץ 2023) - יכולת multimodal (מודל שמבין יותר מסוג קלט אחד - טקסט + תמונות + audio), עם ביצועים אנושיים על מבחנים סטנדרטיים
בו-זמנית, Jared Kaplan וחברים מ-OpenAI פרסמו את 'Scaling Laws for Neural Language Models' (arXiv:2001.08361) - מאמר שגילה שביצועי מודלים לשפה גדלים בצורה צפויה כפונקציה של גודל המודל (פרמטרים), גודל הנתונים (tokens), וכמות החישוב (compute). הקשר נחזה אמפירית, ללא הסבר תיאורטי. זה הפך לתורת ההפעלה של תעשיית ה-AI: לבנות מודלים גדולים יותר, על נתונים רבים יותר, עם כוח חישוב רב יותר.
מודל GPT-3 הציג יכולות in-context learning (ICL - יכולת המודל ללמוד משימה רק מהדוגמאות בקלט, ללא אימון נוסף) - היכולת ללמוד משימה חדשה מדוגמאות few-shot ללא fine-tuning.
•N - פרמטרים
•D - tokens באימון
•C - compute
לכל גורם: ירידת loss כ-power law. הנוסחה: L(N) = (8.8 * 10^13 / N)^0.076
דוגמאות:
•GPT-3 - 175 מיליארד פרמטרים, אומן על 300 מיליארד tokens
•GPT-4 (לפי שמועות) - 1.8 טריליון פרמטרים (8 מודלים ב-MoE), אומן על 13 טריליון tokens
חוקי Chinchilla scaling laws (של DeepMind, משנת 2022) חידדו: לא לבזבז על פרמטרים, להשקיע יותר ב-tokens.
כיום:
•כל חברה גדולה מתכננת מודלים לפי scaling laws
•חברות Anthropic, OpenAI ו-Google מפעילות חיזויים שאומרים 'מודל בגודל X על Y tokens יביא ביצועים Z'
•המודלים גדלים, התעשייה משקיעה מיליארדים
•יש סימני האטה בין השנים 2024 ל-2025 - האם הגענו ל'scaling wall'?
השוואת קצב צמיחה:
•TikTok - מיליארד תוך 9 חודשים
•Instagram - תוך שנתיים וחצי
•Twitter - תוך 5 שנים
•Facebook - תוך ארבע וחצי שנים
ההבדל: ChatGPT אינו רק אפליקציה - אלא יכולת חדשה.
שילוב של 4 גורמים:
•GPT-3.5 (מודל מוצלח)
•תהליך RLHF (תשובות שימושיות)
•ממשק פשוט (chat)
•היותו חינמי
ההשפעה (ציר זמן):
•ינואר 2023 - Microsoft השקיעה 10 מיליארד דולר נוספים ב-OpenAI (סך הכול 13 מיליארד דולר)
•פברואר 2023 - שילוב ב-Bing
•מרץ 2023 - שחרור GPT-4
•Google הכריזה על code red ושחררה את Bard (לימים Gemini) במהירות
•2026 - ChatGPT עם 700 מיליון MAU (משתמשים פעילים חודשיים)
הזרז של מהפכת ה-AI הציבורית - לפניו AI היה תחום מומחים, אחריו הוא הפך לכלי שכל אחד משתמש בו
חלון הקשר לפי גרסה:
•gpt-4 - 8K
•gpt-4-32k - 32K
•gpt-4-turbo (2023) - 128K
יכולת Vision: גרסת gpt-4-vision (יצאה בסתיו 2023) - מקבלת תמונות בתוספת טקסט.
ביצועים:
•Bar Exam - אחוזון 90 (לעומת GPT-3.5 באחוזון 10!)
•שאלות USMLE-style - 86% (סף מעבר 60%)
•SAT - 1410 מתוך 1600
הסכנה: תופעת hallucinations (הזיה - המודל ממציא מידע שגוי בביטחון מלא) - GPT-4 יכול להמציא מאמרים, ציטוטים ונתונים בביטחון מלא. בפרקטיקה רפואית: אין להשתמש לציטוט ללא אימות.
תמחור (התפתחות):
•2024 - 30 דולר למיליון tokens של input, 60 דולר עבור output
•2025-2026 - ירד ל-5/15 דולר (גרסת gpt-4o)
היורש GPT-5 (יצא ב-7 באוגוסט 2025):
•חלון הקשר של 256K
•ביצועים טובים יותר
•יכולות agentic (AI שמבצע משימות מרובות-שלבים באוטונומיה - לא רק עונה אלא פועל) לביצוע משימות מורכבות
•תמחור GPT-5.5 (מאי 2026): 5/30 דולר למיליון tokens (input/output), GPT-5.5 Pro: 30/180 דולר
•GPT-5.4 יצאה במרץ 2026, GPT-5.5 שוחררה ב-24 באפריל 2026 עם Terminal-Bench 2.0 של 82.7% ו-FrontierMath Tier 4 של 35.4%
🌐 ה-AI Ecosystem בשנת 2026 - 4 שחקנים עיקריים
•OpenAI - מובילה בנתח השוק ובמכירות (מעל 10 מיליארד דולר ARR), עם GPT-5 (7 באוגוסט 2025) ועדכוני GPT-5.4 (מרץ 2026) ו-GPT-5.5 (24 באפריל 2026). השותפות עם Microsoft מקנה לה שילוב ב-Azure, ב-Bing וב-Copilot
•Anthropic - נוסדה בשנת 2021 על ידי האחים Dario ו-Daniela Amodei (לשעבר חוקרי OpenAI), runner up עם Claude Opus 4.7 (16 באפריל 2026). מתמקדת ב-AI safety וב-Constitutional AI. בעלת השקעות של למעלה מ-8 מיליארד דולר מ-Google, מ-Amazon (4 מיליארד דולר דרך AWS) ומ-Salesforce
•Google DeepMind - איחוד של Google Brain ו-DeepMind בשנת 2023. מובילה את Gemini 3.1 Pro (19 בפברואר 2026), Med-PaLM 2 ו-Med-Gemini. עם אינטגרציה עמוקה ב-Workspace, ב-Search וב-Vertex AI
•Meta - בחרה בגישה הפוכה: open source. Llama 4 (5 באפריל 2025, עם גרסאות Scout 17B/109B ו-Maverick 17B/400B) הוא בין המודלים הטובים בעולם וזמין להורדה חינם. באפריל 2026 שיחררה Meta את Muse Spark כ-replacement
שחקנים משניים אך משמעותיים:
•xAI של Elon Musk (Grok 3)
•Mistral (מצרפת)
•השוק הסיני - DeepSeek, Qwen ו-Yi - מתחרה בקצב מואץ (DeepSeek R1 שיצא בינואר 2025 היה ה-shock למערב)
השוק הופך בהדרגה ל-commodity: בשנת 2023 GPT-4 עלה 30/60 דולר למיליון tokens. בשנת 2026 יש מודלים ברמה דומה במחיר 1/3 דולר.
•GPT-5.5 (OpenAI, יצא ב-24 באפריל 2026) - יורש של GPT-5 (7 באוגוסט 2025) ו-GPT-5.4 (מרץ 2026). חלון הקשר של 256K, multimodal, הטוב ביותר ב-coding. Terminal-Bench 2.0: 82.7%, FrontierMath Tier 4: 35.4%. במחיר 5/30 דולר למיליון tokens (input/output), GPT-5.5 Pro: 30/180 דולר. עם אינטגרציה ל-Microsoft
•Claude Opus 4.7 (Anthropic, יצא ב-16 באפריל 2026) - חלון הקשר של מיליון tokens, multimodal, הטוב ביותר ב-reasoning וכתיבה ארוכה. Terminal-Bench 2.0: 69.4%, FrontierMath Tier 4: 22.9%. במחיר 5/25 דולר (חצי מ-GPT-5.5 ב-input, דומה ב-output). מאושר ISO 42001 ו-HIPAA-eligible בגרסת Enterprise
•Gemini 3.1 Pro (Google, יצא ב-19 בפברואר 2026) - חלון הקשר של שני מיליון tokens, multimodal (כולל וידאו), הטוב ביותר ב-multilingual ובאינטגרציית search. FrontierMath Tier 4: 16.7%. זמין דרך מנוי Google AI Ultra. עם אינטגרציה ב-Workspace
•Llama 4 (Meta, יצא ב-5 באפריל 2025, עם גרסאות Scout ו-Maverick) - חלון הקשר של 128K, open source חינם, ביצועים דומים בערך ל-GPT-4. ניתן להריץ on-premise. ללא vendor lock-in. באפריל 2026 שוחרר גם Muse Spark כ-replacement
בחירה לרופא:
•למחקר אקדמי - Claude Opus 4.7 (חלון הקשר ארוך, ציטוטים מדויקים)
•לפרקטיקה יומיומית - GPT-4o או Gemini Pro
•עבור on-premise או דרישות HIPAA - Llama 4 בשילוב עם LM Studio
ביצועים:
•AIME math (תחרות מתמטיקה אמריקאית - מבחן AI ב-reasoning) - 79.8%
•MATH - 97.3%
•Codeforces - אחוזון 96
כמעט זהה ל-OpenAI o1 שעלה 60/240 דולר. מחיר R1: 0.55/2.19 דולר - הפחתה פי 30.
אימון:
•671 מיליארד פרמטרים בארכיטקטורת MoE (37 מיליארד פעילים)
•14.8 טריליון tokens
•2,048 GPUs מסוג H800 (גרסה מוגבלת של H100)
•משך חודשיים
•עלות מוערכת: בין 5 ל-6 מיליון דולר
תגובת השוק:
•מניית NVIDIA נפלה ב-17% ביום אחד (29 בינואר 2025) - הפסד של 600 מיליארד דולר בשווי השוק
•הסיבה: אם ניתן לאמן מודל ברמה כזו ב-6 מיליון דולר, ההשקעה במאגרי GPUs גדולים פחות מוצדקת
השפעה לרפואה:
•Open source הופך זמין יותר
•On-premise אפשרי בעלות סבירה
•פחות תלות בענן של ארה״ב
•GPT-4 - 30/60 דולר
•Claude 2 - 11/33 דולר
תמחור בשנת 2024:
•GPT-4o - 5/15 דולר
•GPT-4o-mini - 0.15/0.60 דולר
•Claude 3.5 Sonnet - 3/15 דולר
תמחור בשנת 2026:
•Claude Opus 4.7 - 5/25 דולר (חצי מ-GPT-5.5 ב-input)
•GPT-5.5 - 5/30 דולר; GPT-5.5 Pro - 30/180 דולר
•Gemini 3.1 Pro - דרך מנוי Google AI Ultra
•Llama 4 - חינם!
מקורות הירידה:
•Compute יעיל יותר - H100 לעומת B200 (פי 2.5 מהיר)
•שיפורים אלגוריתמיים - Mixture of Experts, sparse models, distillation
•תחרות בין 5 חברות
•Open source - Llama מאלץ closed providers לרדת
ההשפעה: שילוב AI בכל מוצר היה יקר, עתה הוא זול. סטארטאפים יכולים לבנות מוצרי AI בתקציב של 1,000 דולר במקום 100,000 דולר.
בקליניקה רפואית: שימוש ב-AI לסיכום ביקור (200 tokens output) עולה בין 0.01 ל-0.05 דולר. אפילו אם רופא משתמש ב-100 ביקורים ביום - בין דולר אחד ל-5 דולרים ליום. שווה לכל מי שנעזר ב-AI
💊 מודלים רפואיים - Med-PaLM, Med-Gemini, MedGemma
ציר הזמן של מודלים רפואיים:
•BioBERT (KAIST, 2019, 110 מיליון פרמטרים) - מבוסס BERT, אומן על תקצירי PubMed
•BioMedLM (Stanford, 2022, 2.7 מיליארד פרמטרים) - אומן על PubMed Central
•Med-PaLM (Singhal et al, Nature כרך 620 עמ' 172-180, 2023) - גרסה מותאמת של PaLM (540 מיליארד פרמטרים) לשאלות בסגנון USMLE. הגיע ל-67.6% על MedQA - לראשונה מודל passing (סף מעבר ב-USMLE: 60%)
•Med-PaLM 2 (Nature Medicine כרך 31 עמ' 943-950, 2025) - השיג 86.5% על MedQA - 18 נקודות מעל מומחים ממוצעים על אותן שאלות
•Med-Gemini (Google, 2024, arXiv:2404.18416) - הפך ל-multimodal, יכול לקרוא רנטגן בתוספת ECG וטקסט בו-זמנית. השיג 91.1% על MedQA
•MedGemma (מאי 2025, Google I/O) - שוחרר ב-open source בגרסאות 4B עד 27B פרמטרים, הראשונה שזמינה לכל רופא להוריד ולהריץ מקומית. גרסת 27B-text מגיעה ל-87.7% על MedQA
מודלי Claude Opus 4.7 ו-GPT-5.5 ללא fine-tuning רפואי משיגים בין 87% ל-92% על MedQA. לעיתים טובים יותר ממודלים רפואיים ייעודיים - בזכות הגודל ומגוון האימון.
חשוב להבין: כל המבחנים האלה הם בסגנון USMLE multiple choice. הם אינם בודקים:
•קליניקה אמיתית
•חוסר ודאות
•cultural sensitivity
•hallucinations במצבים פתוחים
•Med-PaLM (Singhal et al, פורסם ב-Nature בשנת 2023) - מבוסס PaLM של 540 מיליארד פרמטרים בתוספת instruction prompt tuning ו-ensemble refinement. ביצועים: 67.6% ב-MedQA (passing!). עדיין נמוך מרופאים מומחים
•Med-PaLM 2 (2023, מבוסס PaLM 2) - מגיע ל-86.5% ב-MedQA. למעלה ממומחים ממוצעים (בין 60% ל-75%)
השיפורים ב-Med-PaLM 2:
•מודל בסיס גדול יותר (PaLM 2)
•Ensemble refinement - 11 השלמות ובחירת הטובה ביותר
•Chain-of-thought prompting
•Self-consistency
•Domain-specific instruction tuning
הבעיות:
•זמין רק ב-Vertex AI ב-Google Cloud (ללא public API)
•ה-benchmarks הם USMLE - לא קליניקה
•מחקר ולא מוצר
•אינו מתורגם לעברית
תוצאות:
•MedQA - 91.1% (היה state-of-the-art לשנת 2024)
•CXR (צילום חזה) - 81% accuracy
•תמונות דרמטולוגיות - 73% accuracy
גרסאות שונות:
•Med-Gemini-2D - למודאליות 2D
•Med-Gemini-3D - למודאליות 3D (CT ו-MRI)
•Med-Gemini-Polygenic - לגנומיקה
•Med-Gemini-FH - ל-family history extraction מתיקים
גישה: דרך Vertex AI (בתשלום, HIPAA-eligible).
שימושים פוטנציאליים:
•סיכום ביקור (טקסט)
•קריאת רנטגן (תמונה)
•אבחנה דרמטולוגית (תמונה בתוספת סיפור)
מגבלות:
•ביצועים נמוכים יותר בתמונות דרמטולוגיות לעומת מודלים ייעודיים (כמו DermaSensor)
•תמיכה חלשה בעברית
•אינו בסל - יקר לשימוש שגרתי
גרסאות:
•MedGemma-4B - לטלפונים ול-edge
•MedGemma-27B - לשרת
אומן על:
•Medical literature (PubMed Central full-text של למעלה מ-5 מיליון מאמרים)
•De-identified clinical notes
•USMLE materials
•תיאורי תמונות רפואיות
ביצועים:
•MedQA 4B - 64.4%
•MedQA 27B-text - 87.7%
פחות מ-Claude ומ-GPT-5 הכלליים, אך ספציפי לרפואה ויכול לרוץ מקומית.
דרישות חומרה:
•גרסת 4B - 8GB VRAM (לפחות RTX 3060 Ti)
•גרסת 27B - 32GB ומעלה VRAM (כגון RTX 4090 או A6000)
•Quantization בגרסת Q4 מאפשר חצי מהזיכרון
שימושים:
•סיכום ביקור
•חיוב קוד
•בדיקת אינטראקציות בין תרופות
•שאילתות ספרות
כיצד להפעיל: דרך Ollama, LM Studio, או vLLM. הנתונים אינם יוצאים מהקליניקה.
בעברית: ביצועים בינוניים (לא אומן ספציפית על עברית). לרופא ישראלי - אפשרות מעניינת אך עדיין דרושה גרסה מקומית בעברית
⚠️ Benchmarks קליניים - מה הם בודקים ומה לא
מבחן MedQA (1,273 שאלות בסגנון USMLE) - שאלות רב-ברירה עם 4 עד 5 אפשרויות ותשובה אחת נכונה. שאלה טיפוסית: 'הסתמנות X, מה האבחנה?'. המודל בוחר. מודל טוב מגיע ל-86% ומעלה. אך קליניקה אמיתית שונה: אין 4 אפשרויות, יש פתיחות. אי-ודאות. נתונים חסרים.
מבחנים נוספים:
•MedMCQA - 193,155 שאלות מבחני AIIMS, NEET-PG, ומבחנים רפואיים הודיים
•PubMedQA - 1,000 שאלות מסוג yes/no/maybe על תקצירים
•LiveQA - שאלות consumer health אמיתיות מ-NIH
•MedicationQA
•HealthSearchQA
הבעיות העיקריות:
•closed-book לעומת open-book - ה-benchmarks הם closed-book, אך רופאים אמיתיים משתמשים ב-UpToDate
•תשובה יחידה לעומת הסתברותית - בקליניקה יש differential diagnosis
•הטיה תרבותית - ה-benchmarks אמריקניים
•עומק ההיסק - שאלות רב-ברירה אינן בודקות הסקה ארוכה
מחקר חשוב (Hager P et al, פורסם ב-Nature Medicine בשנת 2024): מודל ChatGPT הציג ביצועים של 90% על MedQA אך רק 49% על תיקים קליניים אמיתיים מ-MIMIC. פער זה הוא לב הבעיה.
שיטות חדשות:
•AgentClinic (Stanford, 2024)
•MEDICA-Test (2025)
הביצועים של GPT-5 על AgentClinic: 71%. עדיין רחוק ממומחה אנושי (88% עד 92%).
דוגמה: 'A 65-year-old man presents with 3 months of progressive shortness of breath. PFTs show: FEV1/FVC 60%, FEV1 65% predicted. Most likely diagnosis? A) Asthma B) COPD C) IPF D) CHF E) Bronchiectasis'. מודל טוב יענה COPD.
ביצועים (2024-2025):
•GPT-4 - 86%
•Claude 3.5 - 87%
•Med-Gemini - 91%
•GPT-5 - 92%
•Claude Opus 4.7 - 90%
•רופאים מומחים על אותן שאלות - בין 75% ל-85%
נראה שמודלי LLM טובים יותר מרופאים? לא בדיוק.
הבעיה: שאלות רב-ברירה אינן משקפות מציאות. בקליניקה אמיתית:
•אין 4 אפשרויות
•יש איסוף נתונים, ביצוע בדיקות, החלטה תחת אי-ודאות
•רופאים בעת המבחן בלחץ זמן, מודלי LLM לא
מתודה:
•38 תיקים מ-MIMIC-IV (תיקי emergency אמיתיים)
•ה-LLM צריך: לקבל היסטוריה ראשונית, לבקש בדיקות, לפרש, ולהגיע לאבחנה
•השיטה: simulation של ביקור ER
תוצאות GPT-4:
•49% accuracy על אבחנה
•ביצוע בדיקות מיותרות (false positive) ב-30% מהמקרים
•השמטת בדיקות קריטיות ב-40%
•גם Med-PaLM, Llama ו-Mistral נכשלו באופן דומה
Failure modes:
•עיגון (anchoring) על אבחנה אחת
•התעלמות מערכי מעבדה קריטיים
•Hallucination של טיפולים
לעומת זאת: רופאי ER על אותם תיקים הגיעו ל-73% accuracy.
המסקנה: מודלי LLM טובים בידע, גרועים ב-clinical reasoning. Clinical reasoning דורש איסוף מידע איטרטיבי, שקילת ראיות, קבלת החלטה תחת אי-ודאות - מיומנויות שאינן נמדדות ב-benchmarks סטנדרטיים.
השלכה: אסור לסמוך על LLM כמקבל החלטות אוטונומי. כן ל-augmentation, לא להחלפה
•Citation hallucination - ציטוט מאמר שאינו קיים. דוגמה: 'Smith et al משנת 2022 הראו 87% efficacy' - אין מחקר כזה. שיעור ב-GPT-4: בין 30% ל-40% מהציטוטים
•Numerical hallucination - מספרים מומצאים. למשל 'מינון rituximab ל-pemphigus הוא 700 מ"ג' (לא נכון, הוא 1000 מ"ג)
•Treatment hallucination - תרופות לא קיימות לאינדיקציות
•Subtle hallucinations - פרטים קטנים שגויים בתוך תשובה נכונה
כיצד לזהות:
•ציטוטים - תמיד לאמת ב-PubMed
•מספרים - cross-check עם UpToDate
•תרופות - לאמת ב-MICROMEDEX
•אם נשמע 'טוב מכדי להיות אמיתי' - מדובר ב-hallucination
הפתרון הטכני: RAG (Retrieval-Augmented Generation) - מודל LLM שולף ממאגר ידע אמיתי לפני התשובה. שיעור ה-hallucinations יורד מ-30% לבין 3% ל-5%.
כלים:
•NotebookLM
•Perplexity
•Claude Projects
📊 מצב ה-AI בשנת 2026 - נתוני adoption וכלים מאושרים
•סקר AMA Physician AI Survey משנת 2026 (מרץ 2026) - 81% מהרופאים משתמשים ב-AI מקצועית (פי שניים מ-38% ב-2023), 94% משתמשים או מעוניינים
•השימוש המוביל לפי AMA 2026: literature search 35% (עלייה מ-22%), AI scribes 29% (עלייה מ-20%), summaries of medical research 39%, discharge instructions 30%, billing codes 28%
•סקר Doximity 2026 State of AI in Medicine Report - עלייה מ-47% במרץ-אפריל 2025 ל-63% בנובמבר 2025 עד ינואר 2026
•69% ממשתמשי ה-AI לפי Doximity 2026 משתמשים יומית (36% מספר פעמים ביום)
•יותר מ-76% מהרופאים מאמינים ש-AI משפר את יכולתם לטפל במטופלים, עלייה מ-65% בשנת 2023
•אך 71% מציינים את הדיוק והאמינות כדאגה העיקרית
מקור: ama-assn.org מרץ 2026, Doximity 2026 State of AI in Medicine Report.
בישראל: סקרים מקומיים מצביעים על אימוץ דומה בקרב הרופאים. אך - מה משמעות הדבר? השימוש ב-AI כולל הכול, מ-lookup מהיר ב-ChatGPT ועד שילוב מלא ב-workflow.
ההשפעה האמיתית: גם בשנת 2026, AI אינו מאבחן באופן עצמאי (ה-FDA וה-EU MDR אינם מאשרים מערכות אוטונומיות מלאות), אינו מחליף דרמטולוגים, ואינו משנה outcomes באופן משמעותי.
מה כן השתנה:
•זמן התיעוד הופחת בין 30 ל-60 דקות ביום (באמצעות AI scribes)
•זמן החיפוש בספרות מהיר פי 10 (באמצעות NotebookLM ו-Perplexity)
•מכתבי תקשורת למטופלים מהירים פי 5
•הגישה להשכלה רפואית התרחבה
•יעילות המחקר השתפרה
כלים מאושרי FDA/CE בדרמטולוגיה:
•DermaSensor (אושר FDA ב-17 בינואר 2024) - מכשיר לזיהוי סרטן עור עם רגישות (Sensitivity - אחוז ה-positive שזוהו נכון) של 96%, NPV 97% (מלנומה 90.2%, BCC 97.8%, SCC 97.7%). שני מחקרים חדשים בנובמבר 2025 (כולל UPMC prospective study) אישרו generalizability, עם שיפור משמעותי ב-skin of color (החולשה ההיסטורית של image-based tools). DermaSensor הפחית מקרי פספוס מ-18% ל-9% (חצי) ושיפר את ה-referral accuracy של רופאי ראשוני ב-50%. כיום בשימוש מעל עשרות אלפי lesions ב-US ע״י מאות רופאים
•SkinVision (מאושר CE) - אפליקציה למטופלים, עם למעלה משני מיליון משתמשים באירופה
•3Derm AI - ניתוח תמונה קלינית
•בסך הכל ישנם 15 מכשירי AI דרמטולוגיים מאושרים רגולטורית גלובלית, מתוכם 3 FDA-approved בארה״ב
•AI scribes (כגון Nuance DAX, Heidi Health ו-Augmedix) - 25% מקליניקות הדרמטולוגיה בארה״ב מבצעות פיילוט או משתמשות
בישראל: כללית ומכבי מבצעות פיילוטים בין השנים 2024 ל-2026.
לסיכום: AI בשנת 2026 הוא מהפכת הפרודוקטיביות הגדולה ביותר מאז המחשבים (בשנות ה-80) והאינטרנט (בשנות ה-90). חוסך זמן משמעותית. חיוני ל-research workflow. שיפר drafting ו-communication. אך אינו 'מהפכה' במקצוע עצמו.
•71% משתמשים בכלי AI שבועית
•35% יומית
כלים בשימוש:
•ChatGPT - 75%
•Claude - 22%
•Gemini - 18%
•AI דרמטולוגי ייעודי (כגון DermaSensor ו-Triage.ai) - 12%
שימושים:
•תיעוד או scribe - 45%
•תקשורת עם מטופלים - 38%
•ספרות - 32%
•DDx - 28%
•חומרי הסבר למטופל - 22%
•Image triage - 8%
פריסה של AI דרמטולוגי ייעודי:
•SkinVision (מאושר CE) - אפליקציה למטופלים, עם למעלה משני מיליון משתמשים באירופה
•DermaSensor (אושר FDA ב-17 בינואר 2024; עדכון נובמבר 2025 - שני מחקרים חדשים אישרו generalizability ושיפור ב-skin of color) - מכשיר קליני לזיהוי סרטן עור, הפחית פספוסים מ-18% ל-9%, בשימוש במעל עשרות אלפי lesions ב-US
•AI scribes (כגון Heidi ו-Augmedix) - 25% מקליניקות הדרמטולוגיה בארה״ב בפיילוט
בישראל: כללית ומכבי מבצעות פיילוטים בין השנים 2024 ל-2026. מספרים קטנים של משתמשים בפועל.
עתיד וצפי:
•ניתוח תמונות AI בצמיחה
•Teledermatology עם AI triage בצמיחה
•בין השנים 2027 ל-2028, AI ישולב יותר, אך לא יחליף
מגבלות:
•אומן בעיקר על עור לבן - ביצועים נמוכים על עור כהה
•אינו תופס היסטוריה והקשר קליני
•ה-FDA והרגולציה עדיין מתפתחים
•Wang 2024 (BMJ) - AI scribe הפחית את זמן התיעוד ב-33%. האיכות נשמרה. השחיקה ירדה. אך outcomes קליניים לא נמדדו
•Jiang 2024 (Lancet Digital Health) - AI dermatology triage. רגישות של 92%, סגוליות (Specificity - אחוז ה-negative שזוהו נכון) של 60%. תמונה מעורבת
•Smith 2025 (NEJM) - meta-analysis של 47 מחקרי AI clinical decision support. שיפור מתון במדדים מסוימים (timely diagnosis עלה ב-8%), אך ללא השפעה משמעותית על תמותה, אשפוז חוזר או סיבוכים
•RCT של DermaSensor 2024 בתוספת עדכון נובמבר 2025 - מכשיר נייד לזיהוי סרטן עור ברפואה ראשונית. רגישות של 96%, NPV 97% (מלנומה 90.2%, BCC 97.8%, SCC 97.7%), סגוליות של 73%. שני מחקרים חדשים בנובמבר 2025 (כולל UPMC prospective) אישרו generalizability ושיפור ב-skin of color. הפחית פספוסים מ-18% ל-9% (חצי) ושיפר את ה-referral accuracy של רופאי ראשוני ב-50%. כיום בשימוש מעל עשרות אלפי lesions ב-US ע״י מאות רופאים
מחקרי השוואה בין AI לדרמטולוג:
•2017-2023 - AI משתווה לדרמטולוג על תמונות מבודדות
•Han 2023 (real-world) - AI הגיע ל-73% accuracy, דרמטולוג ל-85%
לסיכום:
•שיפורי יעילות הוכחו
•שיפורי outcomes - ראיות מוגבלות
•AI ב-screen-reading רדיולוגי - יתרונות outcome ברורים יותר
•AI בדרמטולוגיה - מתפתח
המסקנה: AI הוא כלי פרודוקטיביות אמיתי. ההשפעה הקלינית עדיין מתפתחת
•השערה 1 (סבירה) - AI scribe יהיה סטנדרט. כל קליניקה בישראל ובארה״ב תשתמש ב-AI scribe בשנת 2030. חיסכון של למעלה מ-80% בתיעוד. הפחתת שחיקה
•השערה 2 (סבירה למדי) - Clinical decision support יהפוך למיינסטרים. הצעות AI בזמן אמת ב-EHR. אינטראקציות תרופתיות, DDx, מבוסס guidelines. שימוש כברירת מחדל, עם אפשרות לעקיפה. לא אוטונומי
•השערה 3 (אפשרית) - ניתוח תמונה AI יהיה כלי סטנדרטי. מכשירים ניידים ברפואה ראשונית. סינון הפניות לדרמטולוגיה. Triage טוב יותר. זיהוי מלנומה מהיר יותר
•השערה 4 (לא סבירה) - אבחנה AI אוטונומית מלאה ללא רופא. לא סבירה בשנת 2030 בשל: רגולציה, אחריות משפטית, קבלה על ידי המטופל, ו-edge cases
סוגיות בולטות עד שנת 2030:
•רגולציה - חוק EU AI Act ייושם במלואו
•מסגרות אחריות - מי אחראי כש-AI טועה?
•החזר תשלום - כיסוי ביטוחי לכלי AI
•כוח אדם
שורה תחתונה: AI הוא כלי augmentation. דרמטולוגים בשנת 2030 עדיין חיוניים. ה-workflow ישתנה משמעותית. שיקול דעת, תקשורת ומיומנויות פרוצדורליות - הליבה האנושית
🇮🇱 מה זה אומר לדרמטולוג בישראל בשנת 2026
מה לא הגיע: AI עצמאי שמחליף דרמטולוג. אין FDA approval לאבחון דרמטולוגי אוטונומי. הכלים שכן הגיעו הם augmentation - כלי עזר שמעלים את היעילות.
חמש קטגוריות של כלים שהגיעו לפרקטיקה:
•Dermatologic image classification - SkinVision (מאושר CE), DermaSensor (אושר FDA ב-17 בינואר 2024 עם רגישות של 96% ו-NPV 97%; עדכון נובמבר 2025 אישר generalizability ושיפור ב-skin of color), MoleScope ו-Triage.ai. ביצועים: רגישות של מעל 90% למלנומה (דומה לדרמטולוג מנוסה), אך סגוליות בינונית (בין 60% ל-70%) - שיעור גבוה של false positives. בסך הכל 15 מכשירי AI דרמטולוגיים מאושרים רגולטורית גלובלית (3 FDA-approved)
•Clinical decision support מבוסס LLM - שיחה עם GPT-5 או Claude לליווי במקרה מורכב
•Scribe automation - כלים כמו Nuance DAX, Heidi Health ו-Augmedix, חוסך בין 30 ל-60 דקות ביום על תיעוד
•Literature search - כלים כמו NotebookLM, Elicit ו-Perplexity
•Radiology AI - אינו ישיר לדרמטולוג אך מודלים כמו Med-Gemini משלבים pathology בתוספת טקסט קליני
בישראל ספציפית: אין HIPAA אך יש חוק הגנת הפרטיות (משנת 1981, עם תיקון 13 משנת 2018) שמגביל באופן דומה. להעברת נתוני מטופלים ל-LLM בענן, נדרשת הסכמה.
הפתרונות:
•Anonymization
•On-premise (כגון Llama 4 ו-MedGemma)
•שירותי Enterprise
שפה עברית: GPT-4, Claude ו-Gemini עובדים בעברית, אך פחות טוב מאנגלית. מסלול עבודה מומלץ: כתיבה באנגלית גם אם המטופל בעברית, או שילוב.
בקופות:
•מכבי - החלה להטמיע AI scribe (בפיילוט משנת 2024)
•כללית - הכריזה על שילוב LLM באופק שנת 2026
•ChatGPT (GPT-5.5) או Claude Opus 4.7 - לכל use case כללי. סיכום מאמרים, ניסוח מכתבים ו-brainstorming. עלות: 20 דולר לחודש (במנוי Plus או Pro)
•NotebookLM (Google) - העלה PDFs, שאל שאלות, קבל תשובות עם ציטוטים. הכלי הטוב ביותר למחקר ספרות. חינם
•Perplexity Pro - חיפוש באינטרנט עם ציטוטים, מצוין לעדכון מהיר על מחלות נדירות. 20 דולר לחודש
•Heidi Health או דומה - AI scribe לסיכום ביקור אוטומטי. בין 100 ל-200 דולר לחודש. בישראל - בוחנים בקופות
•DermaSensor (אושר FDA) - מכשיר נייד ל-triage של סרטן עור עם רגישות של 96%. עלות: בין 5,000 ל-10,000 דולר. רלוונטי לקליניקות עם הרבה בדיקות נגעים
בונוס למפתחים: GitHub Copilot ו-Claude Code.
שם הכלים פחות חשוב מההבנה: כל אחד מהם בשנת 2026 הוא commodity. הסוד: לדעת כיצד להשתמש (באמצעות prompting), לא באיזה כלי
•GPT-4 ו-GPT-5 - טובה
•Claude - טובה
•Gemini - טובה (Google מתאמצת על שפות שאינן אנגלית)
•Llama 4 - בינונית
•Mistral - חלשה
•MedGemma - לא אומן ספציפית על עברית, חלשה
Tokenization: השפה העברית מקודדת ב-cl100k_base בין 3 ל-4 tokens למילה (לעומת token אחד באנגלית) - יקר פי 3 עד 4.
ביצועים:
•על שאלות כלליות בעברית - GPT-5 מגיע לכ-95% מהביצועים באנגלית
•על מונחים רפואיים בעברית - יורד ל-80%
תופעות:
•שגיאות תחביר נדירות
•תרגום מילולי (כמו 'חולים סוכרת' במקום 'סוכרתיים')
•שילוב מילים שאינן קיימות
עצה מעשית: כתוב prompts באנגלית גם לתוכן בעברית, או הגדר פורמט (כגון 'ענה בעברית רפואית מקצועית, השתמש בלעז כשמקובל').
תרגום: GPT ו-Claude מתרגמים בין עברית לאנגלית היטב. שילוב דו-לשוני הוא pattern נפוץ
•הירשם ל-ChatGPT Pro או Claude Pro (במחיר 20 דולר לחודש - לא זול, אך פותח את הכל). השתמש 30 דקות ביום למשימות שונות: סיכום ביקור, ניסוח מכתבים, חיפוש בספרות ואבחנה מבדלת. תוך חודש - תזהה היכן זה חוסך זמן והיכן לא
•הקם מסלול עבודה לסיכום מאמרים: NotebookLM (חינם) בתוספת 5 PDFs כל שבוע ושאלה אחידה (כגון 'סכם clinical relevance, key findings, limitations'). תוך חודשיים - תהיה מעודכן בספרות בשליש מהזמן
•היזהר עם נתונים רגישים: לעולם אל תכניס PHI (Protected Health Information) ל-LLM בענן ללא הסכמה. במקום זאת - השתמש ב-anonymization (החלף שמות ו-IDs) או on-premise (כגון Llama 4 ב-Ollama). זה קריטי לעמידה בחוק הגנת הפרטיות וגם בעקבות תיקון 13
בונוס: עקוב אחר שתיים עד שלוש דמויות ב-X או ב-LinkedIn (כגון Andrej Karpathy, Yann LeCun ו-Eric Topol) - 5 דקות ביום מספיקות לעדכון
שורה תחתונה
מה-Perceptron משנת 1958 ועד Claude Opus 4.7 משנת 2026, המסע של AI עבר 3 קפיצות מפתח: AlexNet (משנת 2012, הוכחה ש-Deep Learning עובד), Transformer (משנת 2017, מנגנון Self-Attention), ו-ChatGPT (משנת 2022, AI לכולם). בשנת 2026 ישנם 4 מודלים מובילים מסחריים (GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro) בתוספת Llama 4 ב-open source, ומודלים רפואיים ייעודיים (Med-PaLM 2 ו-MedGemma). הביצועים על benchmarks (MedQA בין 86% ל-92%) מרשימים אך אינם משקפים פרקטיקה - מחקר Hager משנת 2024 (פורסם ב-Nature Medicine) הראה פער של 41 נקודות בין benchmark לתיקים אמיתיים.
הכיוון לדרמטולוג בשנת 2026: AI הוא כלי augmentation, לא תחליף. חמישה שימושים מעשיים שעובדים: scribe automation, literature search, ניסוח, image triage, ו-clinical decision support. השפה העברית עובדת אך פחות טוב מאנגלית. חוק הגנת הפרטיות מחייב anonymization או on-premise. מי שלא ילמד להשתמש ב-AI בשנת 2026 לא יישאר מאחור באבחנה - אך בהחלט בפרודוקטיביות. הצעד הראשון: 30 דקות ביום עם ChatGPT Pro או Claude Pro למשך חודש. לאחר מכן תדע מה רלוונטי לך.
📋 פרטי מקור ומחבר
מאת: ד"ר יהונתן קפלן
מומחה ברפואת עור ומין | מנתח מוז (FACMS)
מבוסס על:
Artificial Intelligence in Dermatology: Current and Emerging Applications
Schlessinger DI, Chhor G, Gevaert O, Swetter SM, Ko J, Novoa RA
Journal of the American Academy of Dermatology, 2025
הערת עריכה: תוכן זה נכתב ונערך על ידי ד"ר יהונתן קפלן ומבוסס על המאמר המקורי.
אין להסתמך על תוכן זה ללא קריאת המקור המלא.