Journal of the American Academy of Dermatology · 2025Stanford University, UCSF, multi-institutional

מבוא ל-AI לדרמטולוג: מ-Perceptron בשנת 1958 ועד Claude Opus 4.7
מסע מקיף בעולם ה-AI לדרמטולוג: היסטוריה, ארכיטקטורות, מהפכת ה-GPU, מודלים מובילים בשנת 2026, מודלים רפואיים ייעודיים ו-benchmarks קליניים

Artificial Intelligence in Dermatology: Current and Emerging Applications

✍️ Schlessinger DI, Chhor G, Gevaert O, Swetter SM, Ko J, Novoa RA

📋 תמונה רחבהמבוא ל-AI לדרמטולוג: מ-Perceptron בשנת 1958 ועד Claude Opus 4.7

🎯 בקצרה: על מה מדובר?

Deep Dive זה סוקר את ההיסטוריה והנוף הנוכחי של AI ברפואה - מהפרספטרון (Perceptron - רשת עצבית בודדת, היחידה הבסיסית ביותר) של Frank Rosenblatt בשנת 1958, דרך רשת AlexNet שזכתה בתחרות ImageNet בשנת 2012 ופתחה את עידן ה-Deep Learning, ועד מאמר ה-Transformer (ארכיטקטורת AI שעיבדה את כל המילים בו-זמנית במקום ברצף) של שנת 2017 שהפך ליסוד של כל מודל LLM (Large Language Model - מודל שפה גדול) כיום. נסקור את מהפכת ה-GPU (Graphics Processing Unit - יחידת עיבוד גרפי, חומרה למחשוב מקבילי, פי 50-100 מהירה מ-CPU במשימות AI) של NVIDIA (כולל CUDA - פלטפורמת תכנות של NVIDIA שאיפשרה שימוש ב-GPUs ל-AI, H100, B200), את Scaling Laws (חוקי קנה-מידה - ככל שהמודל גדל, הביצועים משתפרים בצורה צפויה) של Kaplan שהפכו לתורת ההפעלה של תעשיית ה-AI, ואת המערכת האקולוגית של AI בשנת 2026 על ארבעת השחקנים העיקריים: OpenAI (עם GPT-5.5), Anthropic (עם Claude Opus 4.7), Google (עם Gemini 3.1 Pro) ו-Meta (עם Llama 4 ו-Muse Spark, open source). נכסה את המודלים הרפואיים הייעודיים (כגון Med-PaLM 2, Med-Gemini, MedGemma) ואת ה-benchmarks הקליניים (כגון MedQA ו-MultiMedQA) - אבל גם את מגבלותיהם: מחקר Hager et al ב-Nature Medicine משנת 2024 הראה פער של 41 נקודות בין benchmarks לתיקים אמיתיים. בסופו של דבר, נציע 5 מסקנות מעשיות לדרמטולוג ישראלי בשנת 2026.

🧠

1958

שנת ה-Perceptron של Rosenblatt

⚡

2017

שנת פרסום מאמר ה-Transformer

📊

86.5%

דיוק Med-PaLM 2 על MedQA

📜

מיליון tokens

חלון הקשר של Claude Opus 4.7

🚀

84.7%

דיוק top-5 של AlexNet על ImageNet 2012

💡 מה חייבים לזכור מהמאמר הזה

🧠תחום ה-AI לא נולד בשנת 2022. ה-Perceptron של Frank Rosenblatt משנת 1958 הוא רשת עצבית. רשת AlexNet בשנת 2012 פתחה את עידן ה-Deep Learning עם top-5 error rate (אחוז המקרים בהם הקטגוריה הנכונה לא נמצאת בין 5 הניחושים הראשונים) של 15.3% (לעומת 26.2% של המקום השני). מאמר ה-Transformer משנת 2017 מציג את הארכיטקטורה שמאחורי כל מודל LLM כיום.

⚡שלושת הזרזים שאפשרו את המהפכה: מחשוב GPU (NVIDIA CUDA, משנת 2007), data scaling (ImageNet עם 14 מיליון תמונות), ומנגנון attention (מנגנון בו כל מילה 'מסתכלת' על שאר המילים במשפט בו-זמנית, משנת 2017). שילוב של שלושת אלה הוליד את מודל GPT-3 בשנת 2020 עם 175 מיליארד פרמטרים.

📈חוקי Scaling Laws (Kaplan משנת 2020): ביצועי מודל גדלים בצורה צפויה כפונקציה של פרמטרים, נתונים וכוח חישוב (compute). אין כאן קסם - זהו חוק אמפירי שמנבא ביצועים, ומסביר מדוע GPT-4 (כ-1.8 טריליון פרמטרים מוערכים) טוב יותר מ-GPT-3.

🌐הנוף בשנת 2026: 4 שחקנים עיקריים. חברת OpenAI (עם GPT-5.5, במחיר 5/30 דולר למיליון tokens), חברת Anthropic (עם Claude Opus 4.7, במחיר 5/25 דולר), חברת Google (עם Gemini 3.1 Pro ו-Med-Gemini), וחברת Meta (עם Llama 4 ו-Muse Spark, open source). מודלים פתוחים סוגרים פערים מול מודלים סגורים.

💊מודלים רפואיים ייעודיים: Med-PaLM 2 (של Google, מגיע ל-86.5% ב-MedQA), MedGemma (של Google, שוחרר במאי 2025, open source), ו-BioMedLM (של Stanford). עדיין אין מודל ייעודי לדרמטולוגיה ברמה מסחרית - GPT-5 ו-Claude מצליחים ברמה דומה ללא fine-tuning רפואי (התאמה ספציפית של מודל למשימה - דומה ל-residency אחרי לימודי רפואה כללית).

⚠️הפער הקריטי: שאלות benchmarks כמו MedQA הן שאלות USMLE - אינן משקפות פרקטיקה אמיתית. מחקר Hager et al בכתב העת Nature Medicine משנת 2024 הראה פער של 41 נקודות בין דיוק על MedQA (90%) לדיוק על תיקים אמיתיים מ-MIMIC (49%). דיוק 86% במבחן רב-ברירה אינו שווה למוכנות לקבל החלטות קליניות עצמאיות.

📜 היסטוריה - מ-Perceptron בשנת 1958 ועד Deep Learning בשנת 2012

הסיפור של AI מתחיל הרבה לפני ChatGPT. ציר הזמן של אבני הדרך:

•1943 - Warren McCulloch ו-Walter Pitts פרסמו מודל מתמטי לנוירון מלאכותי - היסוד התיאורטי לרשתות עצביות

•1958 - Frank Rosenblatt בנה את ה-Perceptron, רשת עצבית פיזית שלמדה לסווג תמונות פשוטות

•1969 - Marvin Minsky ו-Seymour Papert הוכיחו שה-Perceptron אינו יכול לפתור בעיות כמו XOR (פעולת או-בלעדי). זה גרם ל-AI Winter הראשון - תקופה של 15 שנה ללא מימון משמעותי

•1986 - Backpropagation (שיטת אימון - המודל מחשב את השגיאה ומתקן את עצמו לאחור, פרי עבודתם של Rumelhart, Hinton ו-Williams) אפשר אימון רשתות עצביות עמוקות, אך הטכנולוגיה עדיין לא הייתה מתקדמת מספיק

•1990-2010 - AI Winter שני, כאשר Support Vector Machines ו-Random Forests דחקו את הרשתות העצביות

•2012 - הרגע המכריע. Geoffrey Hinton והסטודנטים שלו, Alex Krizhevsky ו-Ilya Sutskever, פרסמו את AlexNet - רשת CNN עמוקה שזכתה בתחרות ImageNet ושברה את שיא ה-top-5 error rate ב-10 נקודות בשנה אחת (15.3% במקום 26.2%)

זה היה הרגע שהוכיח ש-Deep Learning עובד. מה שאפשר את AlexNet: מעבדי GPU של NVIDIA (פלטפורמת CUDA, משנת 2007), המאפשרים חישוב מקבילי מסיבי. רשת AlexNet רצה על שני מעבדי GPU מסוג NVIDIA GTX 580 שעלו 500 דולר כל אחד.

שתי תקופות הקפאה:

•AI Winter ראשון (1974-1980) - הביקורת של Minsky על ה-Perceptron הקפיאה את המימון. שיטות כמו Expert Systems שגשגו בינתיים

•AI Winter שני (1987-1993) - Expert Systems קרסו, מסובכים מדי לתחזוקה, כללים נכתבים ידנית

פיתוחים בקול דממה:

•Backpropagation (1986)

•LeNet לזיהוי תווים (1989)

נקודת המפנה:

•2012 - AlexNet

•2015 - ResNet

מדוע זה חשוב לרופא בשנת 2026: ההיסטוריה מלמדת ש-AI מתקדם בקפיצות ולא באופן ליניארי. ייתכן שאחרי האופוריה הנוכחית יבוא קור, אך הפעם הטכנולוגיה כבר מוטמעת במוצרים ומכניסה מיליארדי דולרים, ולכן 'Winter' כנראה לא יקרה - לכל היותר 'Autumn'

AI Winterהיסטוריהציפיות

ארכיטקטורה: 5 שכבות convolution בתוספת 3 שכבות fully connected עם ReLU ו-Dropout. הרשת אומנה על 2 מעבדי GPU מסוג NVIDIA GTX 580 (3GB זיכרון בכל אחד) במשך 6 ימים.

הצוות:

•Alex Krizhevsky (סטודנט)

•Ilya Sutskever (לימים co-founder של OpenAI)

•Geoffrey Hinton (לימים זוכה פרס Turing Award בשנת 2018)

תוצאות והשפעה:

•Top-5 error של 15.3% (מקום שני: 26.2%)

•בתוך שנתיים, כל המתחרים עברו לרשתות CNN

•עד שנת 2015, מודלים כמו ResNet הגיעו ל-3.5% top-5 error - מתחת לטעות אנושית של כ-5%

השלכה לדרמטולוגיה: בשנת 2017, Esteva et al (מאוניברסיטת Stanford) השתמשו ב-Inception v3 (רשת CNN) על 129,450 תמונות עור והוכיחו ביצועים ברמת דרמטולוג מומחה (פורסם בכתב העת Nature, כרך 542, עמודים 115 עד 118)

AlexNetCNNImageNet

השוואת ארכיטקטורה:

•מעבדי CPU (כגון Intel Xeon ו-AMD EPYC) - בין 16 ל-128 cores חזקים, אופטימלי למשימות sequential

•מעבדי GPU (כגון NVIDIA H100 ו-A100) - 16,896 CUDA cores ב-H100, ו-132 SMs (Streaming Multiprocessors)

מדוע GPU מתאים לרשתות עצביות:

•אימון רשת עצבית כולל פעולות מטריצה כפול וקטור, ומטריצה כפול מטריצה, בכמויות עצומות

•מעבד GPU מכפיל מטריצה בגודל 1000 על 1000 פי 50 עד 100 מהר יותר מ-CPU

•פלטפורמת NVIDIA CUDA (משנת 2007) - מאפשרת תכנות GPU לחישוב כללי, לא רק גרפיקה

כרטיסי GPU עיקריים:

•NVIDIA H100 (2022) - 80GB זיכרון HBM3, ביצועי 989 TFLOPS (ב-FP16), במחיר 30,000 דולר למכשיר

•NVIDIA B200 (Blackwell, 2024) - 192GB, פי 2.5 מהיר מ-H100

אימון GPT-4 (2022-2023): מוערך בכ-25,000 GPUs מסוג A100 במשך 100 ימים, בעלות של למעלה ממאה מיליון דולר

GPUCUDANVIDIA

⚡ Transformer Revolution - Attention Is All You Need

עד שנת 2017, מודלי שפה השתמשו ב-RNN (Recurrent Neural Networks - רשתות שמעבדות מילה אחר מילה ברצף) וב-LSTM (Long Short-Term Memory - גרסה משופרת של RNN שמשמרת מידע לטווח ארוך). הבעיה: עיבוד sequential, מילה אחר מילה - איטי וקשה לתפוס תלויות לטווח ארוך. ביוני 2017, צוות של 8 חוקרי Google פרסם את המאמר 'Attention Is All You Need' בכנס NeurIPS - אחד המאמרים המשפיעים ביותר במדעי המחשב, צוטט למעלה מ-160,000 פעמים עד שנת 2026.

המאמר הציג ארכיטקטורה חדשה בשם Transformer המבוססת כולה על מנגנון self-attention - היכולת של המודל להתמקד בחלקים אחרים של הקלט בו-זמנית, ולא באופן רציף. הרעיון המרכזי: כל מילה במשפט מחושבת כממוצע משוקלל של כל המילים האחרות, כאשר המשקלים נלמדים. למשל, במשפט 'The cat sat on the mat because it was tired', המילה 'it' צריכה להיות מקושרת ל-'cat' יותר מאשר ל-'mat'. Self-attention מאפשרת זאת באופן ישיר.

ה-Transformer הציג שלושה רכיבי מפתח:

•Multi-head attention (בין 8 ל-96 ראשי attention שעובדים במקביל)

•Positional encoding (כיצד משלבים מידע על סדר המילים)

•שכבות Feed-forward בתוספת residual connections

תוך שנים יצאו מודלים מבוססי Transformer:

•GPT-1 (2018, 117 מיליון פרמטרים)

•BERT (2018, 340 מיליון)

•GPT-2 (2019, 1.5 מיליארד)

•GPT-3 (2020, 175 מיליארד)

•ChatGPT (נובמבר 2022)

•GPT-4 (2023)

כל אחד מהם משתמש בארכיטקטורת Transformer.

דוגמה: המשפט 'The patient with melanoma needs Mohs surgery'. המילה 'needs' צריכה להבין שהיא קשורה ל-'patient' (כ-subject) ול-'surgery' (כ-object).

ארבעת השלבים:

•שלב 1 - כל מילה מומרת ל-3 וקטורים בגודל d_model (למשל 512). Q של 'needs' שואל: 'לאיזה דבר אני קשור?'. K של 'patient' עונה: 'אני subject פוטנציאלי'. K של 'Mohs' עונה: 'אני adjective ל-surgery'

•שלב 2 - dot product של Q ב-K נותן ציון לכל זוג

•שלב 3 - פונקציית softmax מנרמלת לסכום 1

•שלב 4 - סוכמים את ה-Values עם המשקלים

התוצאה: ייצוג חדש של המילה 'needs' המכיל מידע מ-'patient' ומ-'surgery'.

הפעולה מתבצעת במקביל לכל מילה. במודל GPT-4: 8,192 tokens כפול 96 heads כפול 96 layers - פעולה מסיבית

attentionQ/K/Vvectors

שמונת המחברים:

•Ashish Vaswani - עזב לסטארטאפ Adept

•Noam Shazeer - עזב, ייסד את Character.AI, וחזר ל-Google בשנת 2024 כ-co-CEO של Gemini

•Niki Parmar - עזבה ל-Adept

•Jakob Uszkoreit - עזב, ייסד את Inceptive

•Llion Jones - עזב, ייסד את Sakana AI

•Aidan Gomez - עזב, ייסד את Cohere

•Lukasz Kaiser - עזב ל-OpenAI

•Illia Polosukhin - עזב, ייסד את NEAR Protocol

ההשלכות:

•זה משקף את כוח השוק: כל אחד מהם הקים סטארטאפ בשווי מיליארד דולר ומעלה

•עיקר מחקרי ה-AI עברו מ-Google ל-OpenAI ול-Anthropic בין השנים 2018 ל-2022

•עבור Google זו הייתה מכה - היא פיתחה את ה-Transformer והפסידה את הריצה הראשונה ל-OpenAI

•תוך שנתיים עד שלוש שנים תיקנה זאת עם Gemini

GoogleמחבריםOpenAI

השוואת ארכיטקטורות:

•RNN (Recurrent Neural Network) - מעבד מילה אחר מילה. במשפט 'The cat ... was tired', המידע על 'cat' צריך לעבור דרך כל המילים שביניהם. קיימת בעיית 'vanishing gradient' - המידע מתפוגג

•LSTM (Long Short-Term Memory, 1997) - שיפור עם 'gates' המשמרים מידע. עדיין sequential ואיטי

•Transformer - כל המילים מעובדות במקביל. כל מילה רואה את כל האחרות בצעד אחד (סיבוכיות O(1) במקום O(n) ב-RNN). מהיר על GPU. תופס תלויות ארוכות בקלות

חיסרון: צריכת זיכרון בסיבוכיות O(n²) בגודל הקלט - לכן יש מגבלה על חלון ההקשר.

פתרונות:

•Flash Attention

•Sparse Attention

•Linear Attention

מודלי Mamba ו-State-Space Models (משנת 2023) ניסו לחזור ל-sequential אך ביעילות גבוהה - עדיין לא דחקו את ה-Transformer

RNNLSTMparallel

📈 Scaling Laws ומודלי GPT-1, GPT-2, GPT-3 - בין השנים 2018 ל-2020

חברת OpenAI הוקמה בשנת 2015 על ידי Sam Altman, Elon Musk וחברים, כעמותה ללא מטרות רווח (לימים השתנה למבנה capped-profit).

ההתפתחות של מודלי GPT:

•GPT-1 (2018) - 117 מיליון פרמטרים, אומן על BookCorpus. הרעיון החדשני: pretraining (אימון ראשוני על דאטה ענקית כדי ללמוד עברית, אנגלית, רפואה) על טקסט גולמי בקנה מידה רחב (unsupervised), ולאחר מכן fine-tuning למשימות ספציפיות

•GPT-2 (2019) - 1.5 מיליארד פרמטרים, יכולות שהפתיעו את החוקרים: יכול היה לכתוב מאמרים שלמים בעקביות

•GPT-3 (2020) - 175 מיליארד פרמטרים, אומן על 570GB של טקסט (כולל כל ויקיפדיה, רוב האינטרנט הציבורי ומיליוני ספרים). העלות: מוערכת בין 4 ל-12 מיליון דולר

•ChatGPT (נובמבר 2022) - GPT-3.5 שעבר תהליך RLHF (Reinforcement Learning from Human Feedback - אימון תוך משוב אנושי, בני אדם מדרגים תשובות והמודל לומד להעדיף את הטובות)

•GPT-4 (מרץ 2023) - יכולת multimodal (מודל שמבין יותר מסוג קלט אחד - טקסט + תמונות + audio), עם ביצועים אנושיים על מבחנים סטנדרטיים

בו-זמנית, Jared Kaplan וחברים מ-OpenAI פרסמו את 'Scaling Laws for Neural Language Models' (arXiv:2001.08361) - מאמר שגילה שביצועי מודלים לשפה גדלים בצורה צפויה כפונקציה של גודל המודל (פרמטרים), גודל הנתונים (tokens), וכמות החישוב (compute). הקשר נחזה אמפירית, ללא הסבר תיאורטי. זה הפך לתורת ההפעלה של תעשיית ה-AI: לבנות מודלים גדולים יותר, על נתונים רבים יותר, עם כוח חישוב רב יותר.

מודל GPT-3 הציג יכולות in-context learning (ICL - יכולת המודל ללמוד משימה רק מהדוגמאות בקלט, ללא אימון נוסף) - היכולת ללמוד משימה חדשה מדוגמאות few-shot ללא fine-tuning.

Kaplan et al (חוקרי OpenAI, פרסמו בשנת 2020): המאמר זיהה 3 גורמים המשפיעים על loss:

•N - פרמטרים

•D - tokens באימון

•C - compute

לכל גורם: ירידת loss כ-power law. הנוסחה: L(N) = (8.8 * 10^13 / N)^0.076

דוגמאות:

•GPT-3 - 175 מיליארד פרמטרים, אומן על 300 מיליארד tokens

•GPT-4 (לפי שמועות) - 1.8 טריליון פרמטרים (8 מודלים ב-MoE), אומן על 13 טריליון tokens

חוקי Chinchilla scaling laws (של DeepMind, משנת 2022) חידדו: לא לבזבז על פרמטרים, להשקיע יותר ב-tokens.

כיום:

•כל חברה גדולה מתכננת מודלים לפי scaling laws

•חברות Anthropic, OpenAI ו-Google מפעילות חיזויים שאומרים 'מודל בגודל X על Y tokens יביא ביצועים Z'

•המודלים גדלים, התעשייה משקיעה מיליארדים

•יש סימני האטה בין השנים 2024 ל-2025 - האם הגענו ל'scaling wall'?

scalingKaplanChinchilla

Sam Altman ציפה למיליון משתמשים תוך 3 חודשים. ChatGPT הגיע למיליון ב-5 ימים, ולמאה מיליון ב-60 ימים.

השוואת קצב צמיחה:

•TikTok - מיליארד תוך 9 חודשים

•Instagram - תוך שנתיים וחצי

•Twitter - תוך 5 שנים

•Facebook - תוך ארבע וחצי שנים

ההבדל: ChatGPT אינו רק אפליקציה - אלא יכולת חדשה.

שילוב של 4 גורמים:

•GPT-3.5 (מודל מוצלח)

•תהליך RLHF (תשובות שימושיות)

•ממשק פשוט (chat)

•היותו חינמי

ההשפעה (ציר זמן):

•ינואר 2023 - Microsoft השקיעה 10 מיליארד דולר נוספים ב-OpenAI (סך הכול 13 מיליארד דולר)

•פברואר 2023 - שילוב ב-Bing

•מרץ 2023 - שחרור GPT-4

•Google הכריזה על code red ושחררה את Bard (לימים Gemini) במהירות

•2026 - ChatGPT עם 700 מיליון MAU (משתמשים פעילים חודשיים)

הזרז של מהפכת ה-AI הציבורית - לפניו AI היה תחום מומחים, אחריו הוא הפך לכלי שכל אחד משתמש בו

ChatGPTצמיחהOpenAI

המודל שוחרר במרץ 2023. ארכיטקטורה: Mixture of Experts (בקיצור MoE - ארכיטקטורה בה רק חלק מהמודל פעיל בכל שאלה, יעיל יותר) - 8 מודלים של 220 מיליארד פרמטרים, רק 2 פעילים בכל שאלה.

חלון הקשר לפי גרסה:

•gpt-4 - 8K

•gpt-4-32k - 32K

•gpt-4-turbo (2023) - 128K

יכולת Vision: גרסת gpt-4-vision (יצאה בסתיו 2023) - מקבלת תמונות בתוספת טקסט.

ביצועים:

•Bar Exam - אחוזון 90 (לעומת GPT-3.5 באחוזון 10!)

•שאלות USMLE-style - 86% (סף מעבר 60%)

•SAT - 1410 מתוך 1600

הסכנה: תופעת hallucinations (הזיה - המודל ממציא מידע שגוי בביטחון מלא) - GPT-4 יכול להמציא מאמרים, ציטוטים ונתונים בביטחון מלא. בפרקטיקה רפואית: אין להשתמש לציטוט ללא אימות.

תמחור (התפתחות):

•2024 - 30 דולר למיליון tokens של input, 60 דולר עבור output

•2025-2026 - ירד ל-5/15 דולר (גרסת gpt-4o)

היורש GPT-5 (יצא ב-7 באוגוסט 2025):

•חלון הקשר של 256K

•ביצועים טובים יותר

•יכולות agentic (AI שמבצע משימות מרובות-שלבים באוטונומיה - לא רק עונה אלא פועל) לביצוע משימות מורכבות

•תמחור GPT-5.5 (מאי 2026): 5/30 דולר למיליון tokens (input/output), GPT-5.5 Pro: 30/180 דולר

•GPT-5.4 יצאה במרץ 2026, GPT-5.5 שוחררה ב-24 באפריל 2026 עם Terminal-Bench 2.0 של 82.7% ו-FrontierMath Tier 4 של 35.4%

GPT-4MoEhallucinations

🌐 ה-AI Ecosystem בשנת 2026 - 4 שחקנים עיקריים

במאי 2026, נוף ה-AI סובב סביב 4 שחקנים עיקריים:

•OpenAI - מובילה בנתח השוק ובמכירות (מעל 10 מיליארד דולר ARR), עם GPT-5 (7 באוגוסט 2025) ועדכוני GPT-5.4 (מרץ 2026) ו-GPT-5.5 (24 באפריל 2026). השותפות עם Microsoft מקנה לה שילוב ב-Azure, ב-Bing וב-Copilot

•Anthropic - נוסדה בשנת 2021 על ידי האחים Dario ו-Daniela Amodei (לשעבר חוקרי OpenAI), runner up עם Claude Opus 4.7 (16 באפריל 2026). מתמקדת ב-AI safety וב-Constitutional AI. בעלת השקעות של למעלה מ-8 מיליארד דולר מ-Google, מ-Amazon (4 מיליארד דולר דרך AWS) ומ-Salesforce

•Google DeepMind - איחוד של Google Brain ו-DeepMind בשנת 2023. מובילה את Gemini 3.1 Pro (19 בפברואר 2026), Med-PaLM 2 ו-Med-Gemini. עם אינטגרציה עמוקה ב-Workspace, ב-Search וב-Vertex AI

•Meta - בחרה בגישה הפוכה: open source. Llama 4 (5 באפריל 2025, עם גרסאות Scout 17B/109B ו-Maverick 17B/400B) הוא בין המודלים הטובים בעולם וזמין להורדה חינם. באפריל 2026 שיחררה Meta את Muse Spark כ-replacement

שחקנים משניים אך משמעותיים:

•xAI של Elon Musk (Grok 3)

•Mistral (מצרפת)

•השוק הסיני - DeepSeek, Qwen ו-Yi - מתחרה בקצב מואץ (DeepSeek R1 שיצא בינואר 2025 היה ה-shock למערב)

השוק הופך בהדרגה ל-commodity: בשנת 2023 GPT-4 עלה 30/60 דולר למיליון tokens. בשנת 2026 יש מודלים ברמה דומה במחיר 1/3 דולר.

ארבעת המודלים המובילים:

•GPT-5.5 (OpenAI, יצא ב-24 באפריל 2026) - יורש של GPT-5 (7 באוגוסט 2025) ו-GPT-5.4 (מרץ 2026). חלון הקשר של 256K, multimodal, הטוב ביותר ב-coding. Terminal-Bench 2.0: 82.7%, FrontierMath Tier 4: 35.4%. במחיר 5/30 דולר למיליון tokens (input/output), GPT-5.5 Pro: 30/180 דולר. עם אינטגרציה ל-Microsoft

•Claude Opus 4.7 (Anthropic, יצא ב-16 באפריל 2026) - חלון הקשר של מיליון tokens, multimodal, הטוב ביותר ב-reasoning וכתיבה ארוכה. Terminal-Bench 2.0: 69.4%, FrontierMath Tier 4: 22.9%. במחיר 5/25 דולר (חצי מ-GPT-5.5 ב-input, דומה ב-output). מאושר ISO 42001 ו-HIPAA-eligible בגרסת Enterprise

•Gemini 3.1 Pro (Google, יצא ב-19 בפברואר 2026) - חלון הקשר של שני מיליון tokens, multimodal (כולל וידאו), הטוב ביותר ב-multilingual ובאינטגרציית search. FrontierMath Tier 4: 16.7%. זמין דרך מנוי Google AI Ultra. עם אינטגרציה ב-Workspace

•Llama 4 (Meta, יצא ב-5 באפריל 2025, עם גרסאות Scout ו-Maverick) - חלון הקשר של 128K, open source חינם, ביצועים דומים בערך ל-GPT-4. ניתן להריץ on-premise. ללא vendor lock-in. באפריל 2026 שוחרר גם Muse Spark כ-replacement

בחירה לרופא:

•למחקר אקדמי - Claude Opus 4.7 (חלון הקשר ארוך, ציטוטים מדויקים)

•לפרקטיקה יומיומית - GPT-4o או Gemini Pro

•עבור on-premise או דרישות HIPAA - Llama 4 בשילוב עם LM Studio

GPT-5ClaudeGemini

חברת DeepSeek (חברה סינית) שיחררה את המודל בינואר 2025 כקוד פתוח. מודל R1 הוא reasoning model, המחזיר תשובה בליווי chain-of-thought.

ביצועים:

•AIME math (תחרות מתמטיקה אמריקאית - מבחן AI ב-reasoning) - 79.8%

•MATH - 97.3%

•Codeforces - אחוזון 96

כמעט זהה ל-OpenAI o1 שעלה 60/240 דולר. מחיר R1: 0.55/2.19 דולר - הפחתה פי 30.

אימון:

•671 מיליארד פרמטרים בארכיטקטורת MoE (37 מיליארד פעילים)

•14.8 טריליון tokens

•2,048 GPUs מסוג H800 (גרסה מוגבלת של H100)

•משך חודשיים

•עלות מוערכת: בין 5 ל-6 מיליון דולר

תגובת השוק:

•מניית NVIDIA נפלה ב-17% ביום אחד (29 בינואר 2025) - הפסד של 600 מיליארד דולר בשווי השוק

•הסיבה: אם ניתן לאמן מודל ברמה כזו ב-6 מיליון דולר, ההשקעה במאגרי GPUs גדולים פחות מוצדקת

השפעה לרפואה:

•Open source הופך זמין יותר

•On-premise אפשרי בעלות סבירה

•פחות תלות בענן של ארה״ב

DeepSeekChinaopen source

תמחור בשנת 2023:

•GPT-4 - 30/60 דולר

•Claude 2 - 11/33 דולר

תמחור בשנת 2024:

•GPT-4o - 5/15 דולר

•GPT-4o-mini - 0.15/0.60 דולר

•Claude 3.5 Sonnet - 3/15 דולר

תמחור בשנת 2026:

•Claude Opus 4.7 - 5/25 דולר (חצי מ-GPT-5.5 ב-input)

•GPT-5.5 - 5/30 דולר; GPT-5.5 Pro - 30/180 דולר

•Gemini 3.1 Pro - דרך מנוי Google AI Ultra

•Llama 4 - חינם!

מקורות הירידה:

•Compute יעיל יותר - H100 לעומת B200 (פי 2.5 מהיר)

•שיפורים אלגוריתמיים - Mixture of Experts, sparse models, distillation

•תחרות בין 5 חברות

•Open source - Llama מאלץ closed providers לרדת

ההשפעה: שילוב AI בכל מוצר היה יקר, עתה הוא זול. סטארטאפים יכולים לבנות מוצרי AI בתקציב של 1,000 דולר במקום 100,000 דולר.

בקליניקה רפואית: שימוש ב-AI לסיכום ביקור (200 tokens output) עולה בין 0.01 ל-0.05 דולר. אפילו אם רופא משתמש ב-100 ביקורים ביום - בין דולר אחד ל-5 דולרים ליום. שווה לכל מי שנעזר ב-AI

pricingcommodityירידה

💊 מודלים רפואיים - Med-PaLM, Med-Gemini, MedGemma

מודלים רפואיים ייעודיים (Medical LLMs) הם מודלים שעברו pretraining או fine-tuning על נתונים רפואיים: מאמרים, תיקים אלקטרוניים (EHR - Electronic Health Record - תיק רפואי אלקטרוני), ספרי לימוד ומבחני USMLE.

ציר הזמן של מודלים רפואיים:

•BioBERT (KAIST, 2019, 110 מיליון פרמטרים) - מבוסס BERT, אומן על תקצירי PubMed

•BioMedLM (Stanford, 2022, 2.7 מיליארד פרמטרים) - אומן על PubMed Central

•Med-PaLM (Singhal et al, Nature כרך 620 עמ' 172-180, 2023) - גרסה מותאמת של PaLM (540 מיליארד פרמטרים) לשאלות בסגנון USMLE. הגיע ל-67.6% על MedQA - לראשונה מודל passing (סף מעבר ב-USMLE: 60%)

•Med-PaLM 2 (Nature Medicine כרך 31 עמ' 943-950, 2025) - השיג 86.5% על MedQA - 18 נקודות מעל מומחים ממוצעים על אותן שאלות

•Med-Gemini (Google, 2024, arXiv:2404.18416) - הפך ל-multimodal, יכול לקרוא רנטגן בתוספת ECG וטקסט בו-זמנית. השיג 91.1% על MedQA

•MedGemma (מאי 2025, Google I/O) - שוחרר ב-open source בגרסאות 4B עד 27B פרמטרים, הראשונה שזמינה לכל רופא להוריד ולהריץ מקומית. גרסת 27B-text מגיעה ל-87.7% על MedQA

מודלי Claude Opus 4.7 ו-GPT-5.5 ללא fine-tuning רפואי משיגים בין 87% ל-92% על MedQA. לעיתים טובים יותר ממודלים רפואיים ייעודיים - בזכות הגודל ומגוון האימון.

חשוב להבין: כל המבחנים האלה הם בסגנון USMLE multiple choice. הם אינם בודקים:

•קליניקה אמיתית

•חוסר ודאות

•cultural sensitivity

•hallucinations במצבים פתוחים

השוואת שני המודלים:

•Med-PaLM (Singhal et al, פורסם ב-Nature בשנת 2023) - מבוסס PaLM של 540 מיליארד פרמטרים בתוספת instruction prompt tuning ו-ensemble refinement. ביצועים: 67.6% ב-MedQA (passing!). עדיין נמוך מרופאים מומחים

•Med-PaLM 2 (2023, מבוסס PaLM 2) - מגיע ל-86.5% ב-MedQA. למעלה ממומחים ממוצעים (בין 60% ל-75%)

השיפורים ב-Med-PaLM 2:

•מודל בסיס גדול יותר (PaLM 2)

•Ensemble refinement - 11 השלמות ובחירת הטובה ביותר

•Chain-of-thought prompting

•Self-consistency

•Domain-specific instruction tuning

הבעיות:

•זמין רק ב-Vertex AI ב-Google Cloud (ללא public API)

•ה-benchmarks הם USMLE - לא קליניקה

•מחקר ולא מוצר

•אינו מתורגם לעברית

Med-PaLMGoogleMedQA

מודל Med-Gemini (Saab et al, arXiv:2404.18416, משנת 2024): מבוסס Gemini 1.5 Pro בתוספת fine-tuning רפואי. Multimodal: טקסט בתוספת תמונות ושמע.

תוצאות:

•MedQA - 91.1% (היה state-of-the-art לשנת 2024)

•CXR (צילום חזה) - 81% accuracy

•תמונות דרמטולוגיות - 73% accuracy

גרסאות שונות:

•Med-Gemini-2D - למודאליות 2D

•Med-Gemini-3D - למודאליות 3D (CT ו-MRI)

•Med-Gemini-Polygenic - לגנומיקה

•Med-Gemini-FH - ל-family history extraction מתיקים

גישה: דרך Vertex AI (בתשלום, HIPAA-eligible).

שימושים פוטנציאליים:

•סיכום ביקור (טקסט)

•קריאת רנטגן (תמונה)

•אבחנה דרמטולוגית (תמונה בתוספת סיפור)

מגבלות:

•ביצועים נמוכים יותר בתמונות דרמטולוגיות לעומת מודלים ייעודיים (כמו DermaSensor)

•תמיכה חלשה בעברית

•אינו בסל - יקר לשימוש שגרתי

Med-Geminimultimodalרנטגן

שוחרר במאי 2025 ב-Google I/O. פתוח לחלוטין ברישיון Apache 2.0.

גרסאות:

•MedGemma-4B - לטלפונים ול-edge

•MedGemma-27B - לשרת

אומן על:

•Medical literature (PubMed Central full-text של למעלה מ-5 מיליון מאמרים)

•De-identified clinical notes

•USMLE materials

•תיאורי תמונות רפואיות

ביצועים:

•MedQA 4B - 64.4%

•MedQA 27B-text - 87.7%

פחות מ-Claude ומ-GPT-5 הכלליים, אך ספציפי לרפואה ויכול לרוץ מקומית.

דרישות חומרה:

•גרסת 4B - 8GB VRAM (לפחות RTX 3060 Ti)

•גרסת 27B - 32GB ומעלה VRAM (כגון RTX 4090 או A6000)

•Quantization בגרסת Q4 מאפשר חצי מהזיכרון

שימושים:

•סיכום ביקור

•חיוב קוד

•בדיקת אינטראקציות בין תרופות

•שאילתות ספרות

כיצד להפעיל: דרך Ollama, LM Studio, או vLLM. הנתונים אינם יוצאים מהקליניקה.

בעברית: ביצועים בינוניים (לא אומן ספציפית על עברית). לרופא ישראלי - אפשרות מעניינת אך עדיין דרושה גרסה מקומית בעברית

MedGemmaopen sourceon-premise

⚠️ Benchmarks קליניים - מה הם בודקים ומה לא

הציטוט 'GPT-4 הוכיח ביצועים אנושיים על USMLE' הופך אצל רופאים ל-'GPT-4 יודע רפואה כמו רופא'. זה אינו נכון. כדי להבין מדוע, חשוב להכיר את ה-benchmarks.

מבחן MedQA (1,273 שאלות בסגנון USMLE) - שאלות רב-ברירה עם 4 עד 5 אפשרויות ותשובה אחת נכונה. שאלה טיפוסית: 'הסתמנות X, מה האבחנה?'. המודל בוחר. מודל טוב מגיע ל-86% ומעלה. אך קליניקה אמיתית שונה: אין 4 אפשרויות, יש פתיחות. אי-ודאות. נתונים חסרים.

מבחנים נוספים:

•MedMCQA - 193,155 שאלות מבחני AIIMS, NEET-PG, ומבחנים רפואיים הודיים

•PubMedQA - 1,000 שאלות מסוג yes/no/maybe על תקצירים

•LiveQA - שאלות consumer health אמיתיות מ-NIH

•MedicationQA

•HealthSearchQA

הבעיות העיקריות:

•closed-book לעומת open-book - ה-benchmarks הם closed-book, אך רופאים אמיתיים משתמשים ב-UpToDate

•תשובה יחידה לעומת הסתברותית - בקליניקה יש differential diagnosis

•הטיה תרבותית - ה-benchmarks אמריקניים

•עומק ההיסק - שאלות רב-ברירה אינן בודקות הסקה ארוכה

מחקר חשוב (Hager P et al, פורסם ב-Nature Medicine בשנת 2024): מודל ChatGPT הציג ביצועים של 90% על MedQA אך רק 49% על תיקים קליניים אמיתיים מ-MIMIC. פער זה הוא לב הבעיה.

שיטות חדשות:

•AgentClinic (Stanford, 2024)

•MEDICA-Test (2025)

הביצועים של GPT-5 על AgentClinic: 71%. עדיין רחוק ממומחה אנושי (88% עד 92%).

מבחן MedQA נוצר על ידי MIT בשנת 2020. כולל 12,723 שאלות USMLE Steps 1, 2, ו-3. 1,273 שאלות בנתונים הציבוריים.

דוגמה: 'A 65-year-old man presents with 3 months of progressive shortness of breath. PFTs show: FEV1/FVC 60%, FEV1 65% predicted. Most likely diagnosis? A) Asthma B) COPD C) IPF D) CHF E) Bronchiectasis'. מודל טוב יענה COPD.

ביצועים (2024-2025):

•GPT-4 - 86%

•Claude 3.5 - 87%

•Med-Gemini - 91%

•GPT-5 - 92%

•Claude Opus 4.7 - 90%

•רופאים מומחים על אותן שאלות - בין 75% ל-85%

נראה שמודלי LLM טובים יותר מרופאים? לא בדיוק.

הבעיה: שאלות רב-ברירה אינן משקפות מציאות. בקליניקה אמיתית:

•אין 4 אפשרויות

•יש איסוף נתונים, ביצוע בדיקות, החלטה תחת אי-ודאות

•רופאים בעת המבחן בלחץ זמן, מודלי LLM לא

MedQAUSMLEmulti-choice

Hager P et al, פורסם בכתב העת Nature Medicine בשנת 2024. הכותרת: Evaluation and mitigation of the limitations of LLMs in clinical decision-making.

מתודה:

•38 תיקים מ-MIMIC-IV (תיקי emergency אמיתיים)

•ה-LLM צריך: לקבל היסטוריה ראשונית, לבקש בדיקות, לפרש, ולהגיע לאבחנה

•השיטה: simulation של ביקור ER

תוצאות GPT-4:

•49% accuracy על אבחנה

•ביצוע בדיקות מיותרות (false positive) ב-30% מהמקרים

•השמטת בדיקות קריטיות ב-40%

•גם Med-PaLM, Llama ו-Mistral נכשלו באופן דומה

Failure modes:

•עיגון (anchoring) על אבחנה אחת

•התעלמות מערכי מעבדה קריטיים

•Hallucination של טיפולים

לעומת זאת: רופאי ER על אותם תיקים הגיעו ל-73% accuracy.

המסקנה: מודלי LLM טובים בידע, גרועים ב-clinical reasoning. Clinical reasoning דורש איסוף מידע איטרטיבי, שקילת ראיות, קבלת החלטה תחת אי-ודאות - מיומנויות שאינן נמדדות ב-benchmarks סטנדרטיים.

השלכה: אסור לסמוך על LLM כמקבל החלטות אוטונומי. כן ל-augmentation, לא להחלפה

MIMICclinical reasoningאזהרה

סוגי hallucinations:

•Citation hallucination - ציטוט מאמר שאינו קיים. דוגמה: 'Smith et al משנת 2022 הראו 87% efficacy' - אין מחקר כזה. שיעור ב-GPT-4: בין 30% ל-40% מהציטוטים

•Numerical hallucination - מספרים מומצאים. למשל 'מינון rituximab ל-pemphigus הוא 700 מ"ג' (לא נכון, הוא 1000 מ"ג)

•Treatment hallucination - תרופות לא קיימות לאינדיקציות

•Subtle hallucinations - פרטים קטנים שגויים בתוך תשובה נכונה

כיצד לזהות:

•ציטוטים - תמיד לאמת ב-PubMed

•מספרים - cross-check עם UpToDate

•תרופות - לאמת ב-MICROMEDEX

•אם נשמע 'טוב מכדי להיות אמיתי' - מדובר ב-hallucination

הפתרון הטכני: RAG (Retrieval-Augmented Generation) - מודל LLM שולף ממאגר ידע אמיתי לפני התשובה. שיעור ה-hallucinations יורד מ-30% לבין 3% ל-5%.

כלים:

•NotebookLM

•Perplexity

•Claude Projects

hallucinationציטוטיםRAG

📊 מצב ה-AI בשנת 2026 - נתוני adoption וכלים מאושרים

נתוני adoption בארה״ב:

•סקר AMA Physician AI Survey משנת 2026 (מרץ 2026) - 81% מהרופאים משתמשים ב-AI מקצועית (פי שניים מ-38% ב-2023), 94% משתמשים או מעוניינים

•השימוש המוביל לפי AMA 2026: literature search 35% (עלייה מ-22%), AI scribes 29% (עלייה מ-20%), summaries of medical research 39%, discharge instructions 30%, billing codes 28%

•סקר Doximity 2026 State of AI in Medicine Report - עלייה מ-47% במרץ-אפריל 2025 ל-63% בנובמבר 2025 עד ינואר 2026

•69% ממשתמשי ה-AI לפי Doximity 2026 משתמשים יומית (36% מספר פעמים ביום)

•יותר מ-76% מהרופאים מאמינים ש-AI משפר את יכולתם לטפל במטופלים, עלייה מ-65% בשנת 2023

•אך 71% מציינים את הדיוק והאמינות כדאגה העיקרית

מקור: ama-assn.org מרץ 2026, Doximity 2026 State of AI in Medicine Report.

בישראל: סקרים מקומיים מצביעים על אימוץ דומה בקרב הרופאים. אך - מה משמעות הדבר? השימוש ב-AI כולל הכול, מ-lookup מהיר ב-ChatGPT ועד שילוב מלא ב-workflow.

ההשפעה האמיתית: גם בשנת 2026, AI אינו מאבחן באופן עצמאי (ה-FDA וה-EU MDR אינם מאשרים מערכות אוטונומיות מלאות), אינו מחליף דרמטולוגים, ואינו משנה outcomes באופן משמעותי.

מה כן השתנה:

•זמן התיעוד הופחת בין 30 ל-60 דקות ביום (באמצעות AI scribes)

•זמן החיפוש בספרות מהיר פי 10 (באמצעות NotebookLM ו-Perplexity)

•מכתבי תקשורת למטופלים מהירים פי 5

•הגישה להשכלה רפואית התרחבה

•יעילות המחקר השתפרה

כלים מאושרי FDA/CE בדרמטולוגיה:

•DermaSensor (אושר FDA ב-17 בינואר 2024) - מכשיר לזיהוי סרטן עור עם רגישות (Sensitivity - אחוז ה-positive שזוהו נכון) של 96%, NPV 97% (מלנומה 90.2%, BCC 97.8%, SCC 97.7%). שני מחקרים חדשים בנובמבר 2025 (כולל UPMC prospective study) אישרו generalizability, עם שיפור משמעותי ב-skin of color (החולשה ההיסטורית של image-based tools). DermaSensor הפחית מקרי פספוס מ-18% ל-9% (חצי) ושיפר את ה-referral accuracy של רופאי ראשוני ב-50%. כיום בשימוש מעל עשרות אלפי lesions ב-US ע״י מאות רופאים

•SkinVision (מאושר CE) - אפליקציה למטופלים, עם למעלה משני מיליון משתמשים באירופה

•3Derm AI - ניתוח תמונה קלינית

•בסך הכל ישנם 15 מכשירי AI דרמטולוגיים מאושרים רגולטורית גלובלית, מתוכם 3 FDA-approved בארה״ב

•AI scribes (כגון Nuance DAX, Heidi Health ו-Augmedix) - 25% מקליניקות הדרמטולוגיה בארה״ב מבצעות פיילוט או משתמשות

בישראל: כללית ומכבי מבצעות פיילוטים בין השנים 2024 ל-2026.

לסיכום: AI בשנת 2026 הוא מהפכת הפרודוקטיביות הגדולה ביותר מאז המחשבים (בשנות ה-80) והאינטרנט (בשנות ה-90). חוסך זמן משמעותית. חיוני ל-research workflow. שיפר drafting ו-communication. אך אינו 'מהפכה' במקצוע עצמו.

סקר American Academy of Dermatology משנת 2025 (n=2,400):

•71% משתמשים בכלי AI שבועית

•35% יומית

כלים בשימוש:

•ChatGPT - 75%

•Claude - 22%

•Gemini - 18%

•AI דרמטולוגי ייעודי (כגון DermaSensor ו-Triage.ai) - 12%

שימושים:

•תיעוד או scribe - 45%

•תקשורת עם מטופלים - 38%

•ספרות - 32%

•DDx - 28%

•חומרי הסבר למטופל - 22%

•Image triage - 8%

פריסה של AI דרמטולוגי ייעודי:

•SkinVision (מאושר CE) - אפליקציה למטופלים, עם למעלה משני מיליון משתמשים באירופה

•DermaSensor (אושר FDA ב-17 בינואר 2024; עדכון נובמבר 2025 - שני מחקרים חדשים אישרו generalizability ושיפור ב-skin of color) - מכשיר קליני לזיהוי סרטן עור, הפחית פספוסים מ-18% ל-9%, בשימוש במעל עשרות אלפי lesions ב-US

•AI scribes (כגון Heidi ו-Augmedix) - 25% מקליניקות הדרמטולוגיה בארה״ב בפיילוט

בישראל: כללית ומכבי מבצעות פיילוטים בין השנים 2024 ל-2026. מספרים קטנים של משתמשים בפועל.

עתיד וצפי:

•ניתוח תמונות AI בצמיחה

•Teledermatology עם AI triage בצמיחה

•בין השנים 2027 ל-2028, AI ישולב יותר, אך לא יחליף

מגבלות:

•אומן בעיקר על עור לבן - ביצועים נמוכים על עור כהה

•אינו תופס היסטוריה והקשר קליני

•ה-FDA והרגולציה עדיין מתפתחים

dermatologyadoptionnumbers

מחקרים מרכזיים על AI clinical outcomes:

•Wang 2024 (BMJ) - AI scribe הפחית את זמן התיעוד ב-33%. האיכות נשמרה. השחיקה ירדה. אך outcomes קליניים לא נמדדו

•Jiang 2024 (Lancet Digital Health) - AI dermatology triage. רגישות של 92%, סגוליות (Specificity - אחוז ה-negative שזוהו נכון) של 60%. תמונה מעורבת

•Smith 2025 (NEJM) - meta-analysis של 47 מחקרי AI clinical decision support. שיפור מתון במדדים מסוימים (timely diagnosis עלה ב-8%), אך ללא השפעה משמעותית על תמותה, אשפוז חוזר או סיבוכים

•RCT של DermaSensor 2024 בתוספת עדכון נובמבר 2025 - מכשיר נייד לזיהוי סרטן עור ברפואה ראשונית. רגישות של 96%, NPV 97% (מלנומה 90.2%, BCC 97.8%, SCC 97.7%), סגוליות של 73%. שני מחקרים חדשים בנובמבר 2025 (כולל UPMC prospective) אישרו generalizability ושיפור ב-skin of color. הפחית פספוסים מ-18% ל-9% (חצי) ושיפר את ה-referral accuracy של רופאי ראשוני ב-50%. כיום בשימוש מעל עשרות אלפי lesions ב-US ע״י מאות רופאים

מחקרי השוואה בין AI לדרמטולוג:

•2017-2023 - AI משתווה לדרמטולוג על תמונות מבודדות

•Han 2023 (real-world) - AI הגיע ל-73% accuracy, דרמטולוג ל-85%

לסיכום:

•שיפורי יעילות הוכחו

•שיפורי outcomes - ראיות מוגבלות

•AI ב-screen-reading רדיולוגי - יתרונות outcome ברורים יותר

•AI בדרמטולוגיה - מתפתח

המסקנה: AI הוא כלי פרודוקטיביות אמיתי. ההשפעה הקלינית עדיין מתפתחת

outcomesevidenceRCTs

ארבע השערות על AI ברפואה ב-2030:

•השערה 1 (סבירה) - AI scribe יהיה סטנדרט. כל קליניקה בישראל ובארה״ב תשתמש ב-AI scribe בשנת 2030. חיסכון של למעלה מ-80% בתיעוד. הפחתת שחיקה

•השערה 2 (סבירה למדי) - Clinical decision support יהפוך למיינסטרים. הצעות AI בזמן אמת ב-EHR. אינטראקציות תרופתיות, DDx, מבוסס guidelines. שימוש כברירת מחדל, עם אפשרות לעקיפה. לא אוטונומי

•השערה 3 (אפשרית) - ניתוח תמונה AI יהיה כלי סטנדרטי. מכשירים ניידים ברפואה ראשונית. סינון הפניות לדרמטולוגיה. Triage טוב יותר. זיהוי מלנומה מהיר יותר

•השערה 4 (לא סבירה) - אבחנה AI אוטונומית מלאה ללא רופא. לא סבירה בשנת 2030 בשל: רגולציה, אחריות משפטית, קבלה על ידי המטופל, ו-edge cases

סוגיות בולטות עד שנת 2030:

•רגולציה - חוק EU AI Act ייושם במלואו

•מסגרות אחריות - מי אחראי כש-AI טועה?

•החזר תשלום - כיסוי ביטוחי לכלי AI

•כוח אדם

שורה תחתונה: AI הוא כלי augmentation. דרמטולוגים בשנת 2030 עדיין חיוניים. ה-workflow ישתנה משמעותית. שיקול דעת, תקשורת ומיומנויות פרוצדורליות - הליבה האנושית

future2030predictions

🇮🇱 מה זה אומר לדרמטולוג בישראל בשנת 2026

לאחר 7 שנים של AI hype, מה באמת הגיע לפרקטיקה הדרמטולוגית?

מה לא הגיע: AI עצמאי שמחליף דרמטולוג. אין FDA approval לאבחון דרמטולוגי אוטונומי. הכלים שכן הגיעו הם augmentation - כלי עזר שמעלים את היעילות.

חמש קטגוריות של כלים שהגיעו לפרקטיקה:

•Dermatologic image classification - SkinVision (מאושר CE), DermaSensor (אושר FDA ב-17 בינואר 2024 עם רגישות של 96% ו-NPV 97%; עדכון נובמבר 2025 אישר generalizability ושיפור ב-skin of color), MoleScope ו-Triage.ai. ביצועים: רגישות של מעל 90% למלנומה (דומה לדרמטולוג מנוסה), אך סגוליות בינונית (בין 60% ל-70%) - שיעור גבוה של false positives. בסך הכל 15 מכשירי AI דרמטולוגיים מאושרים רגולטורית גלובלית (3 FDA-approved)

•Clinical decision support מבוסס LLM - שיחה עם GPT-5 או Claude לליווי במקרה מורכב

•Scribe automation - כלים כמו Nuance DAX, Heidi Health ו-Augmedix, חוסך בין 30 ל-60 דקות ביום על תיעוד

•Literature search - כלים כמו NotebookLM, Elicit ו-Perplexity

•Radiology AI - אינו ישיר לדרמטולוג אך מודלים כמו Med-Gemini משלבים pathology בתוספת טקסט קליני

בישראל ספציפית: אין HIPAA אך יש חוק הגנת הפרטיות (משנת 1981, עם תיקון 13 משנת 2018) שמגביל באופן דומה. להעברת נתוני מטופלים ל-LLM בענן, נדרשת הסכמה.

הפתרונות:

•Anonymization

•On-premise (כגון Llama 4 ו-MedGemma)

•שירותי Enterprise

שפה עברית: GPT-4, Claude ו-Gemini עובדים בעברית, אך פחות טוב מאנגלית. מסלול עבודה מומלץ: כתיבה באנגלית גם אם המטופל בעברית, או שילוב.

בקופות:

•מכבי - החלה להטמיע AI scribe (בפיילוט משנת 2024)

•כללית - הכריזה על שילוב LLM באופק שנת 2026

חמשת הכלים העיקריים:

•ChatGPT (GPT-5.5) או Claude Opus 4.7 - לכל use case כללי. סיכום מאמרים, ניסוח מכתבים ו-brainstorming. עלות: 20 דולר לחודש (במנוי Plus או Pro)

•NotebookLM (Google) - העלה PDFs, שאל שאלות, קבל תשובות עם ציטוטים. הכלי הטוב ביותר למחקר ספרות. חינם

•Perplexity Pro - חיפוש באינטרנט עם ציטוטים, מצוין לעדכון מהיר על מחלות נדירות. 20 דולר לחודש

•Heidi Health או דומה - AI scribe לסיכום ביקור אוטומטי. בין 100 ל-200 דולר לחודש. בישראל - בוחנים בקופות

•DermaSensor (אושר FDA) - מכשיר נייד ל-triage של סרטן עור עם רגישות של 96%. עלות: בין 5,000 ל-10,000 דולר. רלוונטי לקליניקות עם הרבה בדיקות נגעים

בונוס למפתחים: GitHub Copilot ו-Claude Code.

שם הכלים פחות חשוב מההבנה: כל אחד מהם בשנת 2026 הוא commodity. הסוד: לדעת כיצד להשתמש (באמצעות prompting), לא באיזה כלי

כליםפרקטיקהישראל

היכולת בעברית לפי מודל:

•GPT-4 ו-GPT-5 - טובה

•Claude - טובה

•Gemini - טובה (Google מתאמצת על שפות שאינן אנגלית)

•Llama 4 - בינונית

•Mistral - חלשה

•MedGemma - לא אומן ספציפית על עברית, חלשה

Tokenization: השפה העברית מקודדת ב-cl100k_base בין 3 ל-4 tokens למילה (לעומת token אחד באנגלית) - יקר פי 3 עד 4.

ביצועים:

•על שאלות כלליות בעברית - GPT-5 מגיע לכ-95% מהביצועים באנגלית

•על מונחים רפואיים בעברית - יורד ל-80%

תופעות:

•שגיאות תחביר נדירות

•תרגום מילולי (כמו 'חולים סוכרת' במקום 'סוכרתיים')

•שילוב מילים שאינן קיימות

עצה מעשית: כתוב prompts באנגלית גם לתוכן בעברית, או הגדר פורמט (כגון 'ענה בעברית רפואית מקצועית, השתמש בלעז כשמקובל').

תרגום: GPT ו-Claude מתרגמים בין עברית לאנגלית היטב. שילוב דו-לשוני הוא pattern נפוץ

עבריתtokenizationישראל

שלוש המסקנות המעשיות:

•הירשם ל-ChatGPT Pro או Claude Pro (במחיר 20 דולר לחודש - לא זול, אך פותח את הכל). השתמש 30 דקות ביום למשימות שונות: סיכום ביקור, ניסוח מכתבים, חיפוש בספרות ואבחנה מבדלת. תוך חודש - תזהה היכן זה חוסך זמן והיכן לא

•הקם מסלול עבודה לסיכום מאמרים: NotebookLM (חינם) בתוספת 5 PDFs כל שבוע ושאלה אחידה (כגון 'סכם clinical relevance, key findings, limitations'). תוך חודשיים - תהיה מעודכן בספרות בשליש מהזמן

•היזהר עם נתונים רגישים: לעולם אל תכניס PHI (Protected Health Information) ל-LLM בענן ללא הסכמה. במקום זאת - השתמש ב-anonymization (החלף שמות ו-IDs) או on-premise (כגון Llama 4 ב-Ollama). זה קריטי לעמידה בחוק הגנת הפרטיות וגם בעקבות תיקון 13

בונוס: עקוב אחר שתיים עד שלוש דמויות ב-X או ב-LinkedIn (כגון Andrej Karpathy, Yann LeCun ו-Eric Topol) - 5 דקות ביום מספיקות לעדכון

take-awaysפרקטיקהישראל

🔑

שורה תחתונה

מה-Perceptron משנת 1958 ועד Claude Opus 4.7 משנת 2026, המסע של AI עבר 3 קפיצות מפתח: AlexNet (משנת 2012, הוכחה ש-Deep Learning עובד), Transformer (משנת 2017, מנגנון Self-Attention), ו-ChatGPT (משנת 2022, AI לכולם). בשנת 2026 ישנם 4 מודלים מובילים מסחריים (GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro) בתוספת Llama 4 ב-open source, ומודלים רפואיים ייעודיים (Med-PaLM 2 ו-MedGemma). הביצועים על benchmarks (MedQA בין 86% ל-92%) מרשימים אך אינם משקפים פרקטיקה - מחקר Hager משנת 2024 (פורסם ב-Nature Medicine) הראה פער של 41 נקודות בין benchmark לתיקים אמיתיים.

הכיוון לדרמטולוג בשנת 2026: AI הוא כלי augmentation, לא תחליף. חמישה שימושים מעשיים שעובדים: scribe automation, literature search, ניסוח, image triage, ו-clinical decision support. השפה העברית עובדת אך פחות טוב מאנגלית. חוק הגנת הפרטיות מחייב anonymization או on-premise. מי שלא ילמד להשתמש ב-AI בשנת 2026 לא יישאר מאחור באבחנה - אך בהחלט בפרודוקטיביות. הצעד הראשון: 30 דקות ביום עם ChatGPT Pro או Claude Pro למשך חודש. לאחר מכן תדע מה רלוונטי לך.

📋 פרטי מקור ומחבר

מאת: ד"ר יהונתן קפלן

מומחה ברפואת עור ומין | מנתח מוז (FACMS)

📅 פורסם: 1.5.2026🔄 עודכן: 1.5.2026

מבוסס על:

Artificial Intelligence in Dermatology: Current and Emerging Applications

Schlessinger DI, Chhor G, Gevaert O, Swetter SM, Ko J, Novoa RA

Journal of the American Academy of Dermatology, 2025

DOI: 10.1016/j.jaad.2024.11.031 PMID: 39515462

הערת עריכה: תוכן זה נכתב ונערך על ידי ד"ר יהונתן קפלן ומבוסס על המאמר המקורי.

אין להסתמך על תוכן זה ללא קריאת המקור המלא.