דילוג לתוכן הראשי
arXiv · 2024University of Maryland, OpenAI, Microsoft, Stanford (32 authors)

Prompt Engineering לרופא: מ-zero-shot ל-Chain-of-Thought
מדריך מעשי לרופא: אנטומיה של פרומפט, Chain-of-Thought, few-shot, structured output ואסטרטגיות להפחתת hallucinations

The Prompt Report: A Systematic Survey of Prompting Techniques

✍️ Schulhoff S, Ilie M, Balepur N, et al.
📋 תמונה רחבה

🎯 בקצרה: על מה מדובר?

Prompt Engineering הוא הכישור הקריטי של 2026 - לא מחליף תכנות אבל הופך כל אחד למפעיל יעיל של LLM (Large Language Model - מודל שפה גדול). ב-Deep Dive זה נסקור: • אנטומיית ה-prompt (System/User/Assistant - תפקידים בשיחה: System=הוראות גלובליות, User=השאלה, Assistant=התשובה) • 5 הרכיבים של prompt טוב (RCT-FC: Role, Context, Task, Format, Constraints) • הטכניקות המרכזיות: zero-shot (שאלה ישירה ללא דוגמאות), few-shot (הוספת 3-5 דוגמאות בקלט כדי שהמודל ילמד את הדפוס), Chain-of-Thought (לבקש מהמודל לחשוב צעד-צעד לפני התשובה; Wei 2022, שיפור ב-15 עד 20 אחוזים), persona prompting (הגדרת זהות למודל - 'אתה דרמטולוג מומחה'), structured output (פלט בפורמט מובנה - JSON, Markdown) • אסטרטגיות למניעת hallucinations (הזיות - המודל ממציא מידע בביטחון) המאמרים המכוננים שנסקור: • Wei et al CoT (NeurIPS 2022) • Kojima Zero-Shot Reasoners (2022) • Brown GPT-3 (2020) - גילה את In-Context Learning (יכולת המודל ללמוד משימה מהקלט - בלי אימון מחדש) • Prompt Report של Schulhoff (University of Maryland, 32 מחברים) - סקר 58 טכניקות שונות בסיום - 5 take-aways תפעוליים עם prompts מוכנים לדרמטולוג ישראלי.
📚
32
מחברי Prompt Report 2024
📈
+18%
שיפור CoT על MultiArith
🎯
86.5%
דיוק Med-PaLM 2 על MedQA
🔧
58
טכניקות prompting שזוהו
🧩
5
רכיבי prompt טוב (RCT-FC)

💡 מה חייבים לזכור מהמאמר הזה

🎯Prompt engineering הוא הכישור הקריטי של 2026: לא מחליף תכנות אבל הופך כל אחד למפעיל יעיל של LLM. דרמטולוג שיודע לבצע prompt engineering מפיק פי 5 ערך לעומת מי שלא יודע.
💡Chain-of-Thought (Wei 2022): הוספה פשוטה של 'Let's think step by step' משפרת ביצועים על שאלות מורכבות ב-15 עד 20 אחוזים (Kojima 2022). עובד גם בעברית. החזק ביותר במודלים גדולים (יותר מ-100B params - מיליארדי פרמטרים, גודל המודל).
📚Few-shot prompting (3 עד 5 דוגמאות) עדיף על zero-shot ברוב המשימות. ב-medical reasoning: שיפור של 10 עד 25 אחוזים. בכתיבת clinical notes: שיפור עקביות של יותר מ-30 אחוזים.
📋Structured Output (JSON, Markdown tables) מקטין hallucinations ומגדיל אמינות. במקום 'ספר על חולה X' - 'הנפק אבחנה ב-JSON לפי schema זה (תבנית מוגדרת מראש לפלט)'. שיפור של 30 עד 50 אחוזים בדיוק.
🎭Persona prompting ('אתה דרמטולוג מומחה ב-Mohs'): שיפור איכות תגובה ב-3 עד 10 אחוזים. אך יש להיזהר - persona לא מקנה ידע, רק מכוונת את הסגנון. סכנה: 'expert persona' מסיר את האזהרות של המודל.
🛡️Anti-hallucination תמיד: RAG (המודל שולף מסמכים אמיתיים לפני שעונה - מקטין הזיות) + citation enforcement (לחייב את המודל לצטט מקורות) + 'I don't know prompting' + temperature reduction (פרמטר יצירתיות. 0=דטרמיניסטי, 1=יצירתי). שילוב זה מוריד hallucinations מ-30 אחוזים ל-2 עד 3 אחוזים. בקליניקה: לעולם אין לסמוך על LLM שיצטט מאמר ללא verification ב-PubMed.

🧩 אנטומיה של Prompt - 5 רכיבים של RCT-FC

Prompt הוא הקלט שמשתמש שולח ל-LLM. נראה פשוט אבל יש לו מבנה. המודל רואה שלושה תפקידים בכל שיחה:

System - System message (system prompt) מגדיר את ההקשר הרחב: מי המודל, מהו תפקידו, אילו כללים חלים

User - השאלה הספציפית

Assistant - התשובה

דוגמה ב-Anthropic API:

system: 'אתה דרמטולוג מומחה. ענה בצורה קלינית מקצועית.'

user: 'חולה עם Bullous Pemphigoid עמיד ל-clobetasol. אילו אפשרויות?'

הרכיבים הקריטיים של prompt טוב - RCT-FC:

Role - מי המודל ('אתה רופא ותיק עם 20 שנות ניסיון')

Context - הרקע, כל המידע הדרוש כדי לענות

Task - מה לעשות, באופן ספציפי ('הנפק 5 bullet points עם שמות תרופות, מינונים, ו-evidence level')

Format - איך תיראה התשובה (JSON, Markdown table, פסקה רציפה)

Constraints - מגבלות ('תשובה בעברית', 'פחות מ-200 מילים', 'ציטוט מקור לכל טענה')

שגיאה נפוצה - prompts פתוחים ('עזור לי עם מטופל X'). התוצאה: תשובה כללית, hallucinations, לא שימושית. הפתרון: structured prompts. הוספת 5 דקות של ניסוח prompt חוסכת 30 דקות של תיקונים.

Token (יחידת טקסט בסיסית) limits של מודלי 2026, כלומר Context window (אורך הקלט שהמודל יכול לעבד בבת אחת):

GPT-5.5 (24 באפריל 2026) - 256K context, 5/30 דולר ל-1M tokens (input/output)

Claude Opus 4.7 (16 באפריל 2026) - 1M context standard, xhigh effort level, 5/25 דולר

Gemini 3.1 Pro (19 בפברואר 2026) - 2M context

אורך ה-prompt מגביל - כל מה שמכניסים בא על חשבון התשובה.

Prompt רע:

'ספר לי על psoriasis'

תוצאה: תשובה כללית, ויקיפדית, לא קלינית, ללא ציטוטים

Prompt טוב:

'אתה דרמטולוג מומחה. אני מטפל בחולה עם plaque psoriasis בינוני (PASI 12, BSA 8 אחוזים) שכשל ב-MTX (ירידה ב-ANC) וב-cyclosporine (HTN חמור). תן לי 5 אופציות ביולוגיות מדורגות לפי evidence, כל אחת עם: שם תרופה ומינון, מנגנון פעולה, PASI-75 ב-week 16 ממחקרי phase 3 (באחוזים), safety profile עיקרי, קונטרא-אינדיקציות. פורמט: Markdown table. אורך: כ-300 מילים סה״כ. ציין מקור (registry trial) לכל מספר'

תוצאה: טבלה מובנית עם נתונים, ציטוטים, מדורגת. מוכנה להשתלב במכתב או בדיון

ההבדל בזמן: 30 שניות לכתיבת prompt טוב חוסכות 10 דקות תיקון

promptstructuredדוגמה
5 הרכיבים:

R - Role: 'אתה דרמטולוג ב-Mayo Clinic', 'אתה statistician מומחה ב-survival analysis'. מכוון את הסגנון. מודלים חזקים פחות תלויים ברכיב זה - הם משתפרים מעט (כ-10 אחוזים)

C - Context: כל המידע הרלוונטי. תיק רפואי, ערכי מעבדה, ספרות. ללא context - המודל מנחש

T - Task: מה לעשות, ברמת פירוט. 'סכם' - גרוע. 'הנפק 5 bullet points של 10 עד 20 מילים כל אחד, ממוקדים ב-clinical relevance' - מצוין

F - Format: JSON, Markdown, plain text, table, list. הגדרה ברורה מקטינה variance (פיזור התשובות בין הרצות שונות)

C - Constraints: אורך, שפה, סגנון, מה לא לעשות. 'פחות מ-200 מילים, אם אינך יודע אמור זאת, אל תמציא מקורות'

RCT-FC כסיסמה: זכירת 5 הרכיבים מעלה את האיכות

RCT-FCmnemonicstructured
ה-context window גדל בקצב מטורף:

GPT-3 (2020) - 2K tokens

GPT-4 (2023) - 8K עד 32K

Claude 3 (2024) - 200K

Claude Opus 4.7 (16 באפריל 2026) - 1M context standard, xhigh effort level

GPT-5.5 (24 באפריל 2026) - 256K context (1.05M במצב מורחב)

Gemini 3.1 Pro (19 בפברואר 2026) - 2M

מה אפשר לעשות עם 1M tokens?

לקרוא ספר רפואי שלם

100 מאמרים בבת אחת

תיק חולה של 10 שנים

פרוטוקול clinical trial של 47 עמודים

הבעיה: lost-in-the-middle effect (Liu 2023 - המודל זוכר היטב את ההתחלה ואת הסוף, אבל מתעלם מהאמצע). חידוש 2026 - benchmark MRCR v2 (Multi-Round Co-reference על 1M tokens) הראה קפיצה: GPT-5.4 - 36.6 אחוזים, GPT-5.5 - 74.0 אחוזים. שיפור פי 2 ב-long context

הפתרון:

למקם מידע חשוב בתחילת ה-prompt

לחזור עליו בסוף

להשתמש ב-RAG (retrieval - שליפת מסמכים רלוונטיים) במקום long context בטקסטים גדולים מאוד

עלות (מאי 2026):

Claude Opus 4.7 - 5 דולר ל-1M input, 25 דולר ל-1M output

GPT-5.5 - 5 דולר ל-1M input, 30 דולר ל-1M output (פי 2 מ-GPT-5.4 לכל token, אך 5.5 משתמש ב-40 אחוזים פחות tokens לאותה משימה - העלות האפקטיבית רק כ-20 אחוזים יותר)

GPT-5.5 Pro - 30 דולר input, 180 דולר output

1M context לא זול לשימוש שגרתי. כדאי לשמור ל-deep research, לא לכל שאלה

contextlong-contextlost-in-middle

📚 Zero-shot, Few-shot, ו-In-Context Learning

Zero-shot prompting הוא הצורה הפשוטה ביותר: לשאול שאלה, לקבל תשובה, ללא דוגמאות.

דוגמה: 'תרגם melanoma לעברית'. המודל יענה 'מלנומה'.

מאפיינים:

עובד היטב למשימות פשוטות שהמודל ראה רבות ב-training (אימון המודל)

נכשל במשימות ספציפיות, לא-סטנדרטיות, או שדורשות דפוס מסוים

Few-shot prompting מוסיף דוגמאות.

דוגמה - 'תרגם רשימה של מונחים. אנגלית -> עברית':

(1) Melanoma -> מלנומה

(2) Psoriasis -> פסוריאזיס

(3) Eczema -> אגזמה

(4) Bullous pemphigoid -> ?

המודל יענה 'פמפיגואיד בולוזי'. עקבי יותר, מדויק יותר. בדרך כלל 3-5 דוגמאות מספיקות.

Brown et al (GPT-3 paper, 2020) הראו שעם 32 דוגמאות, GPT-3 הגיע לביצועים של fine-tuned BERT (מודל מאומן מחדש על משימה ספציפית) במשימות סיווג - ללא שינוי משקלים (המספרים הפנימיים שהמודל לומד באימון). זה היה הגילוי המהפכני: ICL (In-Context Learning) - המודל לומד משימה רק מהקלט.

מדוע זה עובד? המודל ראה במהלך training מיליארדי דוגמאות של דפוסים. ב-prompt עם דוגמאות, הוא מזהה את הדפוס ומשלים אותו.

יישומים רפואיים:

Clinical note formatting

Differential diagnosis

Drug interaction analysis

ICD-10 coding

הסכנה: דוגמאות מטות את המודל. אם כל הדוגמאות מובילות לאבחנה X, המודל יטה לאבחנה X גם במקרה שונה. הפתרון: דוגמאות מגוונות.

Prompt: 'אתה דרמטולוג. כתוב סיכום ביקור בפורמט הבא:'

דוגמה 1:

תלונה: גירוד מתמשך 3 חודשים

בדיקה: פלאקים אריתמטיים+scaling במרפקים, ברכיים, קרקפת. PASI 8

אבחנה: Psoriasis vulgaris

תוכנית: Clobetasol 0.05% bid x 4 weeks; CTC ATPK + ECG; שקול MTX אם persistent

שתי דוגמאות נוספות באותו פורמט

לאחר מכן: 'כעת עבור המקרה הבא: אישה 45, פריחה אדומה בולטת ב-malar area, מחמירה בשמש, עייפות, ANA חיובי 1:640'

המודל יחזיר במבנה זהה

תועלת:

עקביות בין סיכומים

זמן כתיבה קצר

פחות שגיאות structuring

few-shotclinical notesפורמט
ICL:

prompt עם דוגמאות, ללא שינוי משקלים

עלות: per-prompt (0.001 עד 0.10 דולר)

יכולת: לכל משימה, מיד

גמישות: שינוי דוגמאות = שינוי התנהגות

מגבלה: token limits, lost-in-middle

Fine-tuning (אימון מחדש של המודל על נתונים ספציפיים):

עדכון משקלי המודל על דאטה ספציפית

עלות: 100 עד 10,000 דולר לאימון, ולאחריו cheap inference (הרצת המודל בעלות נמוכה)

יכולת: ביצועים מעולים במשימה ספציפית

גמישות: אחרי אימון - קשה לשנות

דורש: 100 עד 1000 דוגמאות מתויגות (ולעיתים יותר), משאבי חישוב, מומחיות

ב-2026: ברוב המקרים ICL מספיק. fine-tuning שמור ל:

משימה מאוד נפוצה (כל יום)

דאטה רגיש שלא רוצים לשלוח ל-API

ביצועים שב-ICL אינם מספיקים

דוגמה:

סיווג ICD-10 על 10,000 ביקורים ביום משתלם ל-fine-tuning

סיכום ביקור פעם ביום מתאים ל-ICL

ICLfine-tuningהשוואה
דוגמה: prompt ל-DDx של 'פריחה אדומה'. בכל 3 הדוגמאות האבחנה היא atopic dermatitis. כעת שאלה על 'פריחה אדומה במבוגר עם psoriasis history'. המודל מטה ל-AD מבלי לשקול psoriasis flare. זהו bias מהדוגמאות

הפתרון:

דוגמאות מגוונות - 3 דוגמאות עם 3 אבחנות שונות

Anti-examples - 'דוגמה זו אינה psoriasis'

Explicit instruction - 'שקול את כל ה-DDx, לא רק את הדוגמאות'

מקרה אמיתי: bias ב-radiology AI שאומן על מקרים מסוימים, נכשל בשטח

בקליניקה: זהירות עם prompts שכוללים תשובות 'ידועות' - יכול להחדיר bias

biasfew-shotסכנה

💡 Chain-of-Thought - Let's Think Step by Step

Chain-of-Thought (CoT) הוא אחד הגילויים החשובים של 2022. Wei et al (Google, NeurIPS 2022) גילו שאם מבקשים מ-LLM לחשוב צעד-צעד לפני שעונה, הביצועים על שאלות מורכבות עולים דרמטית.

הדוגמה הקלאסית - שאלת math word problem:

ללא CoT: GPT-3 על MultiArith (מבחן בעיות מילוליות במתמטיקה) - 17.7 אחוזים

עם CoT few-shot: 78.7 אחוזים

שיפור פי 4

כיצד זה עובד? במקום שהמודל יקפוץ מהקלט לתשובה, הוא מייצר thought trace (שטח עבודה - המודל יכול לכתוב חישובי ביניים) - שלבי הסקה. כל שלב הוא טקסט שמסייע ב-self-attention (מנגנון פנימי במודל שמקשר בין מילים בקלט).

שתי גרסאות עיקריות:

Few-shot CoT - דוגמאות עם reasoning מפורש

Zero-shot CoT - הוספת המילים 'Let's think step by step' (Kojima 2022). שיפור של 18 אחוזים ב-MultiArith ב-GPT-3, ללא דוגמאות

גם בעברית עובד: 'בוא נחשוב צעד אחר צעד'.

יישומים רפואיים:

Differential diagnosis - בקש מהמודל לחשוב על כל אבחנה בנפרד

Drug interaction analysis

Pathology interpretation

Treatment selection

וריאציות מתקדמות:

Self-Consistency (הריץ את הprompt מספר פעמים ולקח majority vote; Wang 2022) - שיפור של 5 עד 15 אחוזים נוספים

Tree-of-Thoughts (לחקור מספר נתיבי הסקה ולבחור הטוב; Yao 2023)

Reasoning models (מודל שמובנה לחשוב לפני תגובה - o1 של OpenAI, R1 של DeepSeek, Claude Opus 4.7 thinking mode)

Benchmarks חדשים 2026 שמראים את הכוח של reasoning + CoT:

Terminal-Bench 2.0 (סוכני terminal): GPT-5.5 - 82.7 אחוזים, Claude Opus 4.7 - 69.4 אחוזים

FrontierMath Tier 4 (בעיות מתמטיקה ברמה מחקרית): GPT-5.5 - 35.4 אחוזים, Claude Opus 4.7 - 22.9 אחוזים, Gemini 3.1 Pro - 16.7 אחוזים

MedQA נשאר benchmark רלוונטי לרפואה (Med-PaLM 2 - 86.5 אחוזים, מודלי 2026 מעבר לזה)

Prompt רגיל:

'אישה 35, פריחה אריתמטית בפנים מחמירה בשמש, ANA 1:320. מה האבחנה?'

תגובה: 'Lupus' (קצרה, לא ממוקדת)

Prompt עם CoT: 'אישה 35, פריחה אריתמטית בפנים מחמירה בשמש, ANA 1:320. בוא נחשוב צעד-צעד:'

ניתוח קליני - מה הדפוס?

רשום DDx של 5+ אבחנות עם likelihood לכל אחת

אילו features תומכות / סותרות

איזה bedside test לבחור

איזה lab work להוסיף

ולבסוף המסקנה

תגובה - רשימה מובנית:

Photosensitive facial rash + ANA suggests CTD

DDx: SLE (40%), SCLE (25%), DLE (15%), Rosacea (10%), Photodermatitis (5%), DM (5%)

Bedside: woods lamp, dermoscopy, lupus band test if available

Anti-dsDNA, anti-Sm, anti-Ro/La, C3/C4, CBC, CMP, urinalysis

Most likely SCLE if photosensitive predominant; SLE if systemic features

טוב יותר באופן דרמטי

CoTDDxדוגמה
התיאוריה: ב-Transformer (ארכיטקטורת המודל - הבסיס לכל ה-LLMs), כל token שנוצר משפיע על ה-tokens הבאים דרך self-attention. כשהמודל מייצר 'Let's think step by step. First, the patient has X. So the diagnosis pathway is...', טקסט זה מקודד מידע שעוזר ב-tokens הבאים

ראיות:

CoT עובד רק במודלים גדולים (יותר מ-100B params). מודלים קטנים לא ייצרו thought trace שימושי

CoT עובד גם בעברית, סינית, ספרדית - לא תלוי בשפה

'Faithful CoT' (Lyu 2023): המודלים לעיתים מנמקים נכון אבל מגיעים לתשובה לא קשורה - כלומר ה-reasoning הוא הצגה ולא מציאות

Reasoning models ב-2024 עד 2025 (o1, R1) מטמיעים את ה-CoT לתוך המודל - מאומנים ספציפית להפיק thought trace טוב

עלות ב-token count: thought traces יכולים להיות 1,000 עד 10,000 tokens, יקר

תיאוריהattentionscratchpad
שאלות שלא צריכות CoT:

Factual lookup ('מה ה-CD20?')

Translation

Summarization של טקסט קצר

Creative writing

שאלות שצריכות CoT:

Math problems

Multi-step reasoning

Differential diagnosis

Logical puzzles

Code debugging

Drug interaction with multiple steps

עלות:

CoT מוסיף פי 2 עד 5 ב-tokens. אם השאלה אינה דורשת זאת - בזבוז כסף

ה-latency (זמן ההמתנה לתשובה) עולה. ב-CoT עם reasoning model (o3) - תשובה לשאלה פשוטה יכולה לקחת 60 שניות

בעברית: עוד יותר tokens (פי 3 עד 4 מאנגלית)

שיקול דעת:

נסה zero-shot

אם לא מספיק - הוסף CoT

אם עדיין לא - few-shot CoT

אם עדיין לא - reasoning model

לא תמידבזבוזdecision

🎭 Persona Prompting ו-Role Setting

Persona prompting היא הטכניקה של הגדרת זהות למודל לפני שאלה.

דוגמאות:

'אתה דרמטולוג ב-Mayo Clinic עם 20 שנות ניסיון'

'אתה epidemiologist ב-WHO'

המחקר על persona prompting מראה תוצאות מעורבות:

Singhal et al (Med-PaLM, Nature 2023) - עם expert persona, Med-PaLM שיפר ביצועים ב-MedQA (1,273 שאלות USMLE - הסטנדרט להערכת LLMs ברפואה) ב-3 עד 5 נקודות

Salewski 2023 - שיפור גבוה יותר במשימות creativity וב-niche domains

מדוע זה עובד? המודל ראה במהלך אימון מיליארדי טקסטים שכתבו אנשים מתפקידים שונים. כשמגדירים persona, המודל מתכוונן לסגנון, vocabulary, ועומק שמתאים לתפקיד.

אבל - וזה חשוב - persona לא מקנה ידע. המודל לא יודע יותר רפואה אם נגיד לו 'אתה דרמטולוג'. הוא רק יענה בסגנון של דרמטולוג.

שני שימושים בטוחים:

Style adjustment - לקבל תשובה בסגנון מסוים

Domain framing - לקבל תשובה ממוקדת בתחום

הסיכון: persona 'expert' מסיר את ה-uncertainty markers (סימני אי-ודאות בתשובה) של המודל. במקום 'אינני בטוח' - 'אני יודע ש'. מסוכן ברפואה.

שיטות מתקדמות:

Multi-persona (Wang 2023, Self-Collaboration) - מספר personas מתווכחים אחד עם השני, ואז מגיעים למסקנה. שיפור על single persona ב-5 עד 10 אחוזים

שאלה: 'הסבר מהי psoriasis'

Persona 1 - 'אתה רופא שכותב למטופל בן 60 ללא רקע רפואי':

'פסוריאזיס היא מחלת עור כרונית שגורמת לפלאקים אדומים מכוסים בקשקש כסוף. היא אינה מדבקת ואינה קשורה להיגיינה. נגרמת על ידי תגובה אוטואימונית - מערכת החיסון שלך תוקפת בטעות את העור. קיים מגוון טיפולים יעילים'

Persona 2 - 'אתה דרמטולוג שכותב לקולגה גסטרואנטרולוג':

'Plaque psoriasis is a chronic Th17-mediated inflammatory dermatosis with characteristic well-demarcated erythematous plaques with silvery scale. Comorbidities include psoriatic arthritis (30%), MetS (40%), and IBD (incident risk OR 3-4)'

Persona 3 - 'אתה researcher':

'Psoriasis is a chronic, immune-mediated dermatosis with prevalence 2-3% globally. Pathogenesis: IL-23/Th17 axis dysregulation'

בחר persona לפי הקהל:

מטופל

קולגה

מאמר

personastyleקהל
דוגמה: שאלה 'מה היעילות של drug X ב-disease Y?'

ללא persona:

'I don't have specific data on this. Please refer to clinical trials or guidelines'

עם persona 'אתה pharmacology expert':

'Studies show X has 75% efficacy with NNT of 3. Recommended dose is 200mg BID...' (יכול להיות hallucination מלא!)

מדוע? persona 'expert' משדר למודל 'היה confident'. המודל מאבד את ה-uncertainty markers ומתחיל להמציא

הפתרון:

הוסף explicit 'If you don't know, say so. Don't fabricate'

דרוש citations - 'כל סטטיסטיקה צריכה PMID'

Verify - אם המודל אומר 75%, בדוק ב-PubMed לפני שאתה מצטט

המסר: persona היא כלי שימושי - אבל לא תחליף ל-RAG, fact-checking, או user verification

בקליניקה: לעולם אין להחליט על מינון תרופה רק על בסיס persona-prompted LLM

סכנהhallucinationpersona
דוגמה לשימוש: מטופל עם BCC חוזר על האף, גיל 80, עם comorbidities. החלטה: Mohs מול radiotherapy מול topical

Prompt: 'Three experts will debate this case:'

Mohs surgeon - prefers surgical excision for cure rate

Radiation oncologist - prefers RT for cosmetic outcome and elderly

Dermatologist - prefers topical for low-risk cases

Each expert: state preferred treatment + 3 reasons

Then: synthesis - what are the trade-offs?

Final: balanced recommendation considering patient's context

התוצאה: 3 perspectives מובנות, debate, synthesis. עשיר בהרבה מ-single persona answer

שיפור על MedQA: 5 עד 10 אחוזים

עלות: פי 3 ב-tokens, יקר. כדאי לשמור להחלטות מורכבות

מתודה דומה: 'Devil's Advocate' - persona אחת מציעה, persona שנייה מתנגדת, ואז המסקנה. עוזר לזהות assumptions ו-blind spots

multi-personadebatesynthesis

📋 Structured Output - JSON, Markdown, Function Calling

המעבר ל-structured output הוא השינוי הדרמטי ביותר באופן שבו רופאים יכולים להשתמש ב-LLMs בפרקטיקה. במקום לקבל פסקה חופשית - לקבל JSON עם schema מוגדר.

דוגמה: במקום 'ספר על המקרה' - 'הנפק JSON עם:

diagnosis: string

ICD10: string

severity: number

treatment_plan: array of strings'

JSON output מאפשר אינטגרציה ישירה: ל-EHR, ל-database, ל-spreadsheet.

היסטוריה:

OpenAI הציגה Function Calling (המודל יכול לקרוא לפונקציות חיצוניות) ב-2023: המודל יכול לקרוא לפונקציות מוגדרות, מקבל schema של פרמטרים, ומחזיר JSON תקני

Anthropic הציגה Tool Use ב-Claude 3 (2024)

ב-2026, structured output מובנה בכל ה-frontier models (המודלים הכי מתקדמים של החברות)

השימושים:

Data extraction - הוצאת מידע ממסמך לטופס

ICD-10 coding - מקבל clinical note, מחזיר ICD-10 codes

Drug interaction screening

Lab interpretation

הטכניקה:

הגדר schema ברור

דרוש output ב-JSON valid

הגדר fallback ל-edge cases (תרחישי קצה - מקרים חריגים)

Validation לאחר המודל

יתרונות:

מקטין hallucinations - כשהפורמט מוגדר, המודל פחות ממציא שדות חדשים

קל לפענוח - parser במקום regex

אינטגרציה קלה למערכות

חסרונות: פחות explanation - JSON לא מסביר reasoning. הפתרון: שדה reasoning ב-schema.

כלים:

Anthropic API

OpenAI API

LangChain

Instructor (Python)

zod (TypeScript)

למי שאינם מפתחים: ChatGPT עם Custom GPT, Claude Projects.

Input:

'Skin biopsy from left cheek shows nodular basal cell carcinoma extending to deep margin. Tumor measures 5mm. Peripheral margins clear. No perineural invasion. Mitotic rate 2/HPF'

Prompt באנגלית: 'Extract from this pathology report into JSON with schema:'

diagnosis

subtype

size_mm

margin_status (peripheral, deep)

perineural_invasion

mitotic_rate

reasoning

Output:

diagnosis: 'Basal cell carcinoma'

subtype: 'Nodular'

size_mm: 5

margin_status: peripheral 'clear' deep 'positive'

perineural_invasion: false

mitotic_rate: 2

reasoning: 'Report explicitly states extending to deep margin (positive deep) but peripheral margins clear'

כעת אפשר לאחסן ב-database, להזין ל-clinic registry, או לשמש ל-decision support

תועלת: 30 דקות עבודה ידנית הופכות ל-30 שניות

pathologyJSONextraction
שימוש: כאשר הפלט יוצג לאדם בעברית/אנגלית, לא למכונה

דוגמה: השוואת תרופות.

Prompt: 'השוו 5 ביולוגיות ל-psoriasis. הנפק Markdown table עם עמודות:'

שם

מנגנון

מינון

PASI-75 ב-week 16

AE עיקריים

מחיר ICER (USD)

Output: טבלה עם adalimumab/secukinumab/ixekizumab ועוד, כל אחד עם מנגנון, מינון, אחוז PASI-75, AE, מחיר. קריא, השוואתי, מוכן להצגה

יתרונות:

יתרון על JSON - human-readable, אפשר להעתיק ולהדביק ל-Word/PowerPoint

יתרון על plain text - מבנה ברור

ChatGPT/Claude/Gemini מציגים Markdown יפה ב-UI. ב-API מקבלים raw markdown

Markdowntableהשוואה
דוגמה: שאלה רפואית 'מה היעילות של dupilumab ב-BP?'

מודל ללא tools: יענה מ-memory (יכול להיות hallucination)

מודל עם tools:

(1) 'I'll search PubMed for recent dupilumab + BP studies'

(2) Calls function pubmed_search(query='dupilumab bullous pemphigoid', years='2022-2026')

(3) מקבל JSON עם 15 articles

(4) 'I'll fetch full text of the 3 most relevant'

(5) Calls fetch_pmid([12345, 67890, 11223])

(6) קורא, מנתח

(7) 'Based on these 3 studies, dupilumab shows CR in 88.9 percent with low recurrence...'

זהו agentic AI

כלים:

Anthropic Tool Use

OpenAI Functions

LangChain agents

Claude Code (terminal-native)

בשנת 2026 זהו הסטנדרט - לא רק chatbot, אלא assistant שמבצע פעולות. בקליניקה: שילוב עם UpToDate, PubMed, EHR, lab systems

function callingagentictools

🛡️ Hallucination Mitigation - איך להוריד את ה-30%

ההזיה (hallucination) היא הבעיה המרכזית של LLMs בפרקטיקה רפואית.

שיעורי hallucinations:

בציטוטים - 30 עד 40 אחוזים (GPT-4), 15 עד 25 אחוזים (GPT-5), 8 עד 12 אחוזים (Claude Opus 4.7)

במספרים מדויקים - 20 עד 40 אחוזים

בתרופות לאינדיקציות - 10 עד 20 אחוזים

בפרטים קליניים דקיקים - 30 עד 50 אחוזים

הסיבה: LLMs לא מאחסנים עובדות אלא תבניות. התשובה נוצרת על בסיס ה-token הסביר ביותר, לא על בסיס האמת.

טכניקות mitigation:

RAG (Retrieval-Augmented Generation) - היעילה ביותר. במקום שהמודל יסתמך על ידע פנימי, הוא שולף מ-knowledge base (מאגר מסמכים אמיתי) אמיתי. שיעור hallucinations יורד מ-30 אחוזים ל-3 עד 5 אחוזים. כלים: NotebookLM, Perplexity, Claude Projects, ChatGPT Search

Citation Enforcement - דרוש ציטוט לכל טענה

'I don't know' Prompting - explicitly מאפשר לומר אינני יודע

Self-Verification - בקש מהמודל לבדוק את תשובתו

Temperature reduction - temperature=0 מקטין אקראיות

Multi-model verification - שאל את אותה שאלה ב-2 מודלים שונים

Domain restriction - 'רק על psoriasis. אם השאלה אינה קשורה - אמור מחוץ לתחום'

בפועל: שילוב של RAG + citation enforcement + self-verification מוריד hallucinations מ-30 אחוזים ל-2 עד 3 אחוזים. מספיק לרוב המשימות הקליניות.

שאלה (ב-Claude 3.5 Sonnet, יוני 2024): 'אילו מחקרים בחנו את היעילות של dupilumab ב-Bullous Pemphigoid? ספק ציטוטים'

תשובת המודל:

(1) Maglie R et al. Dupilumab in BP. JAAD 2022;87:543-548

(2) Kremer N et al. Anti-IL-4 receptor for BP refractory cases. JEADV 2023;37:e234-e240

(3) Park CK et al. Dupilumab for elderly BP. Br J Dermatol 2023;188:412-419

בדיקה ב-PubMed:

(1) קיים אבל הציטוט שגוי - JAAD 2022;87:1100-1107 הוא הנכון

(2) לא קיים - אין מאמר Kremer N על BP

(3) קיים אבל הוא Park JH (לא CK), 2023;188:e87-e89, ב-letter

תוצאה: שליש נכון לחלוטין, שליש קיים אבל עם פרטים שגויים, שליש מומצא

זהו הסטנדרט עם LLMs ללא RAG. הפתרון:

יש לוודא כל ציטוט ב-PubMed לפני השימוש

או להשתמש ב-Perplexity/NotebookLM שמספקים ציטוטים מאומתים

hallucinationcitationsאזהרה
Template: 'אתה דרמטולוג זהיר. ענה על השאלה הבאה תוך עמידה בכללים:'

(1) אם אינך בטוח לחלוטין - אמור I don't have reliable information on this

(2) כל מספר/סטטיסטיקה דורשים מקור (PMID, DOI, או guideline + year)

(3) אם אתה מצטט מאמר - ודא שהוא קיים. אם אינך בטוח - אל תצטט

(4) הבחן בין evidence-based (יש RCT) לבין expert opinion (case series, guidelines)

(5) בסיום, ציין confidence level (high/medium/low) ואילו מקורות תומכים

זה מוריד hallucinations ב-20 עד 30 אחוזים. לא 100 אחוזים, אבל באופן משמעותי

דוגמה לתשובה תחת template זה:

'Dupilumab for BP: There is growing case series evidence (Park JH et al, BJD 2023; Maglie R et al, JAAD 2022). I'm not certain of exact remission rates but reported around 70 to 90 percent in case series. No phase 3 RCT yet (LIBERTY-BP ongoing). Confidence: medium. Note: please verify specific numbers in PubMed - my recall of details may be inaccurate'

זהיר ושימושי בהרבה

templatepromptmitigation
4 רכיבי RAG:

Knowledge base - מאגר המסמכים שלך (PDFs של מאמרים, guidelines, clinic protocols)

Embedding model - ממיר טקסט לוקטור (embedding - ייצוג מספרי של טקסט; OpenAI text-embedding-3-large, Cohere embed-v3)

Vector database - שומר embeddings (Pinecone, Weaviate, ChromaDB, או pgvector)

Retrieval - קלט שאלה ואז embed ואז similarity search (חיפוש דמיון בין וקטורים) ואז top-k chunks (k המקטעים הדומים ביותר)

LLM - מקבל chunks + question ומחזיר תשובה מבוססת על ה-chunks

כלים פשוטים ללא קוד:

NotebookLM (Google) - upload PDFs, שאל

Claude Projects - upload files, שאל

Perplexity Spaces - דומה

ChatGPT Custom GPT עם Files

למפתחים:

LangChain

LlamaIndex (frameworks)

למידע מקומי בקליניקה:

AnythingLLM (תוכנת desktop)

Open WebUI (web interface)

עלויות:

NotebookLM - חינם

Claude Pro - 20 דולר לחודש

Perplexity Pro - 20 דולר לחודש

המלצה:

למחקר אקדמי - NotebookLM מתאים ביותר

למידע קליני - AnythingLLM (on-premise, privacy-friendly - רץ מקומית, שומר על פרטיות)

RAGknowledge baseפתרון

🇮🇱 Take-aways לדרמטולוג בישראל ב-2026

Prompt engineering הוא מיומנות שלומדים באמצעות שימוש. קריאה זו לא הופכת אותך למומחה - שעה ביום למשך חודש כן.

ההצעה המעשית - התחל עם 3 שימושים בסיסיים:

Literature search עם NotebookLM - הורד 5 עד 10 מאמרים על נושא, העלה ל-NotebookLM, שאל. תוך שבועיים תרגיש שזה משנה

Drafting מכתבים - במקום להתחיל מאפס. prompt: 'כתוב מכתב הפניה ל-Mohs surgeon על חולה X. כלול: indication, history, dermoscopy findings, anatomic concerns'. 80 אחוזים מוכן, אתה משלים ל-100 אחוזים. חוסך 5 עד 10 דקות למכתב

Differential diagnosis support - שאלה פתוחה ב-Claude/GPT עם CoT. אין לסמוך על התשובה לבדה - אבל היא מספקת 'מה חשבתי?' ו'מה פספסתי?'

טכניקות שכן צריך לזכור:

RCT-FC (Role, Context, Task, Format, Constraints)

CoT לשאלות מורכבות

Few-shot ל-formatting

JSON ל-data extraction

RAG ל-literature

Anti-hallucination prompts תמיד

בעברית:

עובד טוב יותר ב-Claude Opus 4.7 וב-Gemini 3.1 Pro מאשר ב-GPT

אנגלית עדיין מדויקת יותר

הצעה: שאלה באנגלית, תשובה באנגלית, ודא נכונות, ולאחר מכן בקש 'תרגם לעברית רפואית מקצועית'

הצעדים:

בחר כלי אחד

הקצה 30 דקות ביום למשך חודש

השתמש ב-3 שימושים בסיסיים

פתח prompt library (אוסף prompts אישי לשימוש חוזר) אישי

הוסף RAG כשתהיה מוכן

5 prompts בסיסיים:

Literature query: 'אתה researcher במחלה X. סכם state-of-art ב-2026 ב-300 מילים: pathophysiology, key trials, current treatments, future directions. ציטוט PMID לכל הצהרה'

DDx: 'אישה 35, פריחה Y. (פרטים). בוא נחשוב צעד-צעד: ניתוח קליני, DDx של 5 עם likelihoods, features תומכות/סותרות, bedside tests, labs, המסקנה'

Referral letter: 'כתוב מכתב הפניה ל-Mohs surgeon, אונקולוג על חולה X. כלול: indication, brief history, key findings, specific question. עברית מקצועית, פורמט קצר, פסקה אחת לכל סעיף'

Pathology to JSON: 'Extract from this pathology report into JSON with schema diagnosis, subtype, size, margins, special_features. Pathology: paste'

Drug interaction check: 'Patient takes list. Check for clinically significant interactions. Output table: drug pair, mechanism, severity, recommendation'

העתק לקובץ משותף, שמור, השתמש שוב ושוב

librarypromptsמוכן
ביצועים של LLMs בעברית רפואית:

GPT-5.5 (24 באפריל 2026) - טוב, אבל לעיתים literal translation

Claude Opus 4.7 (16 באפריל 2026) - טוב יותר מ-GPT בעברית, עם יותר ניואנס

Gemini 3.1 Pro (19 בפברואר 2026) - טוב, Google משקיעה ב-multilingual (תמיכה רב-לשונית)

Llama 4 (5 באפריל 2025) - בינוני

Mistral - חלש

MedGemma 1.5 - לא אומן ספציפית בעברית, חלש

Tokenization (חלוקת הטקסט ליחידות): עברית = 3 עד 4 tokens למילה (אנגלית = 1). כלומר prompt של 1,000 מילים בעברית = 4,000 tokens. יקר יותר, אורך יותר

שגיאות נפוצות:

Translation literal: 'diagnosed with melanoma' מתורגם ל'אובחן עם מלנומה' במקום 'אובחן כסובל ממלנומה'

שילוב לעז שגוי

שמות תרופות: hyphenation לא תמיד נכון

שיטות:

שיטת hybrid - prompt באנגלית, תשובה באנגלית. ערוך לפי הצורך. 'תרגם לעברית רפואית מקצועית, השתמש בלעז כשמקובל'. זו השיטה המיטבית

אופציה אחרת - prompt בעברית עם דוגמאות בעברית - הכל בעברית עד הסוף

עבריתhybridtokenization
5 take-aways:

הירשם ל-NotebookLM (חינם) ול-Claude Pro או ChatGPT Plus (20 דולר לחודש). 30 דקות ביום למשך חודש

הקם prompt library אישי - תיקייה ב-Notion/OneDrive עם 10 prompts ראשונים: literature query, DDx, referral, pathology JSON, drug interactions. בשלושת השבועות הראשונים: עדכן בכל פעם שמצאת prompt טוב

RCT-FC + CoT - שלוש אותיות (mnemonic) שצריך לזכור. כל prompt מורכב ייבדק מול הרשימה. CoT ל-DDx ול-treatment selection

Anti-hallucination always - בכל שאלה רפואית, שלב את ה-template: 'If unsure, say so. Cite sources. Distinguish evidence-based from expert opinion'

RAG ל-literature - NotebookLM הוא הכלי לכך. הורד 5 עד 10 מאמרים, העלה, שאל. תוך חודש זה הופך ל-second nature

בונוס:

עקוב אחר @AnthropicAI ו-@OpenAI ב-X לעדכונים שבועיים

5 דקות ביום של מעקב אחרי דמויות AI מובילות (Andrej Karpathy, Eric Topol, Jason Wei) מקנה ידע רב

take-awaysפרקטיקהישראל
🔑

שורה תחתונה

Prompt engineering אינו אומנות שחורה. זוהי מיומנות שמתבססת על 5 רכיבים (RCT-FC: Role, Context, Task, Format, Constraints), כמה טכניקות יסוד (zero-shot, few-shot, CoT, structured output, persona), ואסטרטגיות mitigation (הפחתה) ל-hallucinations (RAG, citation enforcement, self-verification). מי שיודע אותן ישתמש ב-LLM פי 5 יותר יעיל ממי שלא. השיפור הקריטי בא מ-CoT (הוספה פשוטה של 'Let's think step by step') ומ-RAG (NotebookLM, Claude Projects) להפחתת hallucinations.

הכיוון לדרמטולוג בשנת 2026: Prompt engineering הוא מיומנות חדשה שכל רופא צריך. השקעה של 30 דקות ביום למשך חודש שווה פרודוקטיביות שגדלה פי 3. הצעדים: התחל עם 3 שימושים (literature, drafting, DDx), בנה prompt library, השתמש ב-RCT-FC + CoT, ותמיד הוסף anti-hallucination guards. בעברית עובד אבל פחות טוב מאנגלית - שילוב hybrid הוא הפתרון. זה אינו תחליף לידע - זהו מכפיל כוח לידע שכבר יש לך.

📋 פרטי מקור ומחבר

מאת: ד"ר יהונתן קפלן

מומחה ברפואת עור ומין | מנתח מוז (FACMS)

📅 פורסם: 1.5.2026🔄 עודכן: 1.5.2026

מבוסס על:

The Prompt Report: A Systematic Survey of Prompting Techniques

Schulhoff S, Ilie M, Balepur N, et al.

arXiv, 2024

הערת עריכה: תוכן זה נכתב ונערך על ידי ד"ר יהונתן קפלן ומבוסס על המאמר המקורי.

אין להסתמך על תוכן זה ללא קריאת המקור המלא.