arXiv · 2024University of Maryland, OpenAI, Microsoft, Stanford (32 authors)

Prompt Engineering לרופא: מ-zero-shot ל-Chain-of-Thought
מדריך מעשי לרופא: אנטומיה של פרומפט, Chain-of-Thought, few-shot, structured output ואסטרטגיות להפחתת hallucinations

The Prompt Report: A Systematic Survey of Prompting Techniques

✍️ Schulhoff S, Ilie M, Balepur N, et al.

📋 תמונה רחבהPrompt Engineering לרופא: מ-zero-shot ל-Chain-of-Thought

🎯 בקצרה: על מה מדובר?

Prompt Engineering הוא הכישור הקריטי של 2026 - לא מחליף תכנות אבל הופך כל אחד למפעיל יעיל של LLM (Large Language Model - מודל שפה גדול). ב-Deep Dive זה נסקור: • אנטומיית ה-prompt (System/User/Assistant - תפקידים בשיחה: System=הוראות גלובליות, User=השאלה, Assistant=התשובה) • 5 הרכיבים של prompt טוב (RCT-FC: Role, Context, Task, Format, Constraints) • הטכניקות המרכזיות: zero-shot (שאלה ישירה ללא דוגמאות), few-shot (הוספת 3-5 דוגמאות בקלט כדי שהמודל ילמד את הדפוס), Chain-of-Thought (לבקש מהמודל לחשוב צעד-צעד לפני התשובה; Wei 2022, שיפור ב-15 עד 20 אחוזים), persona prompting (הגדרת זהות למודל - 'אתה דרמטולוג מומחה'), structured output (פלט בפורמט מובנה - JSON, Markdown) • אסטרטגיות למניעת hallucinations (הזיות - המודל ממציא מידע בביטחון) המאמרים המכוננים שנסקור: • Wei et al CoT (NeurIPS 2022) • Kojima Zero-Shot Reasoners (2022) • Brown GPT-3 (2020) - גילה את In-Context Learning (יכולת המודל ללמוד משימה מהקלט - בלי אימון מחדש) • Prompt Report של Schulhoff (University of Maryland, 32 מחברים) - סקר 58 טכניקות שונות בסיום - 5 take-aways תפעוליים עם prompts מוכנים לדרמטולוג ישראלי.

📚

מחברי Prompt Report 2024

📈

+18%

שיפור CoT על MultiArith

🎯

86.5%

דיוק Med-PaLM 2 על MedQA

🔧

טכניקות prompting שזוהו

🧩

רכיבי prompt טוב (RCT-FC)

💡 מה חייבים לזכור מהמאמר הזה

🎯Prompt engineering הוא הכישור הקריטי של 2026: לא מחליף תכנות אבל הופך כל אחד למפעיל יעיל של LLM. דרמטולוג שיודע לבצע prompt engineering מפיק פי 5 ערך לעומת מי שלא יודע.

💡Chain-of-Thought (Wei 2022): הוספה פשוטה של 'Let's think step by step' משפרת ביצועים על שאלות מורכבות ב-15 עד 20 אחוזים (Kojima 2022). עובד גם בעברית. החזק ביותר במודלים גדולים (יותר מ-100B params - מיליארדי פרמטרים, גודל המודל).

📚Few-shot prompting (3 עד 5 דוגמאות) עדיף על zero-shot ברוב המשימות. ב-medical reasoning: שיפור של 10 עד 25 אחוזים. בכתיבת clinical notes: שיפור עקביות של יותר מ-30 אחוזים.

📋Structured Output (JSON, Markdown tables) מקטין hallucinations ומגדיל אמינות. במקום 'ספר על חולה X' - 'הנפק אבחנה ב-JSON לפי schema זה (תבנית מוגדרת מראש לפלט)'. שיפור של 30 עד 50 אחוזים בדיוק.

🎭Persona prompting ('אתה דרמטולוג מומחה ב-Mohs'): שיפור איכות תגובה ב-3 עד 10 אחוזים. אך יש להיזהר - persona לא מקנה ידע, רק מכוונת את הסגנון. סכנה: 'expert persona' מסיר את האזהרות של המודל.

🛡️Anti-hallucination תמיד: RAG (המודל שולף מסמכים אמיתיים לפני שעונה - מקטין הזיות) + citation enforcement (לחייב את המודל לצטט מקורות) + 'I don't know prompting' + temperature reduction (פרמטר יצירתיות. 0=דטרמיניסטי, 1=יצירתי). שילוב זה מוריד hallucinations מ-30 אחוזים ל-2 עד 3 אחוזים. בקליניקה: לעולם אין לסמוך על LLM שיצטט מאמר ללא verification ב-PubMed.

🧩 אנטומיה של Prompt - 5 רכיבים של RCT-FC

Prompt הוא הקלט שמשתמש שולח ל-LLM. נראה פשוט אבל יש לו מבנה. המודל רואה שלושה תפקידים בכל שיחה:

•System - System message (system prompt) מגדיר את ההקשר הרחב: מי המודל, מהו תפקידו, אילו כללים חלים

•User - השאלה הספציפית

•Assistant - התשובה

דוגמה ב-Anthropic API:

•system: 'אתה דרמטולוג מומחה. ענה בצורה קלינית מקצועית.'

•user: 'חולה עם Bullous Pemphigoid עמיד ל-clobetasol. אילו אפשרויות?'

הרכיבים הקריטיים של prompt טוב - RCT-FC:

•Role - מי המודל ('אתה רופא ותיק עם 20 שנות ניסיון')

•Context - הרקע, כל המידע הדרוש כדי לענות

•Task - מה לעשות, באופן ספציפי ('הנפק 5 bullet points עם שמות תרופות, מינונים, ו-evidence level')

•Format - איך תיראה התשובה (JSON, Markdown table, פסקה רציפה)

•Constraints - מגבלות ('תשובה בעברית', 'פחות מ-200 מילים', 'ציטוט מקור לכל טענה')

שגיאה נפוצה - prompts פתוחים ('עזור לי עם מטופל X'). התוצאה: תשובה כללית, hallucinations, לא שימושית. הפתרון: structured prompts. הוספת 5 דקות של ניסוח prompt חוסכת 30 דקות של תיקונים.

Token (יחידת טקסט בסיסית) limits של מודלי 2026, כלומר Context window (אורך הקלט שהמודל יכול לעבד בבת אחת):

•GPT-5.5 (24 באפריל 2026) - 256K context, 5/30 דולר ל-1M tokens (input/output)

•Claude Opus 4.7 (16 באפריל 2026) - 1M context standard, xhigh effort level, 5/25 דולר

•Gemini 3.1 Pro (19 בפברואר 2026) - 2M context

אורך ה-prompt מגביל - כל מה שמכניסים בא על חשבון התשובה.

Prompt רע:

•'ספר לי על psoriasis'

תוצאה: תשובה כללית, ויקיפדית, לא קלינית, ללא ציטוטים

Prompt טוב:

•'אתה דרמטולוג מומחה. אני מטפל בחולה עם plaque psoriasis בינוני (PASI 12, BSA 8 אחוזים) שכשל ב-MTX (ירידה ב-ANC) וב-cyclosporine (HTN חמור). תן לי 5 אופציות ביולוגיות מדורגות לפי evidence, כל אחת עם: שם תרופה ומינון, מנגנון פעולה, PASI-75 ב-week 16 ממחקרי phase 3 (באחוזים), safety profile עיקרי, קונטרא-אינדיקציות. פורמט: Markdown table. אורך: כ-300 מילים סה״כ. ציין מקור (registry trial) לכל מספר'

תוצאה: טבלה מובנית עם נתונים, ציטוטים, מדורגת. מוכנה להשתלב במכתב או בדיון

ההבדל בזמן: 30 שניות לכתיבת prompt טוב חוסכות 10 דקות תיקון

promptstructuredדוגמה

5 הרכיבים:

•R - Role: 'אתה דרמטולוג ב-Mayo Clinic', 'אתה statistician מומחה ב-survival analysis'. מכוון את הסגנון. מודלים חזקים פחות תלויים ברכיב זה - הם משתפרים מעט (כ-10 אחוזים)

•C - Context: כל המידע הרלוונטי. תיק רפואי, ערכי מעבדה, ספרות. ללא context - המודל מנחש

•T - Task: מה לעשות, ברמת פירוט. 'סכם' - גרוע. 'הנפק 5 bullet points של 10 עד 20 מילים כל אחד, ממוקדים ב-clinical relevance' - מצוין

•F - Format: JSON, Markdown, plain text, table, list. הגדרה ברורה מקטינה variance (פיזור התשובות בין הרצות שונות)

•C - Constraints: אורך, שפה, סגנון, מה לא לעשות. 'פחות מ-200 מילים, אם אינך יודע אמור זאת, אל תמציא מקורות'

RCT-FC כסיסמה: זכירת 5 הרכיבים מעלה את האיכות

RCT-FCmnemonicstructured

ה-context window גדל בקצב מטורף:

•GPT-3 (2020) - 2K tokens

•GPT-4 (2023) - 8K עד 32K

•Claude 3 (2024) - 200K

•Claude Opus 4.7 (16 באפריל 2026) - 1M context standard, xhigh effort level

•GPT-5.5 (24 באפריל 2026) - 256K context (1.05M במצב מורחב)

•Gemini 3.1 Pro (19 בפברואר 2026) - 2M

מה אפשר לעשות עם 1M tokens?

•לקרוא ספר רפואי שלם

•100 מאמרים בבת אחת

•תיק חולה של 10 שנים

•פרוטוקול clinical trial של 47 עמודים

הבעיה: lost-in-the-middle effect (Liu 2023 - המודל זוכר היטב את ההתחלה ואת הסוף, אבל מתעלם מהאמצע). חידוש 2026 - benchmark MRCR v2 (Multi-Round Co-reference על 1M tokens) הראה קפיצה: GPT-5.4 - 36.6 אחוזים, GPT-5.5 - 74.0 אחוזים. שיפור פי 2 ב-long context

הפתרון:

•למקם מידע חשוב בתחילת ה-prompt

•לחזור עליו בסוף

•להשתמש ב-RAG (retrieval - שליפת מסמכים רלוונטיים) במקום long context בטקסטים גדולים מאוד

עלות (מאי 2026):

•Claude Opus 4.7 - 5 דולר ל-1M input, 25 דולר ל-1M output

•GPT-5.5 - 5 דולר ל-1M input, 30 דולר ל-1M output (פי 2 מ-GPT-5.4 לכל token, אך 5.5 משתמש ב-40 אחוזים פחות tokens לאותה משימה - העלות האפקטיבית רק כ-20 אחוזים יותר)

•GPT-5.5 Pro - 30 דולר input, 180 דולר output

•1M context לא זול לשימוש שגרתי. כדאי לשמור ל-deep research, לא לכל שאלה

contextlong-contextlost-in-middle

📚 Zero-shot, Few-shot, ו-In-Context Learning

Zero-shot prompting הוא הצורה הפשוטה ביותר: לשאול שאלה, לקבל תשובה, ללא דוגמאות.

דוגמה: 'תרגם melanoma לעברית'. המודל יענה 'מלנומה'.

מאפיינים:

•עובד היטב למשימות פשוטות שהמודל ראה רבות ב-training (אימון המודל)

•נכשל במשימות ספציפיות, לא-סטנדרטיות, או שדורשות דפוס מסוים

Few-shot prompting מוסיף דוגמאות.

דוגמה - 'תרגם רשימה של מונחים. אנגלית -> עברית':

•(1) Melanoma -> מלנומה

•(2) Psoriasis -> פסוריאזיס

•(3) Eczema -> אגזמה

•(4) Bullous pemphigoid -> ?

המודל יענה 'פמפיגואיד בולוזי'. עקבי יותר, מדויק יותר. בדרך כלל 3-5 דוגמאות מספיקות.

Brown et al (GPT-3 paper, 2020) הראו שעם 32 דוגמאות, GPT-3 הגיע לביצועים של fine-tuned BERT (מודל מאומן מחדש על משימה ספציפית) במשימות סיווג - ללא שינוי משקלים (המספרים הפנימיים שהמודל לומד באימון). זה היה הגילוי המהפכני: ICL (In-Context Learning) - המודל לומד משימה רק מהקלט.

מדוע זה עובד? המודל ראה במהלך training מיליארדי דוגמאות של דפוסים. ב-prompt עם דוגמאות, הוא מזהה את הדפוס ומשלים אותו.

יישומים רפואיים:

•Clinical note formatting

•Differential diagnosis

•Drug interaction analysis

•ICD-10 coding

הסכנה: דוגמאות מטות את המודל. אם כל הדוגמאות מובילות לאבחנה X, המודל יטה לאבחנה X גם במקרה שונה. הפתרון: דוגמאות מגוונות.

Prompt: 'אתה דרמטולוג. כתוב סיכום ביקור בפורמט הבא:'

דוגמה 1:

•תלונה: גירוד מתמשך 3 חודשים

•בדיקה: פלאקים אריתמטיים+scaling במרפקים, ברכיים, קרקפת. PASI 8

•אבחנה: Psoriasis vulgaris

•תוכנית: Clobetasol 0.05% bid x 4 weeks; CTC ATPK + ECG; שקול MTX אם persistent

שתי דוגמאות נוספות באותו פורמט

לאחר מכן: 'כעת עבור המקרה הבא: אישה 45, פריחה אדומה בולטת ב-malar area, מחמירה בשמש, עייפות, ANA חיובי 1:640'

המודל יחזיר במבנה זהה

תועלת:

•עקביות בין סיכומים

•זמן כתיבה קצר

•פחות שגיאות structuring

few-shotclinical notesפורמט

ICL:

•prompt עם דוגמאות, ללא שינוי משקלים

•עלות: per-prompt (0.001 עד 0.10 דולר)

•יכולת: לכל משימה, מיד

•גמישות: שינוי דוגמאות = שינוי התנהגות

•מגבלה: token limits, lost-in-middle

Fine-tuning (אימון מחדש של המודל על נתונים ספציפיים):

•עדכון משקלי המודל על דאטה ספציפית

•עלות: 100 עד 10,000 דולר לאימון, ולאחריו cheap inference (הרצת המודל בעלות נמוכה)

•יכולת: ביצועים מעולים במשימה ספציפית

•גמישות: אחרי אימון - קשה לשנות

•דורש: 100 עד 1000 דוגמאות מתויגות (ולעיתים יותר), משאבי חישוב, מומחיות

ב-2026: ברוב המקרים ICL מספיק. fine-tuning שמור ל:

•משימה מאוד נפוצה (כל יום)

•דאטה רגיש שלא רוצים לשלוח ל-API

•ביצועים שב-ICL אינם מספיקים

דוגמה:

•סיווג ICD-10 על 10,000 ביקורים ביום משתלם ל-fine-tuning

•סיכום ביקור פעם ביום מתאים ל-ICL

ICLfine-tuningהשוואה

דוגמה: prompt ל-DDx של 'פריחה אדומה'. בכל 3 הדוגמאות האבחנה היא atopic dermatitis. כעת שאלה על 'פריחה אדומה במבוגר עם psoriasis history'. המודל מטה ל-AD מבלי לשקול psoriasis flare. זהו bias מהדוגמאות

הפתרון:

•דוגמאות מגוונות - 3 דוגמאות עם 3 אבחנות שונות

•Anti-examples - 'דוגמה זו אינה psoriasis'

•Explicit instruction - 'שקול את כל ה-DDx, לא רק את הדוגמאות'

מקרה אמיתי: bias ב-radiology AI שאומן על מקרים מסוימים, נכשל בשטח

בקליניקה: זהירות עם prompts שכוללים תשובות 'ידועות' - יכול להחדיר bias

biasfew-shotסכנה

💡 Chain-of-Thought - Let's Think Step by Step

Chain-of-Thought (CoT) הוא אחד הגילויים החשובים של 2022. Wei et al (Google, NeurIPS 2022) גילו שאם מבקשים מ-LLM לחשוב צעד-צעד לפני שעונה, הביצועים על שאלות מורכבות עולים דרמטית.

הדוגמה הקלאסית - שאלת math word problem:

•ללא CoT: GPT-3 על MultiArith (מבחן בעיות מילוליות במתמטיקה) - 17.7 אחוזים

•עם CoT few-shot: 78.7 אחוזים

•שיפור פי 4

כיצד זה עובד? במקום שהמודל יקפוץ מהקלט לתשובה, הוא מייצר thought trace (שטח עבודה - המודל יכול לכתוב חישובי ביניים) - שלבי הסקה. כל שלב הוא טקסט שמסייע ב-self-attention (מנגנון פנימי במודל שמקשר בין מילים בקלט).

שתי גרסאות עיקריות:

•Few-shot CoT - דוגמאות עם reasoning מפורש

•Zero-shot CoT - הוספת המילים 'Let's think step by step' (Kojima 2022). שיפור של 18 אחוזים ב-MultiArith ב-GPT-3, ללא דוגמאות

גם בעברית עובד: 'בוא נחשוב צעד אחר צעד'.

יישומים רפואיים:

•Differential diagnosis - בקש מהמודל לחשוב על כל אבחנה בנפרד

•Drug interaction analysis

•Pathology interpretation

•Treatment selection

וריאציות מתקדמות:

•Self-Consistency (הריץ את הprompt מספר פעמים ולקח majority vote; Wang 2022) - שיפור של 5 עד 15 אחוזים נוספים

•Tree-of-Thoughts (לחקור מספר נתיבי הסקה ולבחור הטוב; Yao 2023)

•Reasoning models (מודל שמובנה לחשוב לפני תגובה - o1 של OpenAI, R1 של DeepSeek, Claude Opus 4.7 thinking mode)

Benchmarks חדשים 2026 שמראים את הכוח של reasoning + CoT:

•Terminal-Bench 2.0 (סוכני terminal): GPT-5.5 - 82.7 אחוזים, Claude Opus 4.7 - 69.4 אחוזים

•FrontierMath Tier 4 (בעיות מתמטיקה ברמה מחקרית): GPT-5.5 - 35.4 אחוזים, Claude Opus 4.7 - 22.9 אחוזים, Gemini 3.1 Pro - 16.7 אחוזים

•MedQA נשאר benchmark רלוונטי לרפואה (Med-PaLM 2 - 86.5 אחוזים, מודלי 2026 מעבר לזה)

Prompt רגיל:

•'אישה 35, פריחה אריתמטית בפנים מחמירה בשמש, ANA 1:320. מה האבחנה?'

תגובה: 'Lupus' (קצרה, לא ממוקדת)

Prompt עם CoT: 'אישה 35, פריחה אריתמטית בפנים מחמירה בשמש, ANA 1:320. בוא נחשוב צעד-צעד:'

•ניתוח קליני - מה הדפוס?

•רשום DDx של 5+ אבחנות עם likelihood לכל אחת

•אילו features תומכות / סותרות

•איזה bedside test לבחור

•איזה lab work להוסיף

•ולבסוף המסקנה

תגובה - רשימה מובנית:

•Photosensitive facial rash + ANA suggests CTD

•DDx: SLE (40%), SCLE (25%), DLE (15%), Rosacea (10%), Photodermatitis (5%), DM (5%)

•Bedside: woods lamp, dermoscopy, lupus band test if available

•Anti-dsDNA, anti-Sm, anti-Ro/La, C3/C4, CBC, CMP, urinalysis

•Most likely SCLE if photosensitive predominant; SLE if systemic features

טוב יותר באופן דרמטי

CoTDDxדוגמה

התיאוריה: ב-Transformer (ארכיטקטורת המודל - הבסיס לכל ה-LLMs), כל token שנוצר משפיע על ה-tokens הבאים דרך self-attention. כשהמודל מייצר 'Let's think step by step. First, the patient has X. So the diagnosis pathway is...', טקסט זה מקודד מידע שעוזר ב-tokens הבאים

ראיות:

•CoT עובד רק במודלים גדולים (יותר מ-100B params). מודלים קטנים לא ייצרו thought trace שימושי

•CoT עובד גם בעברית, סינית, ספרדית - לא תלוי בשפה

•'Faithful CoT' (Lyu 2023): המודלים לעיתים מנמקים נכון אבל מגיעים לתשובה לא קשורה - כלומר ה-reasoning הוא הצגה ולא מציאות

•Reasoning models ב-2024 עד 2025 (o1, R1) מטמיעים את ה-CoT לתוך המודל - מאומנים ספציפית להפיק thought trace טוב

עלות ב-token count: thought traces יכולים להיות 1,000 עד 10,000 tokens, יקר

תיאוריהattentionscratchpad

שאלות שלא צריכות CoT:

•Factual lookup ('מה ה-CD20?')

•Translation

•Summarization של טקסט קצר

•Creative writing

שאלות שצריכות CoT:

•Math problems

•Multi-step reasoning

•Differential diagnosis

•Logical puzzles

•Code debugging

•Drug interaction with multiple steps

עלות:

•CoT מוסיף פי 2 עד 5 ב-tokens. אם השאלה אינה דורשת זאת - בזבוז כסף

•ה-latency (זמן ההמתנה לתשובה) עולה. ב-CoT עם reasoning model (o3) - תשובה לשאלה פשוטה יכולה לקחת 60 שניות

•בעברית: עוד יותר tokens (פי 3 עד 4 מאנגלית)

שיקול דעת:

•נסה zero-shot

•אם לא מספיק - הוסף CoT

•אם עדיין לא - few-shot CoT

•אם עדיין לא - reasoning model

לא תמידבזבוזdecision

🎭 Persona Prompting ו-Role Setting

Persona prompting היא הטכניקה של הגדרת זהות למודל לפני שאלה.

דוגמאות:

•'אתה דרמטולוג ב-Mayo Clinic עם 20 שנות ניסיון'

•'אתה epidemiologist ב-WHO'

המחקר על persona prompting מראה תוצאות מעורבות:

•Singhal et al (Med-PaLM, Nature 2023) - עם expert persona, Med-PaLM שיפר ביצועים ב-MedQA (1,273 שאלות USMLE - הסטנדרט להערכת LLMs ברפואה) ב-3 עד 5 נקודות

•Salewski 2023 - שיפור גבוה יותר במשימות creativity וב-niche domains

מדוע זה עובד? המודל ראה במהלך אימון מיליארדי טקסטים שכתבו אנשים מתפקידים שונים. כשמגדירים persona, המודל מתכוונן לסגנון, vocabulary, ועומק שמתאים לתפקיד.

אבל - וזה חשוב - persona לא מקנה ידע. המודל לא יודע יותר רפואה אם נגיד לו 'אתה דרמטולוג'. הוא רק יענה בסגנון של דרמטולוג.

שני שימושים בטוחים:

•Style adjustment - לקבל תשובה בסגנון מסוים

•Domain framing - לקבל תשובה ממוקדת בתחום

הסיכון: persona 'expert' מסיר את ה-uncertainty markers (סימני אי-ודאות בתשובה) של המודל. במקום 'אינני בטוח' - 'אני יודע ש'. מסוכן ברפואה.

שיטות מתקדמות:

•Multi-persona (Wang 2023, Self-Collaboration) - מספר personas מתווכחים אחד עם השני, ואז מגיעים למסקנה. שיפור על single persona ב-5 עד 10 אחוזים

שאלה: 'הסבר מהי psoriasis'

Persona 1 - 'אתה רופא שכותב למטופל בן 60 ללא רקע רפואי':

•'פסוריאזיס היא מחלת עור כרונית שגורמת לפלאקים אדומים מכוסים בקשקש כסוף. היא אינה מדבקת ואינה קשורה להיגיינה. נגרמת על ידי תגובה אוטואימונית - מערכת החיסון שלך תוקפת בטעות את העור. קיים מגוון טיפולים יעילים'

Persona 2 - 'אתה דרמטולוג שכותב לקולגה גסטרואנטרולוג':

•'Plaque psoriasis is a chronic Th17-mediated inflammatory dermatosis with characteristic well-demarcated erythematous plaques with silvery scale. Comorbidities include psoriatic arthritis (30%), MetS (40%), and IBD (incident risk OR 3-4)'

Persona 3 - 'אתה researcher':

•'Psoriasis is a chronic, immune-mediated dermatosis with prevalence 2-3% globally. Pathogenesis: IL-23/Th17 axis dysregulation'

בחר persona לפי הקהל:

•מטופל

•קולגה

•מאמר

personastyleקהל

דוגמה: שאלה 'מה היעילות של drug X ב-disease Y?'

ללא persona:

•'I don't have specific data on this. Please refer to clinical trials or guidelines'

עם persona 'אתה pharmacology expert':

•'Studies show X has 75% efficacy with NNT of 3. Recommended dose is 200mg BID...' (יכול להיות hallucination מלא!)

מדוע? persona 'expert' משדר למודל 'היה confident'. המודל מאבד את ה-uncertainty markers ומתחיל להמציא

הפתרון:

•הוסף explicit 'If you don't know, say so. Don't fabricate'

•דרוש citations - 'כל סטטיסטיקה צריכה PMID'

•Verify - אם המודל אומר 75%, בדוק ב-PubMed לפני שאתה מצטט

המסר: persona היא כלי שימושי - אבל לא תחליף ל-RAG, fact-checking, או user verification

בקליניקה: לעולם אין להחליט על מינון תרופה רק על בסיס persona-prompted LLM

סכנהhallucinationpersona

דוגמה לשימוש: מטופל עם BCC חוזר על האף, גיל 80, עם comorbidities. החלטה: Mohs מול radiotherapy מול topical

Prompt: 'Three experts will debate this case:'

•Mohs surgeon - prefers surgical excision for cure rate

•Radiation oncologist - prefers RT for cosmetic outcome and elderly

•Dermatologist - prefers topical for low-risk cases

•Each expert: state preferred treatment + 3 reasons

•Then: synthesis - what are the trade-offs?

•Final: balanced recommendation considering patient's context

התוצאה: 3 perspectives מובנות, debate, synthesis. עשיר בהרבה מ-single persona answer

שיפור על MedQA: 5 עד 10 אחוזים

עלות: פי 3 ב-tokens, יקר. כדאי לשמור להחלטות מורכבות

מתודה דומה: 'Devil's Advocate' - persona אחת מציעה, persona שנייה מתנגדת, ואז המסקנה. עוזר לזהות assumptions ו-blind spots

multi-personadebatesynthesis

📋 Structured Output - JSON, Markdown, Function Calling

המעבר ל-structured output הוא השינוי הדרמטי ביותר באופן שבו רופאים יכולים להשתמש ב-LLMs בפרקטיקה. במקום לקבל פסקה חופשית - לקבל JSON עם schema מוגדר.

דוגמה: במקום 'ספר על המקרה' - 'הנפק JSON עם:

•diagnosis: string

•ICD10: string

•severity: number

•treatment_plan: array of strings'

JSON output מאפשר אינטגרציה ישירה: ל-EHR, ל-database, ל-spreadsheet.

היסטוריה:

•OpenAI הציגה Function Calling (המודל יכול לקרוא לפונקציות חיצוניות) ב-2023: המודל יכול לקרוא לפונקציות מוגדרות, מקבל schema של פרמטרים, ומחזיר JSON תקני

•Anthropic הציגה Tool Use ב-Claude 3 (2024)

•ב-2026, structured output מובנה בכל ה-frontier models (המודלים הכי מתקדמים של החברות)

השימושים:

•Data extraction - הוצאת מידע ממסמך לטופס

•ICD-10 coding - מקבל clinical note, מחזיר ICD-10 codes

•Drug interaction screening

•Lab interpretation

הטכניקה:

•הגדר schema ברור

•דרוש output ב-JSON valid

•הגדר fallback ל-edge cases (תרחישי קצה - מקרים חריגים)

•Validation לאחר המודל

יתרונות:

•מקטין hallucinations - כשהפורמט מוגדר, המודל פחות ממציא שדות חדשים

•קל לפענוח - parser במקום regex

•אינטגרציה קלה למערכות

חסרונות: פחות explanation - JSON לא מסביר reasoning. הפתרון: שדה reasoning ב-schema.

כלים:

•Anthropic API

•OpenAI API

•LangChain

•Instructor (Python)

•zod (TypeScript)

למי שאינם מפתחים: ChatGPT עם Custom GPT, Claude Projects.

Input:

•'Skin biopsy from left cheek shows nodular basal cell carcinoma extending to deep margin. Tumor measures 5mm. Peripheral margins clear. No perineural invasion. Mitotic rate 2/HPF'

Prompt באנגלית: 'Extract from this pathology report into JSON with schema:'

•diagnosis

•subtype

•size_mm

•margin_status (peripheral, deep)

•perineural_invasion

•mitotic_rate

•reasoning

Output:

•diagnosis: 'Basal cell carcinoma'

•subtype: 'Nodular'

•size_mm: 5

•margin_status: peripheral 'clear' deep 'positive'

•perineural_invasion: false

•mitotic_rate: 2

•reasoning: 'Report explicitly states extending to deep margin (positive deep) but peripheral margins clear'

כעת אפשר לאחסן ב-database, להזין ל-clinic registry, או לשמש ל-decision support

תועלת: 30 דקות עבודה ידנית הופכות ל-30 שניות

pathologyJSONextraction

שימוש: כאשר הפלט יוצג לאדם בעברית/אנגלית, לא למכונה

דוגמה: השוואת תרופות.

Prompt: 'השוו 5 ביולוגיות ל-psoriasis. הנפק Markdown table עם עמודות:'

•שם

•מנגנון

•מינון

•PASI-75 ב-week 16

•AE עיקריים

•מחיר ICER (USD)

Output: טבלה עם adalimumab/secukinumab/ixekizumab ועוד, כל אחד עם מנגנון, מינון, אחוז PASI-75, AE, מחיר. קריא, השוואתי, מוכן להצגה

יתרונות:

•יתרון על JSON - human-readable, אפשר להעתיק ולהדביק ל-Word/PowerPoint

•יתרון על plain text - מבנה ברור

•ChatGPT/Claude/Gemini מציגים Markdown יפה ב-UI. ב-API מקבלים raw markdown

Markdowntableהשוואה

דוגמה: שאלה רפואית 'מה היעילות של dupilumab ב-BP?'

מודל ללא tools: יענה מ-memory (יכול להיות hallucination)

מודל עם tools:

•(1) 'I'll search PubMed for recent dupilumab + BP studies'

•(2) Calls function pubmed_search(query='dupilumab bullous pemphigoid', years='2022-2026')

•(3) מקבל JSON עם 15 articles

•(4) 'I'll fetch full text of the 3 most relevant'

•(5) Calls fetch_pmid([12345, 67890, 11223])

•(6) קורא, מנתח

•(7) 'Based on these 3 studies, dupilumab shows CR in 88.9 percent with low recurrence...'

זהו agentic AI

כלים:

•Anthropic Tool Use

•OpenAI Functions

•LangChain agents

•Claude Code (terminal-native)

בשנת 2026 זהו הסטנדרט - לא רק chatbot, אלא assistant שמבצע פעולות. בקליניקה: שילוב עם UpToDate, PubMed, EHR, lab systems

function callingagentictools

🛡️ Hallucination Mitigation - איך להוריד את ה-30%

ההזיה (hallucination) היא הבעיה המרכזית של LLMs בפרקטיקה רפואית.

שיעורי hallucinations:

•בציטוטים - 30 עד 40 אחוזים (GPT-4), 15 עד 25 אחוזים (GPT-5), 8 עד 12 אחוזים (Claude Opus 4.7)

•במספרים מדויקים - 20 עד 40 אחוזים

•בתרופות לאינדיקציות - 10 עד 20 אחוזים

•בפרטים קליניים דקיקים - 30 עד 50 אחוזים

הסיבה: LLMs לא מאחסנים עובדות אלא תבניות. התשובה נוצרת על בסיס ה-token הסביר ביותר, לא על בסיס האמת.

טכניקות mitigation:

•RAG (Retrieval-Augmented Generation) - היעילה ביותר. במקום שהמודל יסתמך על ידע פנימי, הוא שולף מ-knowledge base (מאגר מסמכים אמיתי) אמיתי. שיעור hallucinations יורד מ-30 אחוזים ל-3 עד 5 אחוזים. כלים: NotebookLM, Perplexity, Claude Projects, ChatGPT Search

•Citation Enforcement - דרוש ציטוט לכל טענה

•'I don't know' Prompting - explicitly מאפשר לומר אינני יודע

•Self-Verification - בקש מהמודל לבדוק את תשובתו

•Temperature reduction - temperature=0 מקטין אקראיות

•Multi-model verification - שאל את אותה שאלה ב-2 מודלים שונים

•Domain restriction - 'רק על psoriasis. אם השאלה אינה קשורה - אמור מחוץ לתחום'

בפועל: שילוב של RAG + citation enforcement + self-verification מוריד hallucinations מ-30 אחוזים ל-2 עד 3 אחוזים. מספיק לרוב המשימות הקליניות.

שאלה (ב-Claude 3.5 Sonnet, יוני 2024): 'אילו מחקרים בחנו את היעילות של dupilumab ב-Bullous Pemphigoid? ספק ציטוטים'

תשובת המודל:

•(1) Maglie R et al. Dupilumab in BP. JAAD 2022;87:543-548

•(2) Kremer N et al. Anti-IL-4 receptor for BP refractory cases. JEADV 2023;37:e234-e240

•(3) Park CK et al. Dupilumab for elderly BP. Br J Dermatol 2023;188:412-419

בדיקה ב-PubMed:

•(1) קיים אבל הציטוט שגוי - JAAD 2022;87:1100-1107 הוא הנכון

•(2) לא קיים - אין מאמר Kremer N על BP

•(3) קיים אבל הוא Park JH (לא CK), 2023;188:e87-e89, ב-letter

תוצאה: שליש נכון לחלוטין, שליש קיים אבל עם פרטים שגויים, שליש מומצא

זהו הסטנדרט עם LLMs ללא RAG. הפתרון:

•יש לוודא כל ציטוט ב-PubMed לפני השימוש

•או להשתמש ב-Perplexity/NotebookLM שמספקים ציטוטים מאומתים

hallucinationcitationsאזהרה

Template: 'אתה דרמטולוג זהיר. ענה על השאלה הבאה תוך עמידה בכללים:'

•(1) אם אינך בטוח לחלוטין - אמור I don't have reliable information on this

•(2) כל מספר/סטטיסטיקה דורשים מקור (PMID, DOI, או guideline + year)

•(3) אם אתה מצטט מאמר - ודא שהוא קיים. אם אינך בטוח - אל תצטט

•(4) הבחן בין evidence-based (יש RCT) לבין expert opinion (case series, guidelines)

•(5) בסיום, ציין confidence level (high/medium/low) ואילו מקורות תומכים

זה מוריד hallucinations ב-20 עד 30 אחוזים. לא 100 אחוזים, אבל באופן משמעותי

דוגמה לתשובה תחת template זה:

•'Dupilumab for BP: There is growing case series evidence (Park JH et al, BJD 2023; Maglie R et al, JAAD 2022). I'm not certain of exact remission rates but reported around 70 to 90 percent in case series. No phase 3 RCT yet (LIBERTY-BP ongoing). Confidence: medium. Note: please verify specific numbers in PubMed - my recall of details may be inaccurate'

זהיר ושימושי בהרבה

templatepromptmitigation

4 רכיבי RAG:

•Knowledge base - מאגר המסמכים שלך (PDFs של מאמרים, guidelines, clinic protocols)

•Embedding model - ממיר טקסט לוקטור (embedding - ייצוג מספרי של טקסט; OpenAI text-embedding-3-large, Cohere embed-v3)

•Vector database - שומר embeddings (Pinecone, Weaviate, ChromaDB, או pgvector)

•Retrieval - קלט שאלה ואז embed ואז similarity search (חיפוש דמיון בין וקטורים) ואז top-k chunks (k המקטעים הדומים ביותר)

•LLM - מקבל chunks + question ומחזיר תשובה מבוססת על ה-chunks

כלים פשוטים ללא קוד:

•NotebookLM (Google) - upload PDFs, שאל

•Claude Projects - upload files, שאל

•Perplexity Spaces - דומה

•ChatGPT Custom GPT עם Files

למפתחים:

•LangChain

•LlamaIndex (frameworks)

למידע מקומי בקליניקה:

•AnythingLLM (תוכנת desktop)

•Open WebUI (web interface)

עלויות:

•NotebookLM - חינם

•Claude Pro - 20 דולר לחודש

•Perplexity Pro - 20 דולר לחודש

המלצה:

•למחקר אקדמי - NotebookLM מתאים ביותר

•למידע קליני - AnythingLLM (on-premise, privacy-friendly - רץ מקומית, שומר על פרטיות)

RAGknowledge baseפתרון

🇮🇱 Take-aways לדרמטולוג בישראל ב-2026

Prompt engineering הוא מיומנות שלומדים באמצעות שימוש. קריאה זו לא הופכת אותך למומחה - שעה ביום למשך חודש כן.

ההצעה המעשית - התחל עם 3 שימושים בסיסיים:

•Literature search עם NotebookLM - הורד 5 עד 10 מאמרים על נושא, העלה ל-NotebookLM, שאל. תוך שבועיים תרגיש שזה משנה

•Drafting מכתבים - במקום להתחיל מאפס. prompt: 'כתוב מכתב הפניה ל-Mohs surgeon על חולה X. כלול: indication, history, dermoscopy findings, anatomic concerns'. 80 אחוזים מוכן, אתה משלים ל-100 אחוזים. חוסך 5 עד 10 דקות למכתב

•Differential diagnosis support - שאלה פתוחה ב-Claude/GPT עם CoT. אין לסמוך על התשובה לבדה - אבל היא מספקת 'מה חשבתי?' ו'מה פספסתי?'

טכניקות שכן צריך לזכור:

•RCT-FC (Role, Context, Task, Format, Constraints)

•CoT לשאלות מורכבות

•Few-shot ל-formatting

•JSON ל-data extraction

•RAG ל-literature

•Anti-hallucination prompts תמיד

בעברית:

•עובד טוב יותר ב-Claude Opus 4.7 וב-Gemini 3.1 Pro מאשר ב-GPT

•אנגלית עדיין מדויקת יותר

•הצעה: שאלה באנגלית, תשובה באנגלית, ודא נכונות, ולאחר מכן בקש 'תרגם לעברית רפואית מקצועית'

הצעדים:

•בחר כלי אחד

•הקצה 30 דקות ביום למשך חודש

•השתמש ב-3 שימושים בסיסיים

•פתח prompt library (אוסף prompts אישי לשימוש חוזר) אישי

•הוסף RAG כשתהיה מוכן

5 prompts בסיסיים:

•Literature query: 'אתה researcher במחלה X. סכם state-of-art ב-2026 ב-300 מילים: pathophysiology, key trials, current treatments, future directions. ציטוט PMID לכל הצהרה'

•DDx: 'אישה 35, פריחה Y. (פרטים). בוא נחשוב צעד-צעד: ניתוח קליני, DDx של 5 עם likelihoods, features תומכות/סותרות, bedside tests, labs, המסקנה'

•Referral letter: 'כתוב מכתב הפניה ל-Mohs surgeon, אונקולוג על חולה X. כלול: indication, brief history, key findings, specific question. עברית מקצועית, פורמט קצר, פסקה אחת לכל סעיף'

•Pathology to JSON: 'Extract from this pathology report into JSON with schema diagnosis, subtype, size, margins, special_features. Pathology: paste'

•Drug interaction check: 'Patient takes list. Check for clinically significant interactions. Output table: drug pair, mechanism, severity, recommendation'

העתק לקובץ משותף, שמור, השתמש שוב ושוב

librarypromptsמוכן

ביצועים של LLMs בעברית רפואית:

•GPT-5.5 (24 באפריל 2026) - טוב, אבל לעיתים literal translation

•Claude Opus 4.7 (16 באפריל 2026) - טוב יותר מ-GPT בעברית, עם יותר ניואנס

•Gemini 3.1 Pro (19 בפברואר 2026) - טוב, Google משקיעה ב-multilingual (תמיכה רב-לשונית)

•Llama 4 (5 באפריל 2025) - בינוני

•Mistral - חלש

•MedGemma 1.5 - לא אומן ספציפית בעברית, חלש

Tokenization (חלוקת הטקסט ליחידות): עברית = 3 עד 4 tokens למילה (אנגלית = 1). כלומר prompt של 1,000 מילים בעברית = 4,000 tokens. יקר יותר, אורך יותר

שגיאות נפוצות:

•Translation literal: 'diagnosed with melanoma' מתורגם ל'אובחן עם מלנומה' במקום 'אובחן כסובל ממלנומה'

•שילוב לעז שגוי

•שמות תרופות: hyphenation לא תמיד נכון

שיטות:

•שיטת hybrid - prompt באנגלית, תשובה באנגלית. ערוך לפי הצורך. 'תרגם לעברית רפואית מקצועית, השתמש בלעז כשמקובל'. זו השיטה המיטבית

•אופציה אחרת - prompt בעברית עם דוגמאות בעברית - הכל בעברית עד הסוף

עבריתhybridtokenization

5 take-aways:

•הירשם ל-NotebookLM (חינם) ול-Claude Pro או ChatGPT Plus (20 דולר לחודש). 30 דקות ביום למשך חודש

•הקם prompt library אישי - תיקייה ב-Notion/OneDrive עם 10 prompts ראשונים: literature query, DDx, referral, pathology JSON, drug interactions. בשלושת השבועות הראשונים: עדכן בכל פעם שמצאת prompt טוב

•RCT-FC + CoT - שלוש אותיות (mnemonic) שצריך לזכור. כל prompt מורכב ייבדק מול הרשימה. CoT ל-DDx ול-treatment selection

•Anti-hallucination always - בכל שאלה רפואית, שלב את ה-template: 'If unsure, say so. Cite sources. Distinguish evidence-based from expert opinion'

•RAG ל-literature - NotebookLM הוא הכלי לכך. הורד 5 עד 10 מאמרים, העלה, שאל. תוך חודש זה הופך ל-second nature

בונוס:

•עקוב אחר @AnthropicAI ו-@OpenAI ב-X לעדכונים שבועיים

•5 דקות ביום של מעקב אחרי דמויות AI מובילות (Andrej Karpathy, Eric Topol, Jason Wei) מקנה ידע רב

take-awaysפרקטיקהישראל

🔑

שורה תחתונה

Prompt engineering אינו אומנות שחורה. זוהי מיומנות שמתבססת על 5 רכיבים (RCT-FC: Role, Context, Task, Format, Constraints), כמה טכניקות יסוד (zero-shot, few-shot, CoT, structured output, persona), ואסטרטגיות mitigation (הפחתה) ל-hallucinations (RAG, citation enforcement, self-verification). מי שיודע אותן ישתמש ב-LLM פי 5 יותר יעיל ממי שלא. השיפור הקריטי בא מ-CoT (הוספה פשוטה של 'Let's think step by step') ומ-RAG (NotebookLM, Claude Projects) להפחתת hallucinations.

הכיוון לדרמטולוג בשנת 2026: Prompt engineering הוא מיומנות חדשה שכל רופא צריך. השקעה של 30 דקות ביום למשך חודש שווה פרודוקטיביות שגדלה פי 3. הצעדים: התחל עם 3 שימושים (literature, drafting, DDx), בנה prompt library, השתמש ב-RCT-FC + CoT, ותמיד הוסף anti-hallucination guards. בעברית עובד אבל פחות טוב מאנגלית - שילוב hybrid הוא הפתרון. זה אינו תחליף לידע - זהו מכפיל כוח לידע שכבר יש לך.

📋 פרטי מקור ומחבר

מאת: ד"ר יהונתן קפלן

מומחה ברפואת עור ומין | מנתח מוז (FACMS)

📅 פורסם: 1.5.2026🔄 עודכן: 1.5.2026

מבוסס על:

The Prompt Report: A Systematic Survey of Prompting Techniques

Schulhoff S, Ilie M, Balepur N, et al.

arXiv, 2024

DOI: 10.48550/arXiv.2406.06608

הערת עריכה: תוכן זה נכתב ונערך על ידי ד"ר יהונתן קפלן ומבוסס על המאמר המקורי.

אין להסתמך על תוכן זה ללא קריאת המקור המלא.