Prompt Engineering לרופא: מ-zero-shot ל-Chain-of-Thought
מדריך מעשי לרופא: אנטומיה של פרומפט, Chain-of-Thought, few-shot, structured output ואסטרטגיות להפחתת hallucinations
The Prompt Report: A Systematic Survey of Prompting Techniques
🎯 בקצרה: על מה מדובר?
💡 מה חייבים לזכור מהמאמר הזה
🧩 אנטומיה של Prompt - 5 רכיבים של RCT-FC
•System - System message (system prompt) מגדיר את ההקשר הרחב: מי המודל, מהו תפקידו, אילו כללים חלים
•User - השאלה הספציפית
•Assistant - התשובה
דוגמה ב-Anthropic API:
•system: 'אתה דרמטולוג מומחה. ענה בצורה קלינית מקצועית.'
•user: 'חולה עם Bullous Pemphigoid עמיד ל-clobetasol. אילו אפשרויות?'
הרכיבים הקריטיים של prompt טוב - RCT-FC:
•Role - מי המודל ('אתה רופא ותיק עם 20 שנות ניסיון')
•Context - הרקע, כל המידע הדרוש כדי לענות
•Task - מה לעשות, באופן ספציפי ('הנפק 5 bullet points עם שמות תרופות, מינונים, ו-evidence level')
•Format - איך תיראה התשובה (JSON, Markdown table, פסקה רציפה)
•Constraints - מגבלות ('תשובה בעברית', 'פחות מ-200 מילים', 'ציטוט מקור לכל טענה')
שגיאה נפוצה - prompts פתוחים ('עזור לי עם מטופל X'). התוצאה: תשובה כללית, hallucinations, לא שימושית. הפתרון: structured prompts. הוספת 5 דקות של ניסוח prompt חוסכת 30 דקות של תיקונים.
Token (יחידת טקסט בסיסית) limits של מודלי 2026, כלומר Context window (אורך הקלט שהמודל יכול לעבד בבת אחת):
•GPT-5.5 (24 באפריל 2026) - 256K context, 5/30 דולר ל-1M tokens (input/output)
•Claude Opus 4.7 (16 באפריל 2026) - 1M context standard, xhigh effort level, 5/25 דולר
•Gemini 3.1 Pro (19 בפברואר 2026) - 2M context
אורך ה-prompt מגביל - כל מה שמכניסים בא על חשבון התשובה.
•'ספר לי על psoriasis'
תוצאה: תשובה כללית, ויקיפדית, לא קלינית, ללא ציטוטים
Prompt טוב:
•'אתה דרמטולוג מומחה. אני מטפל בחולה עם plaque psoriasis בינוני (PASI 12, BSA 8 אחוזים) שכשל ב-MTX (ירידה ב-ANC) וב-cyclosporine (HTN חמור). תן לי 5 אופציות ביולוגיות מדורגות לפי evidence, כל אחת עם: שם תרופה ומינון, מנגנון פעולה, PASI-75 ב-week 16 ממחקרי phase 3 (באחוזים), safety profile עיקרי, קונטרא-אינדיקציות. פורמט: Markdown table. אורך: כ-300 מילים סה״כ. ציין מקור (registry trial) לכל מספר'
תוצאה: טבלה מובנית עם נתונים, ציטוטים, מדורגת. מוכנה להשתלב במכתב או בדיון
ההבדל בזמן: 30 שניות לכתיבת prompt טוב חוסכות 10 דקות תיקון
•R - Role: 'אתה דרמטולוג ב-Mayo Clinic', 'אתה statistician מומחה ב-survival analysis'. מכוון את הסגנון. מודלים חזקים פחות תלויים ברכיב זה - הם משתפרים מעט (כ-10 אחוזים)
•C - Context: כל המידע הרלוונטי. תיק רפואי, ערכי מעבדה, ספרות. ללא context - המודל מנחש
•T - Task: מה לעשות, ברמת פירוט. 'סכם' - גרוע. 'הנפק 5 bullet points של 10 עד 20 מילים כל אחד, ממוקדים ב-clinical relevance' - מצוין
•F - Format: JSON, Markdown, plain text, table, list. הגדרה ברורה מקטינה variance (פיזור התשובות בין הרצות שונות)
•C - Constraints: אורך, שפה, סגנון, מה לא לעשות. 'פחות מ-200 מילים, אם אינך יודע אמור זאת, אל תמציא מקורות'
RCT-FC כסיסמה: זכירת 5 הרכיבים מעלה את האיכות
•GPT-3 (2020) - 2K tokens
•GPT-4 (2023) - 8K עד 32K
•Claude 3 (2024) - 200K
•Claude Opus 4.7 (16 באפריל 2026) - 1M context standard, xhigh effort level
•GPT-5.5 (24 באפריל 2026) - 256K context (1.05M במצב מורחב)
•Gemini 3.1 Pro (19 בפברואר 2026) - 2M
מה אפשר לעשות עם 1M tokens?
•לקרוא ספר רפואי שלם
•100 מאמרים בבת אחת
•תיק חולה של 10 שנים
•פרוטוקול clinical trial של 47 עמודים
הבעיה: lost-in-the-middle effect (Liu 2023 - המודל זוכר היטב את ההתחלה ואת הסוף, אבל מתעלם מהאמצע). חידוש 2026 - benchmark MRCR v2 (Multi-Round Co-reference על 1M tokens) הראה קפיצה: GPT-5.4 - 36.6 אחוזים, GPT-5.5 - 74.0 אחוזים. שיפור פי 2 ב-long context
הפתרון:
•למקם מידע חשוב בתחילת ה-prompt
•לחזור עליו בסוף
•להשתמש ב-RAG (retrieval - שליפת מסמכים רלוונטיים) במקום long context בטקסטים גדולים מאוד
עלות (מאי 2026):
•Claude Opus 4.7 - 5 דולר ל-1M input, 25 דולר ל-1M output
•GPT-5.5 - 5 דולר ל-1M input, 30 דולר ל-1M output (פי 2 מ-GPT-5.4 לכל token, אך 5.5 משתמש ב-40 אחוזים פחות tokens לאותה משימה - העלות האפקטיבית רק כ-20 אחוזים יותר)
•GPT-5.5 Pro - 30 דולר input, 180 דולר output
•1M context לא זול לשימוש שגרתי. כדאי לשמור ל-deep research, לא לכל שאלה
📚 Zero-shot, Few-shot, ו-In-Context Learning
דוגמה: 'תרגם melanoma לעברית'. המודל יענה 'מלנומה'.
מאפיינים:
•עובד היטב למשימות פשוטות שהמודל ראה רבות ב-training (אימון המודל)
•נכשל במשימות ספציפיות, לא-סטנדרטיות, או שדורשות דפוס מסוים
Few-shot prompting מוסיף דוגמאות.
דוגמה - 'תרגם רשימה של מונחים. אנגלית -> עברית':
•(1) Melanoma -> מלנומה
•(2) Psoriasis -> פסוריאזיס
•(3) Eczema -> אגזמה
•(4) Bullous pemphigoid -> ?
המודל יענה 'פמפיגואיד בולוזי'. עקבי יותר, מדויק יותר. בדרך כלל 3-5 דוגמאות מספיקות.
Brown et al (GPT-3 paper, 2020) הראו שעם 32 דוגמאות, GPT-3 הגיע לביצועים של fine-tuned BERT (מודל מאומן מחדש על משימה ספציפית) במשימות סיווג - ללא שינוי משקלים (המספרים הפנימיים שהמודל לומד באימון). זה היה הגילוי המהפכני: ICL (In-Context Learning) - המודל לומד משימה רק מהקלט.
מדוע זה עובד? המודל ראה במהלך training מיליארדי דוגמאות של דפוסים. ב-prompt עם דוגמאות, הוא מזהה את הדפוס ומשלים אותו.
יישומים רפואיים:
•Clinical note formatting
•Differential diagnosis
•Drug interaction analysis
•ICD-10 coding
הסכנה: דוגמאות מטות את המודל. אם כל הדוגמאות מובילות לאבחנה X, המודל יטה לאבחנה X גם במקרה שונה. הפתרון: דוגמאות מגוונות.
דוגמה 1:
•תלונה: גירוד מתמשך 3 חודשים
•בדיקה: פלאקים אריתמטיים+scaling במרפקים, ברכיים, קרקפת. PASI 8
•אבחנה: Psoriasis vulgaris
•תוכנית: Clobetasol 0.05% bid x 4 weeks; CTC ATPK + ECG; שקול MTX אם persistent
שתי דוגמאות נוספות באותו פורמט
לאחר מכן: 'כעת עבור המקרה הבא: אישה 45, פריחה אדומה בולטת ב-malar area, מחמירה בשמש, עייפות, ANA חיובי 1:640'
המודל יחזיר במבנה זהה
תועלת:
•עקביות בין סיכומים
•זמן כתיבה קצר
•פחות שגיאות structuring
•prompt עם דוגמאות, ללא שינוי משקלים
•עלות: per-prompt (0.001 עד 0.10 דולר)
•יכולת: לכל משימה, מיד
•גמישות: שינוי דוגמאות = שינוי התנהגות
•מגבלה: token limits, lost-in-middle
Fine-tuning (אימון מחדש של המודל על נתונים ספציפיים):
•עדכון משקלי המודל על דאטה ספציפית
•עלות: 100 עד 10,000 דולר לאימון, ולאחריו cheap inference (הרצת המודל בעלות נמוכה)
•יכולת: ביצועים מעולים במשימה ספציפית
•גמישות: אחרי אימון - קשה לשנות
•דורש: 100 עד 1000 דוגמאות מתויגות (ולעיתים יותר), משאבי חישוב, מומחיות
ב-2026: ברוב המקרים ICL מספיק. fine-tuning שמור ל:
•משימה מאוד נפוצה (כל יום)
•דאטה רגיש שלא רוצים לשלוח ל-API
•ביצועים שב-ICL אינם מספיקים
דוגמה:
•סיווג ICD-10 על 10,000 ביקורים ביום משתלם ל-fine-tuning
•סיכום ביקור פעם ביום מתאים ל-ICL
הפתרון:
•דוגמאות מגוונות - 3 דוגמאות עם 3 אבחנות שונות
•Anti-examples - 'דוגמה זו אינה psoriasis'
•Explicit instruction - 'שקול את כל ה-DDx, לא רק את הדוגמאות'
מקרה אמיתי: bias ב-radiology AI שאומן על מקרים מסוימים, נכשל בשטח
בקליניקה: זהירות עם prompts שכוללים תשובות 'ידועות' - יכול להחדיר bias
💡 Chain-of-Thought - Let's Think Step by Step
הדוגמה הקלאסית - שאלת math word problem:
•ללא CoT: GPT-3 על MultiArith (מבחן בעיות מילוליות במתמטיקה) - 17.7 אחוזים
•עם CoT few-shot: 78.7 אחוזים
•שיפור פי 4
כיצד זה עובד? במקום שהמודל יקפוץ מהקלט לתשובה, הוא מייצר thought trace (שטח עבודה - המודל יכול לכתוב חישובי ביניים) - שלבי הסקה. כל שלב הוא טקסט שמסייע ב-self-attention (מנגנון פנימי במודל שמקשר בין מילים בקלט).
שתי גרסאות עיקריות:
•Few-shot CoT - דוגמאות עם reasoning מפורש
•Zero-shot CoT - הוספת המילים 'Let's think step by step' (Kojima 2022). שיפור של 18 אחוזים ב-MultiArith ב-GPT-3, ללא דוגמאות
גם בעברית עובד: 'בוא נחשוב צעד אחר צעד'.
יישומים רפואיים:
•Differential diagnosis - בקש מהמודל לחשוב על כל אבחנה בנפרד
•Drug interaction analysis
•Pathology interpretation
•Treatment selection
וריאציות מתקדמות:
•Self-Consistency (הריץ את הprompt מספר פעמים ולקח majority vote; Wang 2022) - שיפור של 5 עד 15 אחוזים נוספים
•Tree-of-Thoughts (לחקור מספר נתיבי הסקה ולבחור הטוב; Yao 2023)
•Reasoning models (מודל שמובנה לחשוב לפני תגובה - o1 של OpenAI, R1 של DeepSeek, Claude Opus 4.7 thinking mode)
Benchmarks חדשים 2026 שמראים את הכוח של reasoning + CoT:
•Terminal-Bench 2.0 (סוכני terminal): GPT-5.5 - 82.7 אחוזים, Claude Opus 4.7 - 69.4 אחוזים
•FrontierMath Tier 4 (בעיות מתמטיקה ברמה מחקרית): GPT-5.5 - 35.4 אחוזים, Claude Opus 4.7 - 22.9 אחוזים, Gemini 3.1 Pro - 16.7 אחוזים
•MedQA נשאר benchmark רלוונטי לרפואה (Med-PaLM 2 - 86.5 אחוזים, מודלי 2026 מעבר לזה)
•'אישה 35, פריחה אריתמטית בפנים מחמירה בשמש, ANA 1:320. מה האבחנה?'
תגובה: 'Lupus' (קצרה, לא ממוקדת)
Prompt עם CoT: 'אישה 35, פריחה אריתמטית בפנים מחמירה בשמש, ANA 1:320. בוא נחשוב צעד-צעד:'
•ניתוח קליני - מה הדפוס?
•רשום DDx של 5+ אבחנות עם likelihood לכל אחת
•אילו features תומכות / סותרות
•איזה bedside test לבחור
•איזה lab work להוסיף
•ולבסוף המסקנה
תגובה - רשימה מובנית:
•Photosensitive facial rash + ANA suggests CTD
•DDx: SLE (40%), SCLE (25%), DLE (15%), Rosacea (10%), Photodermatitis (5%), DM (5%)
•Bedside: woods lamp, dermoscopy, lupus band test if available
•Anti-dsDNA, anti-Sm, anti-Ro/La, C3/C4, CBC, CMP, urinalysis
•Most likely SCLE if photosensitive predominant; SLE if systemic features
טוב יותר באופן דרמטי
ראיות:
•CoT עובד רק במודלים גדולים (יותר מ-100B params). מודלים קטנים לא ייצרו thought trace שימושי
•CoT עובד גם בעברית, סינית, ספרדית - לא תלוי בשפה
•'Faithful CoT' (Lyu 2023): המודלים לעיתים מנמקים נכון אבל מגיעים לתשובה לא קשורה - כלומר ה-reasoning הוא הצגה ולא מציאות
•Reasoning models ב-2024 עד 2025 (o1, R1) מטמיעים את ה-CoT לתוך המודל - מאומנים ספציפית להפיק thought trace טוב
עלות ב-token count: thought traces יכולים להיות 1,000 עד 10,000 tokens, יקר
•Factual lookup ('מה ה-CD20?')
•Translation
•Summarization של טקסט קצר
•Creative writing
שאלות שצריכות CoT:
•Math problems
•Multi-step reasoning
•Differential diagnosis
•Logical puzzles
•Code debugging
•Drug interaction with multiple steps
עלות:
•CoT מוסיף פי 2 עד 5 ב-tokens. אם השאלה אינה דורשת זאת - בזבוז כסף
•ה-latency (זמן ההמתנה לתשובה) עולה. ב-CoT עם reasoning model (o3) - תשובה לשאלה פשוטה יכולה לקחת 60 שניות
•בעברית: עוד יותר tokens (פי 3 עד 4 מאנגלית)
שיקול דעת:
•נסה zero-shot
•אם לא מספיק - הוסף CoT
•אם עדיין לא - few-shot CoT
•אם עדיין לא - reasoning model
🎭 Persona Prompting ו-Role Setting
דוגמאות:
•'אתה דרמטולוג ב-Mayo Clinic עם 20 שנות ניסיון'
•'אתה epidemiologist ב-WHO'
המחקר על persona prompting מראה תוצאות מעורבות:
•Singhal et al (Med-PaLM, Nature 2023) - עם expert persona, Med-PaLM שיפר ביצועים ב-MedQA (1,273 שאלות USMLE - הסטנדרט להערכת LLMs ברפואה) ב-3 עד 5 נקודות
•Salewski 2023 - שיפור גבוה יותר במשימות creativity וב-niche domains
מדוע זה עובד? המודל ראה במהלך אימון מיליארדי טקסטים שכתבו אנשים מתפקידים שונים. כשמגדירים persona, המודל מתכוונן לסגנון, vocabulary, ועומק שמתאים לתפקיד.
אבל - וזה חשוב - persona לא מקנה ידע. המודל לא יודע יותר רפואה אם נגיד לו 'אתה דרמטולוג'. הוא רק יענה בסגנון של דרמטולוג.
שני שימושים בטוחים:
•Style adjustment - לקבל תשובה בסגנון מסוים
•Domain framing - לקבל תשובה ממוקדת בתחום
הסיכון: persona 'expert' מסיר את ה-uncertainty markers (סימני אי-ודאות בתשובה) של המודל. במקום 'אינני בטוח' - 'אני יודע ש'. מסוכן ברפואה.
שיטות מתקדמות:
•Multi-persona (Wang 2023, Self-Collaboration) - מספר personas מתווכחים אחד עם השני, ואז מגיעים למסקנה. שיפור על single persona ב-5 עד 10 אחוזים
Persona 1 - 'אתה רופא שכותב למטופל בן 60 ללא רקע רפואי':
•'פסוריאזיס היא מחלת עור כרונית שגורמת לפלאקים אדומים מכוסים בקשקש כסוף. היא אינה מדבקת ואינה קשורה להיגיינה. נגרמת על ידי תגובה אוטואימונית - מערכת החיסון שלך תוקפת בטעות את העור. קיים מגוון טיפולים יעילים'
Persona 2 - 'אתה דרמטולוג שכותב לקולגה גסטרואנטרולוג':
•'Plaque psoriasis is a chronic Th17-mediated inflammatory dermatosis with characteristic well-demarcated erythematous plaques with silvery scale. Comorbidities include psoriatic arthritis (30%), MetS (40%), and IBD (incident risk OR 3-4)'
Persona 3 - 'אתה researcher':
•'Psoriasis is a chronic, immune-mediated dermatosis with prevalence 2-3% globally. Pathogenesis: IL-23/Th17 axis dysregulation'
בחר persona לפי הקהל:
•מטופל
•קולגה
•מאמר
ללא persona:
•'I don't have specific data on this. Please refer to clinical trials or guidelines'
עם persona 'אתה pharmacology expert':
•'Studies show X has 75% efficacy with NNT of 3. Recommended dose is 200mg BID...' (יכול להיות hallucination מלא!)
מדוע? persona 'expert' משדר למודל 'היה confident'. המודל מאבד את ה-uncertainty markers ומתחיל להמציא
הפתרון:
•הוסף explicit 'If you don't know, say so. Don't fabricate'
•דרוש citations - 'כל סטטיסטיקה צריכה PMID'
•Verify - אם המודל אומר 75%, בדוק ב-PubMed לפני שאתה מצטט
המסר: persona היא כלי שימושי - אבל לא תחליף ל-RAG, fact-checking, או user verification
בקליניקה: לעולם אין להחליט על מינון תרופה רק על בסיס persona-prompted LLM
Prompt: 'Three experts will debate this case:'
•Mohs surgeon - prefers surgical excision for cure rate
•Radiation oncologist - prefers RT for cosmetic outcome and elderly
•Dermatologist - prefers topical for low-risk cases
•Each expert: state preferred treatment + 3 reasons
•Then: synthesis - what are the trade-offs?
•Final: balanced recommendation considering patient's context
התוצאה: 3 perspectives מובנות, debate, synthesis. עשיר בהרבה מ-single persona answer
שיפור על MedQA: 5 עד 10 אחוזים
עלות: פי 3 ב-tokens, יקר. כדאי לשמור להחלטות מורכבות
מתודה דומה: 'Devil's Advocate' - persona אחת מציעה, persona שנייה מתנגדת, ואז המסקנה. עוזר לזהות assumptions ו-blind spots
📋 Structured Output - JSON, Markdown, Function Calling
דוגמה: במקום 'ספר על המקרה' - 'הנפק JSON עם:
•diagnosis: string
•ICD10: string
•severity: number
•treatment_plan: array of strings'
JSON output מאפשר אינטגרציה ישירה: ל-EHR, ל-database, ל-spreadsheet.
היסטוריה:
•OpenAI הציגה Function Calling (המודל יכול לקרוא לפונקציות חיצוניות) ב-2023: המודל יכול לקרוא לפונקציות מוגדרות, מקבל schema של פרמטרים, ומחזיר JSON תקני
•Anthropic הציגה Tool Use ב-Claude 3 (2024)
•ב-2026, structured output מובנה בכל ה-frontier models (המודלים הכי מתקדמים של החברות)
השימושים:
•Data extraction - הוצאת מידע ממסמך לטופס
•ICD-10 coding - מקבל clinical note, מחזיר ICD-10 codes
•Drug interaction screening
•Lab interpretation
הטכניקה:
•הגדר schema ברור
•דרוש output ב-JSON valid
•הגדר fallback ל-edge cases (תרחישי קצה - מקרים חריגים)
•Validation לאחר המודל
יתרונות:
•מקטין hallucinations - כשהפורמט מוגדר, המודל פחות ממציא שדות חדשים
•קל לפענוח - parser במקום regex
•אינטגרציה קלה למערכות
חסרונות: פחות explanation - JSON לא מסביר reasoning. הפתרון: שדה reasoning ב-schema.
כלים:
•Anthropic API
•OpenAI API
•LangChain
•Instructor (Python)
•zod (TypeScript)
למי שאינם מפתחים: ChatGPT עם Custom GPT, Claude Projects.
•'Skin biopsy from left cheek shows nodular basal cell carcinoma extending to deep margin. Tumor measures 5mm. Peripheral margins clear. No perineural invasion. Mitotic rate 2/HPF'
Prompt באנגלית: 'Extract from this pathology report into JSON with schema:'
•diagnosis
•subtype
•size_mm
•margin_status (peripheral, deep)
•perineural_invasion
•mitotic_rate
•reasoning
Output:
•diagnosis: 'Basal cell carcinoma'
•subtype: 'Nodular'
•size_mm: 5
•margin_status: peripheral 'clear' deep 'positive'
•perineural_invasion: false
•mitotic_rate: 2
•reasoning: 'Report explicitly states extending to deep margin (positive deep) but peripheral margins clear'
כעת אפשר לאחסן ב-database, להזין ל-clinic registry, או לשמש ל-decision support
תועלת: 30 דקות עבודה ידנית הופכות ל-30 שניות
דוגמה: השוואת תרופות.
Prompt: 'השוו 5 ביולוגיות ל-psoriasis. הנפק Markdown table עם עמודות:'
•שם
•מנגנון
•מינון
•PASI-75 ב-week 16
•AE עיקריים
•מחיר ICER (USD)
Output: טבלה עם adalimumab/secukinumab/ixekizumab ועוד, כל אחד עם מנגנון, מינון, אחוז PASI-75, AE, מחיר. קריא, השוואתי, מוכן להצגה
יתרונות:
•יתרון על JSON - human-readable, אפשר להעתיק ולהדביק ל-Word/PowerPoint
•יתרון על plain text - מבנה ברור
•ChatGPT/Claude/Gemini מציגים Markdown יפה ב-UI. ב-API מקבלים raw markdown
מודל ללא tools: יענה מ-memory (יכול להיות hallucination)
מודל עם tools:
•(1) 'I'll search PubMed for recent dupilumab + BP studies'
•(2) Calls function pubmed_search(query='dupilumab bullous pemphigoid', years='2022-2026')
•(3) מקבל JSON עם 15 articles
•(4) 'I'll fetch full text of the 3 most relevant'
•(5) Calls fetch_pmid([12345, 67890, 11223])
•(6) קורא, מנתח
•(7) 'Based on these 3 studies, dupilumab shows CR in 88.9 percent with low recurrence...'
זהו agentic AI
כלים:
•Anthropic Tool Use
•OpenAI Functions
•LangChain agents
•Claude Code (terminal-native)
בשנת 2026 זהו הסטנדרט - לא רק chatbot, אלא assistant שמבצע פעולות. בקליניקה: שילוב עם UpToDate, PubMed, EHR, lab systems
🛡️ Hallucination Mitigation - איך להוריד את ה-30%
שיעורי hallucinations:
•בציטוטים - 30 עד 40 אחוזים (GPT-4), 15 עד 25 אחוזים (GPT-5), 8 עד 12 אחוזים (Claude Opus 4.7)
•במספרים מדויקים - 20 עד 40 אחוזים
•בתרופות לאינדיקציות - 10 עד 20 אחוזים
•בפרטים קליניים דקיקים - 30 עד 50 אחוזים
הסיבה: LLMs לא מאחסנים עובדות אלא תבניות. התשובה נוצרת על בסיס ה-token הסביר ביותר, לא על בסיס האמת.
טכניקות mitigation:
•RAG (Retrieval-Augmented Generation) - היעילה ביותר. במקום שהמודל יסתמך על ידע פנימי, הוא שולף מ-knowledge base (מאגר מסמכים אמיתי) אמיתי. שיעור hallucinations יורד מ-30 אחוזים ל-3 עד 5 אחוזים. כלים: NotebookLM, Perplexity, Claude Projects, ChatGPT Search
•Citation Enforcement - דרוש ציטוט לכל טענה
•'I don't know' Prompting - explicitly מאפשר לומר אינני יודע
•Self-Verification - בקש מהמודל לבדוק את תשובתו
•Temperature reduction - temperature=0 מקטין אקראיות
•Multi-model verification - שאל את אותה שאלה ב-2 מודלים שונים
•Domain restriction - 'רק על psoriasis. אם השאלה אינה קשורה - אמור מחוץ לתחום'
בפועל: שילוב של RAG + citation enforcement + self-verification מוריד hallucinations מ-30 אחוזים ל-2 עד 3 אחוזים. מספיק לרוב המשימות הקליניות.
תשובת המודל:
•(1) Maglie R et al. Dupilumab in BP. JAAD 2022;87:543-548
•(2) Kremer N et al. Anti-IL-4 receptor for BP refractory cases. JEADV 2023;37:e234-e240
•(3) Park CK et al. Dupilumab for elderly BP. Br J Dermatol 2023;188:412-419
בדיקה ב-PubMed:
•(1) קיים אבל הציטוט שגוי - JAAD 2022;87:1100-1107 הוא הנכון
•(2) לא קיים - אין מאמר Kremer N על BP
•(3) קיים אבל הוא Park JH (לא CK), 2023;188:e87-e89, ב-letter
תוצאה: שליש נכון לחלוטין, שליש קיים אבל עם פרטים שגויים, שליש מומצא
זהו הסטנדרט עם LLMs ללא RAG. הפתרון:
•יש לוודא כל ציטוט ב-PubMed לפני השימוש
•או להשתמש ב-Perplexity/NotebookLM שמספקים ציטוטים מאומתים
•(1) אם אינך בטוח לחלוטין - אמור I don't have reliable information on this
•(2) כל מספר/סטטיסטיקה דורשים מקור (PMID, DOI, או guideline + year)
•(3) אם אתה מצטט מאמר - ודא שהוא קיים. אם אינך בטוח - אל תצטט
•(4) הבחן בין evidence-based (יש RCT) לבין expert opinion (case series, guidelines)
•(5) בסיום, ציין confidence level (high/medium/low) ואילו מקורות תומכים
זה מוריד hallucinations ב-20 עד 30 אחוזים. לא 100 אחוזים, אבל באופן משמעותי
דוגמה לתשובה תחת template זה:
•'Dupilumab for BP: There is growing case series evidence (Park JH et al, BJD 2023; Maglie R et al, JAAD 2022). I'm not certain of exact remission rates but reported around 70 to 90 percent in case series. No phase 3 RCT yet (LIBERTY-BP ongoing). Confidence: medium. Note: please verify specific numbers in PubMed - my recall of details may be inaccurate'
זהיר ושימושי בהרבה
•Knowledge base - מאגר המסמכים שלך (PDFs של מאמרים, guidelines, clinic protocols)
•Embedding model - ממיר טקסט לוקטור (embedding - ייצוג מספרי של טקסט; OpenAI text-embedding-3-large, Cohere embed-v3)
•Vector database - שומר embeddings (Pinecone, Weaviate, ChromaDB, או pgvector)
•Retrieval - קלט שאלה ואז embed ואז similarity search (חיפוש דמיון בין וקטורים) ואז top-k chunks (k המקטעים הדומים ביותר)
•LLM - מקבל chunks + question ומחזיר תשובה מבוססת על ה-chunks
כלים פשוטים ללא קוד:
•NotebookLM (Google) - upload PDFs, שאל
•Claude Projects - upload files, שאל
•Perplexity Spaces - דומה
•ChatGPT Custom GPT עם Files
למפתחים:
•LangChain
•LlamaIndex (frameworks)
למידע מקומי בקליניקה:
•AnythingLLM (תוכנת desktop)
•Open WebUI (web interface)
עלויות:
•NotebookLM - חינם
•Claude Pro - 20 דולר לחודש
•Perplexity Pro - 20 דולר לחודש
המלצה:
•למחקר אקדמי - NotebookLM מתאים ביותר
•למידע קליני - AnythingLLM (on-premise, privacy-friendly - רץ מקומית, שומר על פרטיות)
🇮🇱 Take-aways לדרמטולוג בישראל ב-2026
ההצעה המעשית - התחל עם 3 שימושים בסיסיים:
•Literature search עם NotebookLM - הורד 5 עד 10 מאמרים על נושא, העלה ל-NotebookLM, שאל. תוך שבועיים תרגיש שזה משנה
•Drafting מכתבים - במקום להתחיל מאפס. prompt: 'כתוב מכתב הפניה ל-Mohs surgeon על חולה X. כלול: indication, history, dermoscopy findings, anatomic concerns'. 80 אחוזים מוכן, אתה משלים ל-100 אחוזים. חוסך 5 עד 10 דקות למכתב
•Differential diagnosis support - שאלה פתוחה ב-Claude/GPT עם CoT. אין לסמוך על התשובה לבדה - אבל היא מספקת 'מה חשבתי?' ו'מה פספסתי?'
טכניקות שכן צריך לזכור:
•RCT-FC (Role, Context, Task, Format, Constraints)
•CoT לשאלות מורכבות
•Few-shot ל-formatting
•JSON ל-data extraction
•RAG ל-literature
•Anti-hallucination prompts תמיד
בעברית:
•עובד טוב יותר ב-Claude Opus 4.7 וב-Gemini 3.1 Pro מאשר ב-GPT
•אנגלית עדיין מדויקת יותר
•הצעה: שאלה באנגלית, תשובה באנגלית, ודא נכונות, ולאחר מכן בקש 'תרגם לעברית רפואית מקצועית'
הצעדים:
•בחר כלי אחד
•הקצה 30 דקות ביום למשך חודש
•השתמש ב-3 שימושים בסיסיים
•פתח prompt library (אוסף prompts אישי לשימוש חוזר) אישי
•הוסף RAG כשתהיה מוכן
•Literature query: 'אתה researcher במחלה X. סכם state-of-art ב-2026 ב-300 מילים: pathophysiology, key trials, current treatments, future directions. ציטוט PMID לכל הצהרה'
•DDx: 'אישה 35, פריחה Y. (פרטים). בוא נחשוב צעד-צעד: ניתוח קליני, DDx של 5 עם likelihoods, features תומכות/סותרות, bedside tests, labs, המסקנה'
•Referral letter: 'כתוב מכתב הפניה ל-Mohs surgeon, אונקולוג על חולה X. כלול: indication, brief history, key findings, specific question. עברית מקצועית, פורמט קצר, פסקה אחת לכל סעיף'
•Pathology to JSON: 'Extract from this pathology report into JSON with schema diagnosis, subtype, size, margins, special_features. Pathology: paste'
•Drug interaction check: 'Patient takes list. Check for clinically significant interactions. Output table: drug pair, mechanism, severity, recommendation'
העתק לקובץ משותף, שמור, השתמש שוב ושוב
•GPT-5.5 (24 באפריל 2026) - טוב, אבל לעיתים literal translation
•Claude Opus 4.7 (16 באפריל 2026) - טוב יותר מ-GPT בעברית, עם יותר ניואנס
•Gemini 3.1 Pro (19 בפברואר 2026) - טוב, Google משקיעה ב-multilingual (תמיכה רב-לשונית)
•Llama 4 (5 באפריל 2025) - בינוני
•Mistral - חלש
•MedGemma 1.5 - לא אומן ספציפית בעברית, חלש
Tokenization (חלוקת הטקסט ליחידות): עברית = 3 עד 4 tokens למילה (אנגלית = 1). כלומר prompt של 1,000 מילים בעברית = 4,000 tokens. יקר יותר, אורך יותר
שגיאות נפוצות:
•Translation literal: 'diagnosed with melanoma' מתורגם ל'אובחן עם מלנומה' במקום 'אובחן כסובל ממלנומה'
•שילוב לעז שגוי
•שמות תרופות: hyphenation לא תמיד נכון
שיטות:
•שיטת hybrid - prompt באנגלית, תשובה באנגלית. ערוך לפי הצורך. 'תרגם לעברית רפואית מקצועית, השתמש בלעז כשמקובל'. זו השיטה המיטבית
•אופציה אחרת - prompt בעברית עם דוגמאות בעברית - הכל בעברית עד הסוף
•הירשם ל-NotebookLM (חינם) ול-Claude Pro או ChatGPT Plus (20 דולר לחודש). 30 דקות ביום למשך חודש
•הקם prompt library אישי - תיקייה ב-Notion/OneDrive עם 10 prompts ראשונים: literature query, DDx, referral, pathology JSON, drug interactions. בשלושת השבועות הראשונים: עדכן בכל פעם שמצאת prompt טוב
•RCT-FC + CoT - שלוש אותיות (mnemonic) שצריך לזכור. כל prompt מורכב ייבדק מול הרשימה. CoT ל-DDx ול-treatment selection
•Anti-hallucination always - בכל שאלה רפואית, שלב את ה-template: 'If unsure, say so. Cite sources. Distinguish evidence-based from expert opinion'
•RAG ל-literature - NotebookLM הוא הכלי לכך. הורד 5 עד 10 מאמרים, העלה, שאל. תוך חודש זה הופך ל-second nature
בונוס:
•עקוב אחר @AnthropicAI ו-@OpenAI ב-X לעדכונים שבועיים
•5 דקות ביום של מעקב אחרי דמויות AI מובילות (Andrej Karpathy, Eric Topol, Jason Wei) מקנה ידע רב
שורה תחתונה
Prompt engineering אינו אומנות שחורה. זוהי מיומנות שמתבססת על 5 רכיבים (RCT-FC: Role, Context, Task, Format, Constraints), כמה טכניקות יסוד (zero-shot, few-shot, CoT, structured output, persona), ואסטרטגיות mitigation (הפחתה) ל-hallucinations (RAG, citation enforcement, self-verification). מי שיודע אותן ישתמש ב-LLM פי 5 יותר יעיל ממי שלא. השיפור הקריטי בא מ-CoT (הוספה פשוטה של 'Let's think step by step') ומ-RAG (NotebookLM, Claude Projects) להפחתת hallucinations.
הכיוון לדרמטולוג בשנת 2026: Prompt engineering הוא מיומנות חדשה שכל רופא צריך. השקעה של 30 דקות ביום למשך חודש שווה פרודוקטיביות שגדלה פי 3. הצעדים: התחל עם 3 שימושים (literature, drafting, DDx), בנה prompt library, השתמש ב-RCT-FC + CoT, ותמיד הוסף anti-hallucination guards. בעברית עובד אבל פחות טוב מאנגלית - שילוב hybrid הוא הפתרון. זה אינו תחליף לידע - זהו מכפיל כוח לידע שכבר יש לך.
📋 פרטי מקור ומחבר
מאת: ד"ר יהונתן קפלן
מומחה ברפואת עור ומין | מנתח מוז (FACMS)
מבוסס על:
The Prompt Report: A Systematic Survey of Prompting Techniques
Schulhoff S, Ilie M, Balepur N, et al.
arXiv, 2024
הערת עריכה: תוכן זה נכתב ונערך על ידי ד"ר יהונתן קפלן ומבוסס על המאמר המקורי.
אין להסתמך על תוכן זה ללא קריאת המקור המלא.