[ ARTICLE · 28.05.2026 ]
Gemini 3.5 Flash הושק ב-I/O 2026: 'תבונה עם פעולה'
בבוקר ה-19 במאי 2026, על במת Google I/O, Koray Kavukcuoglu — ה-Chief Technologist של DeepMind — לא הציג עוד צ'אטבוט. הוא הציג מודל שבונה מערכת הפעלה מאפס וממשיך לרוץ אוטונומית במשך שעות. השם: Gemini 3.5 Flash. הכותרת שגוגל בחרה לדור החדש — 'frontier intelligence with action' — מסגרה את כל ההשקה: לא מודל שמדבר, מודל שעושה. ולמפתח הישראלי שמריץ סוכני vibe coding ב-Cursor או ב-Claude Code, זה לא חדשות מרחוק — זה המוח החדש שאפשר לחבר ללולאה כבר עכשיו.
מה בדיוק הושק, ולמה Flash ולא Pro
ההפתעה האמיתית היא הסדר. בדורות הקודמים מודל ה-Pro היה הכוכב ומודל ה-Flash היה הגרסה הזולה והמהירה שמתפשרת על איכות. הפעם גוגל הפכה את היוצרות: Gemini 3.5 Flash יוצא ראשון, זמין גלובלית מיום ההשקה, ולפי Kavukcuoglu הוא 'עוקף את מודל החזית האחרון שלנו, 3.1 Pro, כמעט בכל המדדים'. במילים אחרות — מודל ה-Flash הזול של הדור החדש מנצח את מודל ה-Pro היקר של הדור הקודם. Gemini 3.5 Pro כבר בשימוש פנימי בגוגל, אך ההשקה הרחבה שלו מתוכננת רק לחודש הבא.
סיפור העלות והמהירות: למה זה משנה כלכלית
תארו לכם סוכן שמתחזק monorepo: קורא קבצים, מריץ טסטים, מתקן באגים, פותח PR. כל step שולח context גדול ל-LLM ומקבל פלט. בעולם של מודלי חזית יקרים, ריצה כזאת לאורך שעה יכולה לשרוף עשרות דולרים. כאן נכנס הטיעון המרכזי של גוגל: Gemini 3.5 Flash רץ פי 4 מהר במונחי output tokens-per-second ממודלי חזית אחרים, והמשימות מסתיימות לרוב בפחות ממחצית העלות. גוגל אף ציינה גרסה ממוטבת שמגיעה למהירות פי 12 באותה איכות.
המספרים היבשים: 1.50$ למיליון טוקני קלט, 9.00$ למיליון טוקני פלט, ו-0.15$ בלבד למיליון טוקני קלט cached — פי עשרה הנחה על תוכן שחוזר על עצמו, מה שקריטי לסוכנים ששולחים שוב ושוב את אותו system prompt ואותו קוד בסיס. חלון ההקשר עומד על 1,048,576 טוקנים (מעל מיליון), עם תקרת פלט של 65,536 טוקנים לבקשה. קלט מולטימודלי מלא — טקסט, תמונה, אודיו, וידאו — עם knowledge cutoff של ינואר 2026.
# קריאה בסיסית ל-Gemini 3.5 Flash דרך ה-Gemini API
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{ "text": "רפקטר את הפונקציה הזו ל-async/await והוסף טסטים" }]
}]
}'השורה התחתונה הכלכלית: מהירות פי 4 ועלות מחצית הופכות ריצות אגנטיות ארוכות מ'יקר מדי לפרודקשן' ל'ברירת מחדל סבירה'.
המדדים: היכן Flash באמת בורח קדימה
מפתח שמעריך מודל לסוכן קידוד לא מסתכל על שיחת חולין — הוא מסתכל על מדדים אגנטיים. כאן Gemini 3.5 Flash בולט במיוחד. לפי הבלוג של גוגל, הוא מגיע ל-76.2% ב-Terminal-Bench 2.1 (משימות בטרמינל שדורשות תכנון ותיקון), ל-1656 Elo ב-GDPval-AA (משימות עבודה אגנטיות), ל-83.6% ב-MCP Atlas (שימוש בכלים דרך פרוטוקול MCP) ו-84.2% ב-CharXiv Reasoning (הסקה מולטימודלית מתרשימים). הצירוף של ציון tool-use גבוה עם הסקה ויזואלית הוא בדיוק מה שסוכן שצריך לקרוא דשבורד, להבין גרף, ולהפעיל כלי בהתאם צריך.
"3.5 Flash מציע שילוב מדהים של איכות ו-latency נמוך" — Koray Kavukcuoglu, Chief Technologist, Google DeepMind
המוח שמאחורי סוכני ה-vibe coding
המסר האסטרטגי של גוגל ב-I/O היה חד: המעבר מ-AI כשותף לשיחה ל-AI כסוכן ש'מתכנן, בונה ומשפר עבודה אמיתית במינימום מעורבות אנושית'. ולמי שחי בתוך עולם ה-vibe coding, זה התרגום הישיר של חוויית העבודה היומיומית — אתה מתאר מה שאתה רוצה בשפה טבעית, והסוכן מריץ את הלולאה. גוגל ממצבת את Flash במפורש ל-long-horizon agentic tasks: תהליכים רב-שלביים, תחזוקת codebase, והכנת מסמכים — ריצות שיכולות להימשך שעות ברצף.
פרט מעניין שעלה מההשקה: לפי Tulsee Doshi, המודל 'לעיתים יעצור ויבקש קלט מהמשתמש כשהוא מגיע לנקודת החלטה או לבעיית הרשאות'. זו לא חולשה — זו תכונה שמייצרת אמון. סוכן שיודע מתי לעצור ולשאול 'האם למחוק את הטבלה הזו?' הוא סוכן שאפשר לשחרר על codebase פרודקשן בלי לאבד שינה.
אתה סוכן תחזוקת codebase שרץ על Gemini 3.5 Flash.
משימה: עבור על מודול ה-auth, מצא endpoints ללא rate limiting, הוסף middleware מתאים, כתוב טסטים, ופתח PR.
כללים: עצור ושאל אותי לפני כל שינוי schema או מחיקת נתונים. דווח על כל step בקצרה.
התחל בסריקה ובהצגת תוכנית עבודה לאישור.איפה לגעת בזה כבר היום
הזמינות רחבה מאוד מיום אחד. Gemini 3.5 Flash נגיש דרך אפליקציית Gemini (לכל המשתמשים גלובלית), דרך AI Mode בחיפוש של גוגל, דרך פלטפורמת Google Antigravity (סביבת הסוכנים של גוגל), דרך ה-Gemini API — כולל Google AI Studio ו-Android Studio — ודרך Gemini Enterprise ופלטפורמת הסוכנים שלה. עבור מי שבונה, נקודת הכניסה המעשית היא AI Studio: מקבלים מפתח, מחליפים שם מודל ל-gemini-3.5-flash, ומריצים. בזכות תמחור ה-cached input הנמוך, מי שעובד עם אותו codebase שוב ושוב יראה הבדל משמעותי בחשבון בסוף החודש.
Gemini 3.5 Flash הוא ההצבעה הברורה ביותר של גוגל עד כה: העתיד של ה-AI לא נמדד בכמה יפה הוא מדבר, אלא בכמה רחוק הוא יכול לרוץ לבד — מהר, בזול, ועם היד על הבלם כשצריך.
נקודות עיקריות
- Gemini 3.5 Flash הוכרז ב-19 במאי 2026 ב-I/O וזמין גלובלית מיום ההשקה.
- רץ פי 4 מהר ממודלי חזית אחרים ולרוב במחצית העלות; עוקף את Gemini 3.1 Pro כמעט בכל מדד.
- תמחור: 1.50$ קלט / 9.00$ פלט / 0.15$ קלט cached למיליון טוקנים; חלון הקשר 1,048,576 טוקנים.
- מדדים מובילים: Terminal-Bench 2.1 76.2%, GDPval-AA 1656 Elo, MCP Atlas 83.6%, CharXiv Reasoning 84.2%.
- ממוצב ל-long-horizon agentic tasks — תהליכים רב-שלביים, תחזוקת codebase והכנת מסמכים.
- Gemini 3.5 Pro בשימוש פנימי כ-orchestrator/planner, השקה רחבה מתוכננת לחודש הבא (יוני 2026).
שאלות נפוצות
מתי הושק Gemini 3.5 Flash ואיפה הוא זמין?
המודל הוכרז ב-19 במאי 2026 ב-Google I/O וזמין גלובלית מיום ההשקה. אפשר להגיע אליו דרך אפליקציית Gemini, AI Mode בחיפוש, פלטפורמת Google Antigravity, ה-Gemini API (כולל AI Studio ו-Android Studio) ו-Gemini Enterprise.
כמה עולה Gemini 3.5 Flash דרך ה-API?
התמחור הרשמי הוא 1.50$ לכל מיליון טוקני קלט ו-9.00$ לכל מיליון טוקני פלט. קלט cached יורד ל-0.15$ למיליון. חלון ההקשר הוא 1,048,576 טוקנים, עם תקרת פלט של 65,536 טוקנים לבקשה.
במה Gemini 3.5 Flash שונה מ-Gemini 3.1 Pro?
לפי גוגל, Flash עוקף את 3.1 Pro כמעט בכל מדד קידוד ואגנטי, רץ פי 4 מהר במונחי tokens-per-second, ועולה לרוב פחות ממחצית המחיר של מודלי חזית אחרים. זהו מהפך: מודל ה-Flash הזול מנצח את מודל ה-Pro של הדור הקודם.
מה זה 'long-horizon agentic tasks' ולמה זה רלוונטי ל-vibe coding?
אלו משימות רב-שלביות שרצות לאורך זמן בלי פיקוח צמוד — תחזוקת codebase, הכנת מסמכים, ריצות אוטונומיות של שעות. גוגל מדגימה בניית מערכת הפעלה מאפס. בדיוק הלולאה שסוכני vibe coding מריצים, ועכשיו במהירות ומחיר שמאפשרים אותה בקנה מידה.
מתי יוצא Gemini 3.5 Pro?
נכון לסוף מאי 2026, 3.5 Pro כבר בשימוש פנימי בגוגל אך עוד לא זמין באופן רחב. ההשקה מתוכננת לחודש הבא (יוני 2026). גוגל ממצבת אותו כ-orchestrator/planner שמתזמר sub-agents מבוססי Flash.