הבוקר קמתי כמו כולכם לבוקר שגרתי באופן הזוי של אזעקות וטילים. שגרה שנכפית עלינו בשלוש שנים האחרונות. אז בין אזעקה לאזעקה ובין ביביסיטר לקטנצ'יק, לכלבה, ולחתול, מה נשאר לעשות ? או לאבד את עצמי לדעת מול צביקי ובני סבטי או לכתוב לכם על עוד שדרוג מטורף שהתרחש בימים האחרונים. כי מה שקרה השבוע ב Nano Banana 2 הרגיש משהוא אחר…

האבולוציה של הבננה: מצעצוע ליצירת מופת הנדסית
כדי להבין לאן הגענו, צריך להיזכר מאיפה התחלנו. Nano Banana המקורי היה ניסיון מעניין לייצר מודל Diffusion מהיר וחסכוני במשאבים. הוא היה נחמד, הוא היה מהיר, אבל הוא סבל מהבעיות הקלאסיות של מודלים קטנים: חוסר עקביות בפרטים קטנים (כמו אישוני עיניים או טקסטורה של בדים) וקושי מהותי ברינדור טקסט בתוך תמונה.
Nano Banana 2 משנה את חוקי המשחק דרך שינוי ב Backbone של המודל. המעבר לארכיטקטורת DiT (Diffusion Transformer) מאפשר לו הבנה סמנטית עמוקה הרבה יותר של הפרומפט. הוא לא רק "מנחש" איפה לשים פיקסלים לפי דפוסים סטטיסטיים, הוא באמת מבין את היחסים המרחביים בין אובייקטים.
מה השתנה ברמת הליבה?
השיפור המרכזי שראינו השבוע הוא ב Multi Token Integration .בניגוד למודלים אחרים שמתקשים כשהפרומפט הופך למסובך או עמוס בפרטים סותרים, ננו בננה 2 מצליח לשמור על קוהרנטיות. אם תבקשו ממנו "אסטרונאוט רוכב על סוס במאדים, כשהשתקפות הקסדה שלו מראה את כדור הארץ וביד שמאל הוא מחזיק מפה של פריז", הוא לא "יאבד" אף אחד מהאלמנטים האלו בדרך.
רינדור טקסט: סוף סוף אפשר להפסיק להשתמש בפוטושופ
אחת מנקודות התורפה הכואבות ביותר של מודלים גנרטיביים הייתה תמיד הטקסט. כולנו מכירים את ה "ג'יבריש" המפורסם – אותיות שנראות כמו שילוב בין עברית עתיקה לכתב יתדות שבור.
השדרוג ב Nano Banana 2 בתחום ה High-Fidelity Text Rendering הוא לא פחות ממדהים. המודל החדש עבר Fine-tuning ספציפי על מערכי נתונים של טיפוגרפיה ועיצוב גרפי.
- דיוק פנומנלי: המודל מסוגל לרנדר משפטים שלמים ללא שגיאות כתיב.
- אינטגרציה עיצובית : הטקסט הוא לא "מדבקה" על התמונה. הוא מושפע מהתאורה, מהצללים ומהפרספקטיבה של הסצנה.
- גיוון פונטים: הוא מבין את ההבדל בין Serif ל Sans-serif ברמה של מעצב גרפי אנושי.
עבורנו, כאנשי מקצוע, זה אומר קיצור משמעותי ב Pipeline של יצירת נכסים שיווקיים, לוגואים ואפילו ממשקי משתמש (UI) ראשוניים.
יכולות מולטי מודאליות: לא רק טקסט לתמונה
כאן ננו בננה 2 באמת מתחיל להשאיר אבק למתחרים. המודל הוא לא רק Text-to-Image , הוא תומך באופן טבעי ב Image+Text-to-Image וב Multi-Image Composition .
עריכה איטרטיבית (Iterative Refinement)
בואו נדבר על ה Pain Point הכי גדול שלנו: הדיאלוג עם המודל. בדרך כלל, אם התמונה כמעט מושלמת אבל הכובע של האיש לא מתאים, שינוי קטן בפרומפט עלול לשנות את כל התמונה.
ב Nano Banana 2 המנגנון שונה. המודל מנהל "זיכרון חזותי" של הדיאלוג. אתם יכולים להגיד לו: "תשאיר הכל אותו דבר, רק תחליף את הכובע למגבעת ויקטוריאנית ותשנה את השעה ביום לשקיעה". והוא עושה בדיוק את זה, בלי להרוס את הקומפוזיציה המקורית.
Style Transfer וקונסיסטנטיות של דמויות
לכל מי שעוסק ב Storytelling או ביצירת קמפיינים רב-ערוציים, היכולת לשמור על אותה דמות בפוזיציות שונות ובסביבות שונות היא "הגביע הקדוש". ננו בננה 2 מציג יכולות Native (ללא צורך ב-LoRA חיצוני או תוספים מורכבים) לשמירה על זהות הדמות (Character Consistency) ברמה גבוהה מאוד. זהו שיפור דרמטי לעומת הגרסה הראשונה שהייתה נוטה "להמציא" את הפנים מחדש בכל דורציה.
ביצועים ויעילות: הניצחון של ה Optimization
בעולם שבו מודלים הופכים לכבדים יותר ויותר, וצריכת האנרגיה של חוות שרתים היא נושא לדיון ציבורי, ננו בננה 2 הולך נגד הזרם. המודל עבר אופטימיזציה מסיבית שמאפשרת לו לרוץ על חומרה צנועה יחסית במהירות שיא.
ננו בננה 2 מול העולם: איפה הוא עומד מול המתחרים?
אי אפשר לכתוב סקירה מקצועית בלי להשוות ל-Big Three,Midjourney, DALL-E ו-Stable Diffusion :
- מול: Midjourney v6 בעוד ש MJ עדיין מחזיק בכתר ה "Aesthetic" (התמונות שלו פשוט נראות טוב בלי מאמץ), הוא נשאר "קופסה שחורה" וסגורה. ננו בננה 2 נותן שליטה הרבה יותר מדויקת ופחות "דעה אישית" של המודל על איך התמונה צריכה להיראות.
- מול DALL-E 3 : דאלי חזק מאוד בהבנת שפה טבעית בזכות החיבור ל ChatGPT , אבל הוא סובל מ"מראה מלאכותי" ופלסטיקי לעיתים קרובות. ננו בננה 2 מצליח לייצר טקסטורות ריאליסטיות (עור, מתכת, זכוכית) שעוקפות את דאלי בסיבוב.
- מול Stable Diffusion (SDXL/SD3) : היתרון של SD הוא האקו-סיסטם וה-Open Source . ננו בננה 2 מציע חוויה הרבה יותר "מלוטשת" ישר מהקופסה, בלי צורך ב 15 תוספים של ControlNet כדי להגיע לתוצאה מקצועית.
מכסות השימוש היומיות
בנוגע למכסות השימוש היומיות במודל, חשוב להבחין בין סוגי החשבונות השונים כדי לתכנן נכון את יום העבודה שלכם.
בחשבון הפרימיום (Paid Tier) ,אתם נהנים מחופש יצירתי נרחב עם מכסה משולבת של 1,000 שימושים ביום המיועדים ליצירה ועריכת תמונות, מה שמאפשר עבודה אינטנסיבית על פרויקטים מורכבים ללא חשש מחסימה.
לעומת זאת, בחשבון החינמי (Free Tier) , המכסה מוגבלת משמעותית ומשתנה בהתאם לעומס על השרתים (בדרך כלל סביב 10 עד 20 תמונות), כאשר הגישה היא בעדיפות נמוכה יותר. כדאי לזכור שהמכסה היומית מתאפסת בכל 24 שעות, ובכל הנוגע ליצירת וידאו (במודל Veo), המכסה מצומצמת הרבה יותר ועומדת על 3 סרטונים ביום בלבד עבור משתמשי הפרימיום.
המגבלות (כי אין מודל מושלם)
אני רוצה להיות כנה איתכם. למרות ההתלהבות, יש מקומות שבהם ננו בננה 2 עדיין צריך להשתפר. בסצנות עמוסות מאוד עם עשרות דמויות קטנות ברקע, עדיין ניתן להבחין בעיוותים אנטומיים קלים בפריפריה של התמונה. בנוסף, המודל לעיתים מחמיר מדי עם פילטרים של SafeSearch , מה שיכול לתסכל יוצרי תוכן אמנותי מסוים (אם כי מדובר בסטנדרט של התעשייה כיום).
הסיכום שלי: האם זה הזמן לעבור?
התשובה הקצרה היא: כן. התשובה הארוכה היא ש Nano Banana 2 מייצג דור חדש של מודלים שמבינים שהעתיד הוא לא רק "יותר פרמטרים", אלא "יותר אינטליגנציה בתוך פחות פרמטרים". השילוב בין מהירות, יכולת רינדור טקסט חסרת תקדים ושליטה איטרטיבית הופך אותו לכלי עבודה פרודוקטיבי באמת, ולא רק לצעצוע ליצירת תמונות פרופיל מגניבות.
העובדה שהוא מגיע עם מכסה של 1000 שימושים ביום ) בגרסת ה(Paid הופכת אותו לנגיש במיוחד עבור צוותי קריאייטיב ופיתוח.
רוצים לראות את זה קורה ?
ביקשתי מגמיני…
ארצה סט פרומפטים אופטימליים ל מותג AI-INSIDE A שעוסק במתן הרצאות וסדנאות ב AI ואז לייצר לו קונספט וויזואלי ראשון באמצעות המודל.


ניתוח התוצאה לאור היכולות של Nano Banana 2:
- אינטגרציית טקסט: כפי שציינתי בסקירה, רינדור הטקסט הוא נקודת החוזק. הלוגו "AI-INSIDE" על הטאבלט השקוף מופיע בצורה קריאה, נקייה, ובפונט Sans-serif שמתאים למותג טכנולוגי.
- קומפוזיציה מורכבת: המודל שילב בהצלחה את הדיוקן האינטימי יחד עם אלמנטים מופשטים של "זרימת דאטה" (Data Flows) ורשתות נוירונים, בלי שאלו ייראו כמו "מדבקה" על הפנים. התאורה החמה (Ambers) משתלבת יפה בתאורה הכללית של הסצנה.
- דיוק בפרטים (High-Fidelity): האישונים, הטקסטורה של הבד והקווים הדקים של ה-Data Stream מרונדרים כולם בחדות מרשימה, ללא העיוותים שהיו אופייניים למודלים קטנים יותר.



