
עולם מודלי השפה הגדולים (LLMs) עומד בפני שינוי משמעותי — וה-PolyLM מבית DAMO Academy ו-Alibaba Group הוא חלק מרכזי ממנו. רוב המודלים הקיימים, כולל GPT-4 ו-Claude, נבנו סביב האנגלית. PolyLM מאתגר את הנורמה הזו ישירות, עם מודל בקוד פתוח שמשיג תוצאות יוצאות דופן ב-15 שפות מרכזיות לא-אנגליות.
מה זה PolyLM ומי פיתח אותו?
PolyLM הוא מודל שפה רב-לשוני (Polyglot Large Language Model) שפותח על ידי מעבדת DAMO Academy של Alibaba Group — אחת מחברות הטכנולוגיה הגדולות בעולם. המודל שוחרר כקוד פתוח, מה שמאפשר לכל חוקר, חברה או מפתח לגשת אליו, להשתמש בו ולשפר אותו ללא עלות.
- – שם: PolyLM (Polyglot Large Language Model)
- – פותח על ידי: DAMO Academy, Alibaba Group
- – גדלים זמינים: 1.7B פרמטרים ו-13B פרמטרים
- – אומן על: 640 מיליארד טוקנים
- – רישיון: קוד פתוח
- – שפות: 17 שפות (אנגלית + 15 שפות מרכזיות נוספות)
בניגוד למודלים כמו GPT-5.3 של OpenAI שנועלים את היכולות שלהם מאחורי ממשקי API בתשלום, PolyLM נגיש לחלוטין לקהילת המחקר.
אילו שפות תומך PolyLM?
זהו הלב של הפרויקט. המודל לא עוסק בכל שפה אלא מתמקד ב-15 שפות מרכזיות לא-אנגליות שמיוצגות פחות בנוף הבינה המלאכותית:
| אזור | שפות נתמכות |
|---|---|
| אסיה המזרחית | סינית, יפנית, קוריאנית |
| דרום-מזרח אסיה | תאית, אינדונזית |
| המזרח התיכון | ערבית |
| אירופה | ספרדית, רוסית, פורטוגזית, צרפתית, גרמנית |
| דרום אסיה | הינדית |
| אפריקה | סוואהילי |
| בסיס | אנגלית |
כל שפה לא רק "נתמכת" — המודל מסוגל להבין, לנתח ולייצר טקסט ברמה מתקדמת בכל אחת מהן. זה הבדל עצום מהמצב הקיים שבו מודלים "תומכים" בשפה אך למעשה מספקים תוצאות ירודות לעומת ביצועיהם באנגלית.
הטכנולוגיה מאחורי PolyLM — מה הופך אותו לייחודי?
1. למידה מתגברת (Curriculum Learning)
הטכניקה המרכזית שמבדילה את PolyLM מהמתחרים היא גישת הCurriculum Learning — למידה מתוכנת ומדורגת:
- – בשלב הראשון: המודל לומד בעיקר מטקסטים באנגלית
- – בהדרגה: ריכוז הלמידה עובר לשפות עם פחות נתונים זמינים
- – התוצאה: העברת ידע כללי מאנגלית לשפות אחרות
- – יתרון: המודל "מבין" עולמות תוכן גם בשפות שהדאטה שלהן מוגבל
זוהי גישה פורצת דרך שפותרת אחת הבעיות הגדולות ביותר בבינה מלאכותית רב-לשונית: המחסור בנתוני אימון איכותיים בשפות שאינן אנגלית.
2. מאגר הנתונים — 640 מיליארד טוקנים
PolyLM אומן על מגוון עצום של מקורות:
- – Wikipedia — הגרסאות הרב-לשוניות
- – mC4 — מאגר Common Crawl המרובה שפות
- – CC-100 — נתוני Common Crawl בניקוי גבוה
- – סך הכל: 640 מיליארד טוקנים — נפח שרק מעטים השיגו
3. MULTIALPACA — ההוראות הרב-לשוניות
לשיפור יכולת ביצוע הוראות (Instruction Following), החוקרים יצרו את MULTIALPACA — מאגר נתוני הוראות ייעודי לרב-לשוניות. זה מאפשר למודל לא רק להבין שפות, אלא לבצע משימות מורכבות בהן:
- – מענה על שאלות בערבית, יפנית, קוריאנית ועוד
- – סיכום טקסטים בשפת המקור
- – תרגום חוצה-שפות (Cross-lingual Translation)
- – הסקה לוגית (Reasoning) בשפות לא-אנגליות
ביצועים — איך PolyLM מול המתחרים?
המחקר כלל השוואות נרחבות מול מודלים בגודל דומה. התוצאות ברורות:
- – PolyLM 13B עולה על מודלים מתחרים בגדלים דומים בכל 15 השפות הלא-אנגליות
- – PolyLM 1.7B — מדגם קטן — מתחרה עם מודלים גדולים פי 5
- – ביצועים טובים במיוחד ב: ערבית, קוריאנית, תאית, יפנית
- – במשימות תרגום: PolyLM מצטיין בתרגום ישיר בין שפות לא-אנגליות
| משימה | PolyLM 13B | מודלים מתחרים (גודל דומה) |
|---|---|---|
| שאלות ותשובות רב-לשוניות | מוביל | נמוך יותר |
| הבנת שפה (Language Understanding) | מוביל | נמוך יותר |
| יצירת טקסט | גבוה | דומה באנגלית, נמוך יותר בשאר |
| תרגום חוצה-שפות | מוביל | נמוך יותר |
למה זה חשוב — הקשר הרחב יותר
נכון להיום, כ-80% מהנתונים שעליהם מאומנים מודלי AI הם באנגלית — למרות שאנגלית היא שפת האם של פחות מ-20% מאוכלוסיית העולם. המשמעות: מיליארדי אנשים שמדברים ערבית, הינדית, סינית, יפנית ועשרות שפות נוספות — מקבלים ממודלי AI תשובות ברמה נמוכה משמעותית לעומת דוברי אנגלית.
כפי שאנו רואים גם עם GPT Image 2 שהחל להבין עברית, המגמה ברורה: ה-AI האוניברסלי חייב לדבר את כל השפות ברמה שווה. PolyLM הוא צעד חשוב בכיוון הזה.
PolyLM בקוד פתוח — מה זה אומר למפתחים?
שחרור PolyLM כקוד פתוח פותח דלתות עצומות:
- – חוקרים יכולים לבחון, לשכפל ולשפר את הממצאים
- – סטארטאפים יכולים לבנות מוצרים רב-לשוניים ללא עלות רישוי
- – ממשלות ומוסדות יכולים לפתח שירותים ציבוריים בשפות מקומיות
- – Fine-tuning: ניתן לכוון את המודל לתחומים ספציפיים בכל שפה
- – פריסה מקומית: 1.7B פרמטרים — ניתן להריץ על חומרה צנועה
הגרסה הקטנה (1.7B) היא פרטיקולרית מעניינת — היא מספיק קומפקטית להרצה על שרתים ביתיים או ענן זול, ועדיין מספקת תוצאות איכותיות במספר שפות.
שאלות נפוצות על PolyLM
מה זה PolyLM?
מודל שפה בקוד פתוח מבית Alibaba, תומך ב-17 שפות, זמין בגדלים 1.7B ו-13B פרמטרים.
האם PolyLM תומך בעברית?
לא. המודל תומך ב-15 שפות לא-אנגליות — ביניהן ערבית, סינית, יפנית, ספרדית ורוסית — אך לא עברית.
מה ההבדל בין הגרסאות 1.7B ו-13B?
1.7B — קל וקומפקטי להרצה מקומית. 13B — מוביל בביצועים, מתאים ליישומים מסחריים.
מה הלאה — לאן הולך תחום ה-AI הרב-לשוני?
PolyLM הוא חלק ממגמה גוברת: קהילת ה-open source מאתגרת את הגדולים. בעוד OpenAI ו-Google בונים מודלים קנייניים, מחקרים כמו PolyLM מוכיחים שאפשר להגיע לתוצאות מדהימות בשיתוף פעולה פתוח.
כפי שניתן לראות גם מהקרב בין OpenAI ואנתרופיק על הדומיננטיות בשוק, כוחות הדמוקרטיזציה של AI גוברים. PolyLM הוא עוד ראיה לכך שהעתיד שייך למודלים שמדברים את שפת כולם — לא רק של דוברי האנגלית.



