חברת גוגל הודיעה היום על עדכונים משמעותיים בחזיתות אלה, כולל הזמינות הכללית של Cloud Text To-Speech , פרופילי שמע חדשים הממירים את הצליל עבור השמעה במכשירים שונים, שיפורים בהכרה רב-ערוצית ועוד.
ראשית ברשימה: שיפור סינתזת הדיבור בטקסט של Google לדיבור של טקסט לדיבור. החל מהשבוע, הוא יציע גישה רב לשונית לקולות שנוצרו באמצעות WaveNet , טכניקת לימוד מכונה שפותחה על ידי חברת הבת Deep Alind . בלי לצלול עמוק מדי לתוך העשבים, זה מחקה דברים כמו מתח אינטונציה בדיבור - צלילים המוזכרים בלשנות כמו פרוזודי - על ידי זיהוי דפוסי טונאלי. בנוסף להפקת קטעי טקסט משכנעים הרבה יותר מהדגמים הקודמים, הוא גם יעיל יותר - פועל בחומרה של Google TPU בענן, WaveNet יכול לייצר מדגם של שנייה אחת תוך 50 מילי-שניות בלבד.
קלאוד טקסט לדיבור מציע כעת 17 קולות WaveNet חדשים ותומך 14 שפות וגרסאות.בסך הכל, יש 56 קולות סה"כ: 30 קולות סטנדרטיים 26 קולות WaveNet על ההצעה. (עיין בדף אינטרנט זה עבור הרשימה המלאה).
Comments