ZONOS2: Noua generație de TTS AI

Spread the love

Modelul TTS care aduce clonare vocală de înaltă fidelitate și generare audio în timp real, bazate pe arhitectura MoE.

ZONOS2 este cel mai nou model text‑to‑speech dezvoltat de Zyphra, conceput pentru a oferi clonare vocală extrem de fidelă, generare audio în timp real și o arhitectură Mixture‑of‑Experts (MoE) unică în zona TTS open‑source. Modelul este licențiat Apache 2.0 și reprezintă un salt major față de generația anterioară Zonos‑v0.1.

Ce aduce nou ZONOS2

ZONOS2 folosește o arhitectură MoE redusă, cu 900M parametri activi și 8B parametri total , oferind performanțe de top în clonarea vocii și naturalitatea vorbirii. Modelul este disponibil prin API și poate genera audio 44.1 kHz folosind Descript Audio Codec (DAC) .

Unul dintre obiectivele principale ale ZONOS2 este eliminarea compromisului tradițional dintre calitate și latență în TTS în timp real. Arhitectura MoE și scalarea masivă a datelor permit obținerea unei fidelități vocale remarcabile fără a sacrifica viteza de inferență .

Clonare vocală de înaltă fidelitate

Modelul excelează în:

similaritatea vocii
variația prozodică
naturalness

Aceste rezultate sunt confirmate de benchmark‑uri precum seed‑tts‑eval și noul ZTTS1‑Eval propus de Zyphra .

ZONOS2 oferă două moduri de generare:

Stable – pentru output curat, „studio‑quality”, chiar dacă sursa are zgomot sau distorsiuni
Expressive – pentru fidelitate maximă față de vocea originală, inclusiv imperfecțiuni naturale

Arhitectură MoE pentru TTS în timp real

ZONOS2 este primul model TTS open‑source care adoptă o arhitectură MoE inspirată din familia de modele ZAYA . Această abordare permite:

creșterea dimensiunii modelului de la 1.6B la 8B parametri
4× throughput față de versiunea anterioară
eliminarea dependenței de Classifier Free Guidance (CFG)

Modelul prezice tokeni DAC autoregresiv, care sunt apoi decodați în audio 44.1 kHz, menținând atât calitatea, cât și viteza de generare .

Antrenare pe 6 milioane de ore de audio

Zyphra a extins setul de date de la ~200.000 ore la peste 6 milioane de ore (≈707 ani) de audio pentru a crește robustețea și acoperirea lingvistică a modelului .

Procesul de antrenare are trei faze:

Pre‑training pe întregul set de date, cu filtrare minimă
Mid‑training cu filtrare strictă pentru reducerea halucinațiilor
Annealing cu introducerea embedding‑ului de speaker și a controlului calității audio

Această strategie reduce erorile, îmbunătățește generalizarea și crește naturalețea vorbirii generate.

Multilingvism și code‑switching

ZONOS2 suportă generare audio multilingvă și code‑switching până la 1 minut de vorbire continuă. Modelul folosește tokenizare raw UTF‑8, eliminând necesitatea fonemizării și îmbunătățind performanța în limbi cu resurse reduse precum chineză, coreeană sau japoneză .

Control avansat al vorbirii

Modelul permite ajustarea:

vitezei de vorbire (8 niveluri)
volumului
SNR‑ului
bandlimit‑ului audio final

Aceste opțiuni oferă utilizatorilor control fin asupra stilului și calității vorbirii generate .

ZTTS1‑Eval: un nou standard pentru evaluarea TTS

Zyphra introduce ZTTS1‑Eval, un benchmark modern care rezolvă limitările Seed‑TTS‑Eval și CV3‑Eval, oferind:

9 limbi „Clean” (FLEURS‑R)
17 limbi „In‑The‑Wild” (VoxBlink2)
ASR modern (Qwen3‑ASR)
metrici avansate pentru prozodie și diversitate (TTSDS, DS‑WED)

Acest benchmark reflectă mai bine performanța reală a modelelor TTS în condiții variate.

Concluzie

ZONOS2 reprezintă un pas major înainte în domeniul TTS open‑source: un model rapid, expresiv, scalat masiv și capabil de clonare vocală extrem de fidelă. Arhitectura MoE, antrenarea pe milioane de ore și noile mecanisme de control fac din ZONOS2 una dintre cele mai avansate soluții TTS disponibile în prezent.

ZONOS2: Noua generație de TTS AI

Modelul TTS care aduce clonare vocală de înaltă fidelitate și generare audio în timp real, bazate pe arhitectura MoE.

Leave a Comment Cancel Reply

Sign up for Newsletter

Modelul TTS care aduce clonare vocală de înaltă fidelitate și generare audio în timp real, bazate pe arhitectura MoE.

Must Read

Leave a Comment Cancel Reply