ZONOS2: Noua generație de TTS AI

Spread the love

Modelul TTS care aduce clonare vocală de înaltă fidelitate și generare audio în timp real, bazate pe arhitectura MoE.

ZONOS2 este cel mai nou model text‑to‑speech dezvoltat de Zyphra, conceput pentru a oferi clonare vocală extrem de fidelă, generare audio în timp real și o arhitectură Mixture‑of‑Experts (MoE) unică în zona TTS open‑source. Modelul este licențiat Apache 2.0 și reprezintă un salt major față de generația anterioară Zonos‑v0.1.

Ce aduce nou ZONOS2

ZONOS2 folosește o arhitectură MoE redusă, cu 900M parametri activi și 8B parametri total , oferind performanțe de top în clonarea vocii și naturalitatea vorbirii. Modelul este disponibil prin API și poate genera audio 44.1 kHz folosind Descript Audio Codec (DAC) .

Unul dintre obiectivele principale ale ZONOS2 este eliminarea compromisului tradițional dintre calitate și latență în TTS în timp real. Arhitectura MoE și scalarea masivă a datelor permit obținerea unei fidelități vocale remarcabile fără a sacrifica viteza de inferență .

Clonare vocală de înaltă fidelitate

Modelul excelează în:

  • similaritatea vocii
  • variația prozodică
  • naturalness

Aceste rezultate sunt confirmate de benchmark‑uri precum seed‑tts‑eval și noul ZTTS1‑Eval propus de Zyphra .

ZONOS2 oferă două moduri de generare:

  • Stable – pentru output curat, „studio‑quality”, chiar dacă sursa are zgomot sau distorsiuni
  • Expressive – pentru fidelitate maximă față de vocea originală, inclusiv imperfecțiuni naturale

Arhitectură MoE pentru TTS în timp real

ZONOS2 este primul model TTS open‑source care adoptă o arhitectură MoE inspirată din familia de modele ZAYA . Această abordare permite:

  • creșterea dimensiunii modelului de la 1.6B la 8B parametri
  • 4× throughput față de versiunea anterioară
  • eliminarea dependenței de Classifier Free Guidance (CFG)

Modelul prezice tokeni DAC autoregresiv, care sunt apoi decodați în audio 44.1 kHz, menținând atât calitatea, cât și viteza de generare .

Antrenare pe 6 milioane de ore de audio

Zyphra a extins setul de date de la ~200.000 ore la peste 6 milioane de ore (≈707 ani) de audio pentru a crește robustețea și acoperirea lingvistică a modelului .

Procesul de antrenare are trei faze:

  1. Pre‑training pe întregul set de date, cu filtrare minimă
  2. Mid‑training cu filtrare strictă pentru reducerea halucinațiilor
  3. Annealing cu introducerea embedding‑ului de speaker și a controlului calității audio

Această strategie reduce erorile, îmbunătățește generalizarea și crește naturalețea vorbirii generate.

Multilingvism și code‑switching

ZONOS2 suportă generare audio multilingvă și code‑switching până la 1 minut de vorbire continuă. Modelul folosește tokenizare raw UTF‑8, eliminând necesitatea fonemizării și îmbunătățind performanța în limbi cu resurse reduse precum chineză, coreeană sau japoneză .

Control avansat al vorbirii

Modelul permite ajustarea:

  • vitezei de vorbire (8 niveluri)
  • volumului
  • SNR‑ului
  • bandlimit‑ului audio final

Aceste opțiuni oferă utilizatorilor control fin asupra stilului și calității vorbirii generate .

ZTTS1‑Eval: un nou standard pentru evaluarea TTS

Zyphra introduce ZTTS1‑Eval, un benchmark modern care rezolvă limitările Seed‑TTS‑Eval și CV3‑Eval, oferind:

  • 9 limbi „Clean” (FLEURS‑R)
  • 17 limbi „In‑The‑Wild” (VoxBlink2)
  • ASR modern (Qwen3‑ASR)
  • metrici avansate pentru prozodie și diversitate (TTSDS, DS‑WED)

Acest benchmark reflectă mai bine performanța reală a modelelor TTS în condiții variate.

Concluzie

ZONOS2 reprezintă un pas major înainte în domeniul TTS open‑source: un model rapid, expresiv, scalat masiv și capabil de clonare vocală extrem de fidelă. Arhitectura MoE, antrenarea pe milioane de ore și noile mecanisme de control fac din ZONOS2 una dintre cele mai avansate soluții TTS disponibile în prezent.

Leave a Comment

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Scroll to Top