Google DeepMind lansează modelul DiffusionGemma pentru generarea rapidă de texte

Google DeepMind a prezentat modelul său experimental de inteligență artificială, DiffusionGemma, care accelerează generarea de texte de până la 4 ori. Modelul este disponibil sub licența Apache 2.0 și poate fi utilizat pe diverse GPU-uri.

Pe scurt

DiffusionGemma poate genera texte de până la 4 ori mai repede comparativ cu modelele tradiționale.
Modelul are 26 miliarde de parametri, dar activează doar 3,8 miliarde în timpul inferenței.
Funcționează pe GPU-uri de consum, precum NVIDIA H100 și RTX 5090.
Modelul este disponibil pe Hugging Face și poate fi folosit cu diverse instrumente AI.

Google DeepMind a anunțat lansarea modelului său de inteligență artificială, DiffusionGemma, care se concentrează pe generarea rapidă a textelor printr-un nou mecanism de difuzie. Spre deosebire de majoritatea modelelor AI care generează texte în mod secvențial, DiffusionGemma produce blocuri de text în paralel, ceea ce îi permite să fie mai eficient pe hardware obișnuit, cum ar fi GPU-urile de gaming.

Modelul DiffusionGemma face parte din familia Gemma 4 și este un model de tip Mixture of Experts, având un total de 26 miliarde de parametri, dar activând doar 3,8 miliarde dintre aceștia în timpul procesului de inferență. Google a menționat că modelul poate funcționa pe GPU-uri de consum cu o capacitate de 18 GB VRAM, ceea ce îl face accesibil pentru utilizatorii individuali.

Ce avantaje aduce DiffusionGemma?

DiffusionGemma se distinge printr-o abordare diferită față de modelele tradiționale autoregresive. În loc să genereze text de la stânga la dreapta, modelul creează simultan un bloc de 256 de tokeni, pe care îl îmbunătățește în mai multe etape pentru a obține rezultatul final. Această metodă optimizează utilizarea GPU-ului, în special în aplicațiile de inteligență artificială destinate utilizatorilor unici.

Conform informațiilor furnizate de Google, modelul poate produce peste 1000 de tokeni pe secundă pe un GPU NVIDIA H100 și peste 700 de tokeni pe secundă pe un NVIDIA GeForce RTX 5090. Aceste statistici sugerează o îmbunătățire semnificativă a vitezei de generare a textului, ceea ce poate fi benefic pentru diverse aplicații, cum ar fi editarea în linie, completarea codului și generarea de structuri textuale complexe.

Cum poate fi utilizat DiffusionGemma?

Modelul este disponibil sub licența Apache 2.0 și poate fi accesat prin Hugging Face. Google a anunțat că DiffusionGemma poate fi utilizat împreună cu instrumente precum MLX, vLLM și Hugging Face Transformers, iar suportul pentru llama.cpp va fi disponibil în curând. În plus, modelul poate fi testat în cloud prin intermediul Gemini Enterprise Agent Platform Model Garden și NVIDIA NIM.

Google subliniază că, deși DiffusionGemma oferă viteze de generare rapide, nu ar trebui să fie considerat un înlocuitor direct pentru modelele Gemma 4 standard, care sunt recomandate pentru scenarii ce necesită o calitate superioară a output-ului. Modelul a fost optimizat pentru viteză și producție paralelă, fiind ideal pentru utilizări rapide și experimentale.

În concluzie, DiffusionGemma reprezintă un pas important în evoluția tehnologiilor de generare a textului, oferind utilizatorilor o soluție rapidă și eficientă pentru diverse aplicații AI.

Întrebări frecvente

Ce este DiffusionGemma?

DiffusionGemma este un model AI dezvoltat de Google DeepMind, destinat generării rapide de texte printr-o abordare de difuzie.

Cât de rapid este DiffusionGemma?

Modelul poate genera peste 1000 de tokeni pe secundă pe un GPU NVIDIA H100.

Unde pot accesa DiffusionGemma?

Modelul este disponibil pe Hugging Face și poate fi utilizat cu diverse instrumente AI.

Care este diferența față de modelele tradiționale?

Spre deosebire de modelele tradiționale, DiffusionGemma generează blocuri de text în paralel, ceea ce îmbunătățește eficiența.

Despre acest articol

Sursă originală: webrazzi.com

Acest articol a fost redactat de redacția TechnoLife pe baza informațiilor din sursa citată, cu asistența unor instrumente AI pentru traducere și structurare. Conținutul este verificat editorial înainte de publicare. Pentru orice corecție factuală, ne poți contacta prin pagina de Contact.