Nu lăsați depozitarea să devină obstacolul cheie în antrenamentul pentru modele

Se spune că companiile de tehnologie fie caută GPU-uri, fie sunt pe cale să le achiziționeze. În aprilie, CEO-ul Tesla, Elon Musk, a achiziționat 10.000 de GPU-uri și a declarat că compania va continua să cumpere o cantitate mare de GPU-uri de la NVIDIA. În ceea ce privește întreprinderile, personalul IT depune eforturi pentru a se asigura că GPU-urile sunt utilizate în mod constant pentru a maximiza rentabilitatea investiției. Cu toate acestea, unele companii pot descoperi că, în timp ce numărul de GPU-uri crește, inactivitatea GPU-urilor devine mai severă.

Dacă istoria ne-a învățat ceva despre calculul de înaltă performanță (HPC), este că stocarea și rețeaua nu ar trebui sacrificate în detrimentul concentrării prea mult pe calcul. Dacă stocarea nu poate transfera în mod eficient datele către unitățile de calcul, chiar dacă aveți cele mai multe GPU-uri din lume, nu veți obține o eficiență optimă.

Potrivit lui Mike Matchett, analist la Small World Big Data, modelele mai mici pot fi executate în memorie (RAM), permițând mai multă concentrare pe calcul. Cu toate acestea, modelele mai mari precum ChatGPT cu miliarde de noduri nu pot fi stocate în memorie din cauza costului ridicat.

„Nu puteți încadra miliarde de noduri în memorie, așa că stocarea devine și mai importantă”, spune Matchett. Din păcate, stocarea datelor este adesea trecută cu vederea în timpul procesului de planificare.

În general, indiferent de cazul de utilizare, există patru puncte comune în procesul de formare a modelului:

1. Training model
2. Aplicație de inferență
3. Stocarea datelor
4. Calcul accelerat

La crearea și implementarea modelelor, cele mai multe cerințe prioritizează mediile de proba de concept rapidă (POC) sau mediile de testare pentru a iniția instruirea modelelor, nevoile de stocare a datelor nefiind luate în considerare la maxim.

Cu toate acestea, provocarea constă în faptul că pregătirea sau implementarea inferenței poate dura luni sau chiar ani. Multe companii își extind rapid dimensiunile modelelor în această perioadă, iar infrastructura trebuie să se extindă pentru a se adapta la modelele și seturile de date în creștere.

Cercetările de la Google cu privire la milioane de sarcini de lucru de antrenament ML arată că o medie de 30% din timpul de instruire este cheltuit pe canalul de date de intrare. În timp ce cercetările anterioare s-au concentrat pe optimizarea GPU-urilor pentru a accelera antrenamentul, mai rămân multe provocări în optimizarea diferitelor părți ale conductei de date. Când aveți o putere de calcul semnificativă, adevăratul blocaj devine cât de repede puteți introduce date în calcule pentru a obține rezultate.

Mai exact, provocările în stocarea și gestionarea datelor necesită planificarea creșterii datelor, permițându-vă să extrageți continuu valoarea datelor pe măsură ce progresați, în special atunci când vă aventurați în cazuri de utilizare mai avansate, cum ar fi învățarea profundă și rețelele neuronale, care impun cerințe mai mari pentru stocare în termeni de capacitate, performanță și scalabilitate.

În special:

Scalabilitate
Învățarea automată necesită manipularea unor cantități mari de date și, pe măsură ce volumul de date crește, precizia modelelor se îmbunătățește și ea. Aceasta înseamnă că companiile trebuie să colecteze și să stocheze mai multe date în fiecare zi. Atunci când stocarea nu se poate scala, sarcinile de lucru mari de date creează blocaje, limitând performanța și ducând la timp costisitor de inactivitate a GPU-ului.

Flexibilitate
Suportul flexibil pentru mai multe protocoale (inclusiv NFS, SMB, HTTP, FTP, HDFS și S3) este necesar pentru a satisface nevoile diferitelor sisteme, în loc să fie limitat la un singur tip de mediu.

Latența
Latența I/O este critică pentru construirea și utilizarea modelelor, deoarece datele sunt citite și recitite de mai multe ori. Reducerea latenței I/O poate scurta timpul de antrenament al modelelor cu zile sau luni. Dezvoltarea mai rapidă a modelului se traduce direct în avantaje mai mari de afaceri.

Debit
Performanța sistemelor de stocare este crucială pentru formarea eficientă a modelelor. Procesele de instruire implică cantități mari de date, de obicei în teraocteți pe oră.

Acces paralel
Pentru a obține un randament ridicat, modelele de instruire împart activitățile în mai multe sarcini paralele. Acest lucru înseamnă adesea că algoritmii de învățare automată accesează aceleași fișiere din mai multe procese (posibil pe mai multe servere fizice) simultan. Sistemul de stocare trebuie să facă față solicitărilor concurente fără a compromite performanța.

Cu capabilitățile sale remarcabile de latență scăzută, debit mare și I/O paralelă la scară mare, Dell PowerScale este un complement de stocare ideal pentru calculul accelerat de GPU. PowerScale reduce în mod eficient timpul necesar pentru modelele de analiză care antrenează și testează seturi de date multi-terabyte. În stocarea PowerScale all-flash, lățimea de bandă crește de 18 ori, eliminând blocajele I/O și poate fi adăugată clusterelor Isilon existente pentru a accelera și debloca valoarea unor cantități mari de date nestructurate.

În plus, capabilitățile de acces multi-protocol ale PowerScale oferă o flexibilitate nelimitată pentru rularea sarcinilor de lucru, permițând stocarea datelor folosind un protocol și accesate folosind altul. În mod specific, caracteristicile puternice, flexibilitatea, scalabilitatea și funcționalitatea de nivel enterprise ale platformei PowerScale ajută la abordarea următoarelor provocări:

- Accelerează inovația de până la 2,7 ori, reducând ciclul de formare a modelului.

- Eliminați blocajele I/O și oferiți instruire și validare mai rapidă a modelului, precizie îmbunătățită a modelului, productivitate îmbunătățită în știința datelor și rentabilitate maximizată a investițiilor în calcul prin valorificarea caracteristicilor de nivel enterprise, performanță ridicată, concurență și scalabilitate. Îmbunătățiți acuratețea modelului cu seturi de date mai profunde, cu rezoluție mai mare, valorificând până la 119 PB de capacitate de stocare efectivă într-un singur cluster.

- Realizați implementarea la scară, pornind calcularea și stocarea la scară mică și independentă, oferind opțiuni solide de protecție și securitate a datelor.

- Îmbunătățiți productivitatea științei datelor cu analize la fața locului și soluții prevalidate pentru implementări mai rapide și cu risc scăzut.

- Utilizarea designurilor dovedite bazate pe cele mai bune tehnologii, inclusiv accelerarea GPU NVIDIA și arhitecturile de referință cu sisteme NVIDIA DGX. Performanța ridicată și concurența PowerScale îndeplinesc cerințele de performanță a stocării în fiecare etapă a învățării automate, de la achiziția și pregătirea datelor până la antrenamentul modelului și inferența. Împreună cu sistemul de operare OneFS, toate nodurile pot funcționa fără probleme în cadrul aceluiași cluster condus de OneFS, cu funcții la nivel de întreprindere, cum ar fi managementul performanței, managementul datelor, securitatea și protecția datelor, permițând finalizarea mai rapidă a instruirii și validarea modelelor pentru companii.


Ora postării: Iul-03-2023