Creatorii de pe YouTube, surprinși de utilizarea neautorizată a videoclipurilor lor pentru antrenarea IA

-

Creatori de conținut de pe YouTube au fost surprinși să afle că Apple și alte companii mari de tehnologie au antrenat modele de inteligență artificială folosind videoclipurile lor, fără consimțământul lor. Un raport recent publicat în Proof News și Wired arată că aceste companii au folosit “The Pile”, un set de date creat de organizația non-profit EleutherAI, care include transcrieri de pe YouTube și alte surse. Acest set de date a fost utilizat de companii precum Apple, Salesforce și Anthropic pentru a antrena modele de inteligență artificială.

“The Pile” conține cărți, articole de pe Wikipedia și transcrieri ale videoclipurilor de pe YouTube, colectate prin API-ul de subtitrări al YouTube. Aceste date au fost preluate de la 173,536 de videoclipuri de pe mai mult de 48,000 de canale, inclusiv de la creatori populari precum MrBeast, PewDiePie și Marques Brownlee. Brownlee a criticat utilizarea acestor date de către Apple, dar a recunoscut că atribuirea vinei este complicată deoarece Apple nu a colectat datele direct.

Raportul a evidențiat că această practică nu este nouă, “The Pile” fiind frecvent utilizat în cercurile AI și citat în diverse procese legale legate de proprietatea intelectuală. În timp ce companiile precum OpenAI susțin că astfel de practici constituie utilizare loială, procesele nu au fost încă soluționate în instanță. Cu toate acestea, munca celor de la Proof News subliniază cât de extinsă este colectarea de date și cât de puțin control au creatorii de conținut asupra utilizării operelor lor.

Deși datele ar fi putut fi folosite pentru cercetare sau îmbunătățirea funcționalităților de completare automată ale dispozitivelor Apple, creatori precum cei de la Ars Technica și alte branduri Condé Nast s-au arătat critici față de EleutherAI și companiile care au folosit setul de date. Reprezentanții Google au afirmat că au luat măsuri pentru a preveni colectarea abuzivă și neautorizată de date, dar nu au oferit detalii suplimentare.

Acest incident reflectă provocările continue legate de utilizarea conținutului online pentru antrenarea modelelor de inteligență artificială. În timp ce companiile de tehnologie argumentează că astfel de practici sunt necesare pentru dezvoltarea IA, creatorii de conținut rămân preocupați de protecția drepturilor lor de proprietate intelectuală.

Sursa: arstechnica.com

Share this article

Recent posts

Popular categories

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Recent comments