AI-modeller som utvecklas av Apple, Salesforce, Anthropic och andra stora aktörer har tränats på tiotusentals YouTube-videor utan skaparnas samtycke och potentiellt i strid med YouTubes villkor, enligt en ny rapport som publicerats av Proof News och Wired.
Företagen tränade sina modeller delvis genom att använda ”the Pile”, en insamling av data som gjorts av av ideella EleutherAI. Datasamlingening var tänkt att kunna användas av individer eller företag som inte har resurserna att konkurrera med de stora techbolagen. I efterhand har det visat sig att även de stora aktörerna har använt sig av samma datasamling för sina AI-lösningar.
Indirekt
Informationen har använts indirekt då Apple, Salesforce med flera inte själva har samlat in alla data som inkluderar böcker, Wikipedia-artiklar och mycket mer. Det inkluderar YouTube-textning som samlats in av YouTubes captions API, skrapad från 173 536 YouTube-videor från mer än 48 000 kanaler. Det inkluderar videor från stora YouTubers som MrBeast, PewDiePie och den populära teknikkommentatorn Marques Brownlee. Brownlee har kommenterat Apples användning av informationen och konstaterade att frågan inte är helt enkel då informationen samlats in av andra.
Apple has sourced data for their AI from several companies
One of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids ”fault” here because they’re not the ones scraping
But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) July 16, 2024
0 kommentarer