AI моделите на Apple, Salesforce, Anthropic и други големи технологични компании са били тренирани на десетки хиляди видеоклипа в YouTube, без съгласието на създателите им и потенциално в нарушение на условията на платформата,според нов доклад.
Компаниите са тренирали своите модели използвайки частично “The Pile” – колекция, създадена от неправителствената организация EleutherAI. Целта и е да предостави полезен набор от данни на хора или компании, които нямат ресурси да се конкурират с големите технологични компании. Въпреки първоначалната идея, вече и тези големи компании използват колекцията.
The Pile включва книги, статии от Wikipedia и много други неща. Това включва и субтитри от YouTube, събрани чрез API-то за субтитри на канала. Тези субтитри са взети от 173 536 видеоклипа в платформата, разпространени в над 48 000 канала. Това включва видеоклипове от популярни YouTubers като MrBeast, PewDiePie и известният технологичен коментатор Marques Brownlee. В пост в социалните медии, Brownlee критикува използването на The Pile от Apple, но признава, че определянето на вината е сложно, тъй като Apple не е събрала данните директно. Той пише:
“Apple е черпила данни за своя изкуствен интелект от няколко компании. Една от тях е събирала големи количества данни и транскрипции от видеоклипове в YouTube, включително и мои. Технически погледнато, Apple избягва “вината” тук, защото те не са тези, които са извършили извличането на информацията.”
Това също така включва каналите на множество утвърдени медийни марки и онлайн издания, включително видеоклипове, написани, продуцирани и публикувани от Ars Technica и нейния екип, както и от много други марки на Condé Nast като Wired и The New Yorker.
С разрастването на съдържанието, генерирано от изкуствен интелект, в интернет, ще бъде все по-трудно да се създадат набори от данни за обучение на ИИ, които не включват вече създадено от ИИ съдържание.
Трябва да се изясни, че част от тази информация не е новина. “The Pile” често се използва и споменава в средите на изкуствения интелект и е известно, че е била използвана от технологични компании за обучение в миналото. Тя е цитирана в множество съдебни дела от собственици на интелектуална собственост срещу компании за изкуствен интелект и технологии. Ответниците в тези дела, включително OpenAI, твърдят, че подобно извличане на данни е честна употреба. Делата все още не са решени в съда.
Proof News направиха някои проучвания, за да идентифицират конкретни данни за използването на субтитри в YouTube и дори създадоха инструмент, който можете да използвате за да търсите в “The Pile” за отделни видеоклипове или канали. Тази работа разкрива колко голямо е събирането на данни и обръща внимание на колко малко контрол имат собствениците на интелектуална собственост върху това как се използва тяхната работа, ако тя е в откритата мрежа.
Важно е да се отбележи, че не е задължително тези данни да са били използвани за обучение на модели за създаване на конкурентно съдържание, което достига до крайните потребители. Например, Apple може да се е обучила върху набора от данни за целите на научноизследователската дейност или за подобряване на функцията за автоматично довършване на текст при писане на своите устройства.
Четете още на : TDK, доставчик на Apple, е постигнал пробив в дълготрайните твърдотелни батерии.