YouTube се изненада, че Apple и други компании са обучавали AI с техни видеа

YouTube се изненада, че Apple и други компании са обучавали AI с техни видеа

AI моделите на Apple, Salesforce, Anthropic и други големи технологични компании са били тренирани на десетки хиляди видеоклипа в YouTube, без съгласието на създателите им и потенциално в нарушение на условията на платформата,според нов доклад.

Компаниите са тренирали своите модели използвайки частично “The Pile” – колекция, създадена от неправителствената организация EleutherAI. Целта и е да предостави полезен набор от данни на хора или компании, които нямат ресурси да се конкурират с големите технологични компании. Въпреки първоначалната идея, вече и тези големи компании използват колекцията.

YouTube се изненада, че Apple и други компании са обучавали AI с техни видеа

The Pile включва книги, статии от Wikipedia и много други неща. Това включва и субтитри от YouTube, събрани чрез API-то за субтитри на канала. Тези субтитри са взети от 173 536 видеоклипа в платформата, разпространени в над 48 000 канала. Това включва видеоклипове от популярни YouTubers като MrBeast, PewDiePie и известният технологичен коментатор Marques Brownlee. В пост в социалните медии, Brownlee критикува използването на The Pile от Apple, но признава, че определянето на вината е сложно, тъй като Apple не е събрала данните директно. Той пише:

“Apple е черпила данни за своя изкуствен интелект от няколко компании. Една от тях е събирала големи количества данни и транскрипции от видеоклипове в YouTube, включително и мои. Технически погледнато, Apple избягва “вината” тук, защото те не са тези, които са извършили извличането на информацията.”

Apple добавя 215 млрд. долара към пазарната си капитализация

Това също така включва каналите на множество утвърдени медийни марки и онлайн издания, включително видеоклипове, написани, продуцирани и публикувани от Ars Technica и нейния екип, както и от много други марки на Condé Nast като Wired и The New Yorker.

С разрастването на съдържанието, генерирано от изкуствен интелект, в интернет, ще бъде все по-трудно да се създадат набори от данни за обучение на ИИ, които не включват вече създадено от ИИ съдържание.

Трябва да се изясни, че част от тази информация не е новина. “The Pile” често се използва и споменава в средите на изкуствения интелект и е известно, че е била използвана от технологични компании за обучение в миналото. Тя е цитирана в множество съдебни дела от собственици на интелектуална собственост срещу компании за изкуствен интелект и технологии. Ответниците в тези дела, включително OpenAI, твърдят, че подобно извличане на данни е честна употреба. Делата все още не са решени в съда.

Квантовите изчисления увеличават възможностите на ChatGPT

Proof News направиха някои проучвания, за да идентифицират конкретни данни за използването на субтитри в YouTube и дори създадоха инструмент, който можете да използвате за да търсите в “The Pile” за отделни видеоклипове или канали. Тази работа разкрива колко голямо е събирането на данни и обръща внимание на колко малко контрол имат собствениците на интелектуална собственост върху това как се използва тяхната работа, ако тя е в откритата мрежа.

Важно е да се отбележи, че не е задължително тези данни да са били използвани за обучение на модели за създаване на конкурентно съдържание, което достига до крайните потребители. Например, Apple може да се е обучила върху набора от данни за целите на научноизследователската дейност или за подобряване на функцията за автоматично довършване на текст при писане на своите устройства.

Четете още на : TDK, доставчик на Apple, е постигнал пробив в дълготрайните твърдотелни батерии.

Facebook
Twitter
LinkedIn
Telegram
WhatsApp

Още от категорията..

Последни новини

Какво е решението за изтичащия срок на годност на панелките?

Подкаст