19.04.2024

Штучний інтелект пожирає інтернет: що буде з копірайтом

Учені вважають, що доступні для навчання штучного інтелекту дані закінчаться в інтернеті вже у 2026 році. Галузь може опинитися в глухому куті через наявні обмеження авторського права. Питання полягає в тому, чи хочуть розробники дотримуватися правил, які вважають застарілими.

Ще до ажіотажу навколо релізу чат-бота ChatGPT його розробник компанія OpenAI зіткнулася з проблемою нестачі даних. Співробітники стартапу вичерпали всі запаси англомовних текстів в інтернеті, які були придатні для навчання ШІ. Тоді в інженерів виникла ідея розшифровувати аудіо- та відеозаписи – для цього було розроблено сервіс для розпізнавання мови Whisper. За допомогою цього інструменту OpenAI розшифрувала щонайменше 1 мільйон годин записів з Youtube. На якийсь час проблему було вирішено.

Однак користувацька угода Youtube прямо забороняє використовувати відео сторонніми платформами. Ці обмеження не збентежили конкурента, оскільки на кону було лідерство в галузі та першість в отриманні величезної аудиторії. Перегони між розробниками ШІ перетворилися на відчайдушне полювання за цифровими даними. Це змушує технологічні компанії не тільки ігнорувати корпоративну етику, а й обходити існуючі закони авторського права.

Використовуючи Youtube, OpenAI поставила Google у незручне становище, оскільки власник платформи, знаючи про збір роликів конкурентом, сам розшифрував їх для навчання власних ШІ-моделей. Якби Google почала висловлювати офіційні претензії OpenAI, у користувачів з’явилися б незручні запитання до самої компанії. Тому Google обмежується лише висловленням невдоволення на адресу творця ChatGPT, але не робить різких рухів.

Натомість керівництво корпорації зажадало від юридичного відділу змінити формулювання користувацької угоди, щоб вони, з одного боку, звучали доволі розпливчасто, з іншого, – давали змогу компанії безперешкодно отримувати дані для навчання ШІ. У підсумку в документ додали згадки Bard і Cloud AI. Спроби юристів з’ясувати, чи поширюватимуться правила на конфіденційну інформацію, ні до чого не привели: керівництво Google не стало поширюватися про плани.

Аутсайдером можна назвати компанію Meta, оскільки протягом багатьох років Марк Цукерберг інвестував у перспективну галузь. Однак для бізнесмена стала повною несподіванкою поява ChatGPT – і мільярдер зажадав від підлеглих негайного релізу власного чат-бота. Інженери Meta зіткнулися з тією самою проблемою, що й конкуренти: їм не вистачало даних, а контент Facebook, WhatsApp і Instagram не підходив для навчання ШІ, оскільки потрібні були якісні довгі тексти.

Крім того, через скандал Cambridge Analytica компанія сама себе жорстко обмежувала вимогами конфіденційності. Тоді у топ-менеджерів компанії виникла ідея купити ціле видавництво Simon & Schuster. Ця покупка надала б корпорації доступ до якісних об’ємних текстів, які ідеально підходять для навчання ШІ. При цьому питання про дотримання авторського права не обговорювалося, оскільки в Meta вважали процес ліцензування занадто довгим. Приклад OpenAI показував, що цією проблемою можна знехтувати.

Протистояння між ШІ-розробниками та правовласниками сьогодні досягло межі, оскільки будь-яка онлайн-інформація стала паливом для нової технології. Інновації в цій сфері безпосередньо залежать від достатньої кількості даних для навчання. При цьому їхня якість має вирішальне значення. Під ударом опинилися всі автори: і музиканти, і письменники, і художники. Тривалий час інтернет здавався бездонним простором даних, але стрімке зростання АІ-моделей показало, що це не так.

Якщо 2020 року датасети розміром у кілька тисяч фотографій на кшталт Flickr вважали великими базами, то сьогодні для розроблення нових систем використовують трильйони токенів інформації. За таких темпів розробки технічно неможливо ліцензувати дані, які надходять до ШІ. Експерти вважають, що навіть колективне ліцензування тут не допоможе. Одного разу потрапивши в АІ-систему, інформація залишається там, як у чорній дірі, її практично неможливо видалити.

Правовласники намагаються боротися: автори подають колективні позови, а великі видавці спішно закривають свої ресурси від алгоритмів ШІ. Однак і ті, й інші діють у рамках все того ж традиційного інституту копірайту, який передбачає захист конкретних творів. Ця доволі повільна система вступає в протиріччя з розвитком ШІ-галузі, для якої абсолютно неважливо, що це за твори, – важливий лише їхній обсяг, якого вічно не вистачатиме.

Розробники запропонували теоретичний вихід із цього інформаційного глухого кута – генерація «синтетичних даних», коли ШІ сам створює дані для навчання. Дослідники ставляться до цієї ідеї скептично: тоді кратно зросте ефект так званих галюцинацій, тобто помилок і спотворень, характерних для таких систем. Проте цей підхід здатний розв’язати проблему нестачі даних, але не здатний задовольнити правовласників: твори вже зараз перебувають в актуальних АІ-моделях, і дістати їх звідти практично неможливо.