18.04.2024

Искусственный интеллект пожирает интернет: что будет с копирайтом

Ученые полагают, что доступные для обучения искусственного интеллекта данные закончатся в интернете уже в 2026 году. Отрасль может оказаться в тупике из-за существующих ограничений авторского права. Вопрос заключается в том, хотят ли разработчики соблюдать правила, которые считают устаревшими.

Еще до ажиотажа вокруг релиза чат-бота ChatGPT его разработчик компания OpenAI столкнулась с проблемой нехватки данных. Сотрудники стартапа исчерпали все запасы англоязычных текстов в интернете, которые были пригодны для обучения ИИ. Тогда у инженеров возникла идея расшифровывать аудио– и видеозаписи — для этого был разработан сервис для распознавания речи Whisper. С помощью этого инструмента OpenAI расшифровала минимум 1 миллион часов записей с Youtube. На какое-то время проблема была решена.

Однако пользовательское соглашение Youtube прямо запрещает использовать видео сторонними платформами. Эти ограничения не смутили конкурента, поскольку на кону было лидерство в отрасли и первенство в получении громадной аудитории. Гонка между разработчиками ИИ превратилась в отчаянную охоту за цифровыми данными. Это вынуждает технологические компании не только игнорировать корпоративную этику, но и обходить существующие законы авторского права.

Используя Youtube, OpenAI поставила Google в неловкое положение, так как владелец платформы, зная о сборе роликов конкурентом, сам расшифровывал их для обучения собственных ИИ-моделей. Если бы Google начала высказывать официальные претензии OpenAI, у пользователей появились бы неудобные вопросы к самой компании. Поэтому Google ограничивается лишь выражением недовольства в адрес создателя ChatGPT, но не делает резких движений.

Взамен руководство корпорации потребовало от юридического отдела изменить формулировки пользовательского соглашения, чтобы они, с одной стороны, звучали довольно расплывчато, с другой, — позволяли компании беспрепятственно получать данные для обучения ИИ. В итоге в документ добавили упоминания Bard и Cloud AI. Попытки юристов выяснить, будут ли распространяться правила на конфиденциальную информацию, ни к чему не привели: руководство Google не стало распространяться о планах.

Аутсайдером можно назвать компанию Meta, так как в течение многих лет Марк Цукерберг инвестировал в перспективную отрасль. Однако для бизнесмена стало полной неожиданностью появление ChatGPT — и миллиардер потребовал от подчиненных немедленного релиза собственного чат-бота. Инженеры Meta столкнулись с той же проблемой, что и конкуренты: им не хватало данных, а контент Facebook, WhatsApp и Instagram не подходил для обучения ИИ, поскольку нужны были качественные длинные тексты.

Кроме того, из-за скандала Cambridge Analytica компания сама себя жестко ограничивала требованиями конфиденциальности. Тогда у топ-менеджеров компании возникла идея купить целое издательство Simon & Schuster. Эта покупка предоставила бы корпорации доступ к качественным объемным текстам, которые идеально подходят для обучения ИИ. При этом вопрос о соблюдении авторского права не обсуждался, поскольку в Meta считали процесс лицензирования слишком долгим. Пример OpenAI показывал, что этой проблемой можно пренебречь.

Противостояние между ИИ-разработчиками и правообладателями сегодня достигло предела, поскольку любая онлайн-информация стала топливом для новой технологии. Инновации в этой сфере напрямую зависят от достаточного количества данных для обучения. При этом их качество имеет решающее значение. Под ударом оказались все авторы: и музыканты, и писатели, и художники. Долгое время интернет казался бездонным пространством данных, но стремительный рост ИИ-моделей показал, что это не так.

Если в 2020 году датасеты размером в несколько тысяч фотографий наподобие Flickr считались большими базами, то сегодня для разработки новых систем используют триллионы токенов информации. При таких темпах разработки технически невозможно лицензировать данные, которые поступают ИИ. Эксперты считают, что даже коллективное лицензирование здесь не поможет. Однажды попав в ИИ-систему, информация остается там, как в черной дыре, ее практически невозможно удалить.

Правообладатели пытаются бороться: авторы подают коллективные иски, а крупные издатели спешно закрывают свои ресурсы от алгоритмов ИИ. Однако и те, и другие действуют в рамках все того же традиционного института копирайта, который предполагает защиту конкретных произведений. Эта довольно медлительная система входит в противоречие с развитием ИИ-отрасли, для которой совершенно неважно, что это за произведения, — важен лишь их объем, которого вечно не будет хватать.

Разработчики предложили теоретический выход из этого информационного тупика — генерация «синтетических данных», когда ИИ сам создает данные для обучения. Исследователи относятся к этой идее скептически: тогда кратно возрастет эффект так называемых галлюцинаций, то есть ошибок и искажений, характерных для таких систем. Тем не менее этот подход способен решить проблему нехватки данных, но не способен удовлетворить правообладателей: произведения уже сейчас находятся в актуальных ИИ-моделях, и достать их оттуда практически невозможно.