Cкандал вокруг ИИ: деньги, разработчики и посягательство на опубликованный труд писателей

Одна из самых тревожных проблем, связанных с ИИ, проста: он создается в тайне

Для получения ответов на вопросы такие системы, как ChatGPT, обрабатывают огромное количество письменного материала. Но мало кто за пределами таких компаний, как Meta (запрещенная в России организация) и OpenAI, знает весь объем текстов, на которых были обучены эти программы.

Некоторые учебные тексты взяты из Википедии и других онлайн-источников, но высококачественный генеративный ИИ требует ввода более высокого качества, чем обычно можно найти в Интернете, то есть того, что содержится в книгах. В судебном процессе, поданном в Калифорнии в прошлом месяце, писатели Сара Сильверман, Ричард Кэдри и Кристофер Голден утверждают, что Meta нарушила законы об авторском праве, используя их книги для обучения LLaMA, большой языковой модели, подобной GPT-4 от OpenAI — алгоритму, который может генерировать текст, имитируя словесные шаблоны, которые он находит в образцах текстов. Но ни сам судебный процесс, ни комментарии к нему не позволили заглянуть за ширму: ранее мы не знали наверняка, обучался ли Лама по книгам Сильвермана, Кэдри или Голдена, или по каким-либо другим, если уж на то пошло.

На самом деле так и было. Недавно я получил и проанализировал набор данных, используемый Meta для обучения LLaMA. Его содержание более чем оправдывает фундаментальный аспект утверждений авторов: пиратские книги используются в качестве входных данных для компьютерных программ, которые меняют то, как мы читаем, учимся и общаемся. Будущее, обещанное ИИ, написано украденными словами.


Более 170 000 книг, большинство из которых опубликовано за последние 20 лет, находятся в обучающих данных LLaMA. 


В дополнение к работам Сильвермана, Кэдри и Голдена используются документальные фильмы Майкла Поллана, Ребекки Солнит и Джона Кракауэра, а также триллеры Джеймса Паттерсона и Стивена Кинга и другая художественная литература Джорджа Сондерса, Зейди Смит и Джуно Диаса. Эти книги являются частью набора данных под названием “Books3”, и его использование не ограничивалось LLaMA. Books3 также использовался для обучения BloombergGPT от BloombergGPT-J от EleutherAI — популярной модели с открытым исходным кодом — и, вероятно, других программ с генеративным ИИ, которые теперь встроены в веб-сайты в Интернете. Представитель Meta отказался комментировать использование компанией Books3; представитель Bloomberg подтвердил по электронной почте, что Books3 использовался для обучения начальной модели BloombergGPT, и добавил: “Мы не будем включать набор данных Books3 в число источников данных, используемых для обучения будущих версий BloombergGPT”; и Стелла Бидерман, исполнительный директор EleutherAI, не оспаривала, что компания использовала Books3 в обучающих данных GPT-J.

Как писателю и программисту, мне было любопытно, какие книги используются для обучения систем с генеративным ИИ. Ранее этим летом я начал читать онлайн-дискуссии среди академических разработчиков ИИ и любителей на таких сайтах, как GitHub и Hugging Face. В конечном итоге это привело меня к прямой загрузке “the Pile”, огромного хранилища обучающих текстов, созданного EleutherAI, который содержит набор данных Books3, а также материалы из множества других источников: субтитры к видео с YouTube, документы и транскрипции из Европейского парламента, английской Википедии, электронные письма, отправленные и полученные сотрудниками корпорации Enron до ее краха в 2001 году, и многое другое. Разнообразие не совсем удивительно. Генеративный ИИ работает путем анализа взаимосвязей между словами в разумно звучащем языке, и, учитывая сложность этих взаимосвязей, предмет обычно менее важен, чем само количество текста. Вот почему The-Eye.eu сайт, на котором до недавнего времени размещался the Pile — он получил уведомление об удалении от датской антипиратской группы, - утверждает, что его цель — “поглощать и обслуживать большие наборы данных”.

Стопка слишком велика, чтобы ее можно было открыть в приложении для редактирования текста, поэтому я написал серию программ для управления ею. Сначала я извлек все строки с надписью “Books3”, чтобы изолировать набор данных Books3. Вот пример из результирующего набора данных:

  • {"текст": "\n\N Эта книга является художественным произведением. Имена, персонажи, места и происшествия являются продуктом воображения авторов или используются вымышленно. Любое сходство с реальными событиями, местами или людьми, живыми или мертвыми, является полностью случайным.| POCKET BOOKS, подразделение Simon & Schuster Inc. \n1230 Avenue of the Americas, Нью-Йорк, NY 10020 \nwww.SimonandSchuster.com\n\n---|---


Это начало строки, которая, как и все строки в наборе данных, продолжается на многие тысячи слов и содержит полный текст книги. Но какой книги? Не было никаких явных меток с названиями, именами авторов или метаданными. Только метка “текст”, которая сводила книги к функции, которую они выполняют для обучения ИИ. Чтобы идентифицировать записи, я написал другую программу для извлечения ISBN из каждой строки. Я ввел эти ISBN в другую программу, которая подключилась к онлайн-базе данных книг и извлекла информацию об авторе, названии и публикации, которую я просмотрел в электронной таблице. 

В ходе этого процесса было выявлено примерно 190 000 записей: я смог идентифицировать более 170 000 книг — около 20 000 отсутствовали ISBN или их не было в базе данных книг. (В это число также входят переиздания с разными ISBN, поэтому количество уникальных книг может быть несколько меньше общего.) Просматривая по авторам и издателям, я начал понимать масштаб коллекции.

Из 170 000 названий примерно треть - художественная литература, две трети - научная. Они от крупных и мелких издательств. 

Приведу несколько примеров: более 30 000 названий принадлежат издательству Penguin Random House и его импринтам, 14 000 - HarperCollins, 7 000 - Macmillan, 1800 - Oxford University Press и 600 - Verso. В сборник вошли художественные и документальные произведения Елены Ферранте и Рэйчел Каск. В нем содержится по меньшей мере девять книг Харуки Мураками, пять - Дженнифер Иган, семь - Джонатана Франзена, девять - белл Хукс, пять - Дэвида Гранна и 33 - Маргарет Этвуд. Также следует отметить: 102 криминальных романа Л. Рона Хаббарда, 90 книг пастора-креациониста "Молодая Земля" Джона Ф. Макартура и многочисленные работы Эриха фон Деникена "Псевдоистория построенных инопланетянами пирамид". 

В заявлении, отправленном по электронной почте, Бидерман, в частности, написал: “Мы тесно сотрудничаем с создателями и правообладателями, чтобы понять и поддержать их взгляды и потребности. В настоящее время мы находимся в процессе создания версии the Pile, которая содержит исключительно документы, лицензированные для этого использования ”.

Несмотря на то, что Books3 не очень широко известен за пределами сообщества искусственного интеллекта, он является популярным учебным набором данных. Приложение Hugging Face облегчало его загрузку из the Eye более двух с половиной лет; ссылка на него перестала работать примерно в то время, когда Books3 упоминался в судебных процессах против OpenAI и Meta ранее этим летом. Научный писатель Питер Шопперт отслеживал его использование в своем информационном бюллетене Substack. Books3 также цитировался в исследовательских работах Meta и Bloomberg, которые объявили о создании LLaMA и BloombergGPTВ последние месяцы набор данных был фактически спрятан на виду, его можно было скачать, но сложно найти, просмотреть и проанализировать.

Другие наборы данных, возможно, содержащие похожие тексты, тайно используются такими компаниями, как OpenAI. Шон Прессер, независимый разработчик Books3, сказал, что он создал набор данных, чтобы предоставить независимым разработчикам “обучающие данные уровня OpenAI”. Его название является ссылкой на статью, опубликованную OpenAI в 2020 году, в которой упоминались два “корпуса книг в Интернете” под названием Books1 и Books2. Этот документ является единственным первоисточником, который дает какие-либо подсказки о содержании обучающих данных GPT-3, поэтому он был тщательно изучен сообществом разработчиков.