Cкандал вокруг ИИ: деньги, разработчики и посягательство на опубликованный труд писателей
Одна из самых тревожных проблем, связанных с ИИ, проста: он создается в тайне
Для получения ответов на вопросы такие системы, как ChatGPT, обрабатывают огромное количество письменного материала. Но мало кто за пределами таких компаний, как Meta (запрещенная в России организация) и OpenAI, знает весь объем текстов, на которых были обучены эти программы.
Некоторые учебные тексты взяты из Википедии и других онлайн-источников, но высококачественный генеративный ИИ требует ввода более высокого качества, чем обычно можно найти в Интернете, то есть того, что содержится в книгах. В судебном процессе, поданном в Калифорнии в прошлом месяце, писатели Сара Сильверман, Ричард Кэдри и Кристофер Голден утверждают, что Meta нарушила законы об авторском праве, используя их книги для обучения LLaMA, большой языковой модели, подобной GPT-4 от OpenAI — алгоритму, который может генерировать текст, имитируя словесные шаблоны, которые он находит в образцах текстов. Но ни сам судебный процесс, ни комментарии к нему не позволили заглянуть за ширму: ранее мы не знали наверняка, обучался ли Лама по книгам Сильвермана, Кэдри или Голдена, или по каким-либо другим, если уж на то пошло.
На самом деле так и было. Недавно я получил и проанализировал набор данных, используемый Meta для обучения LLaMA. Его содержание более чем оправдывает фундаментальный аспект утверждений авторов: пиратские книги используются в качестве входных данных для компьютерных программ, которые меняют то, как мы читаем, учимся и общаемся. Будущее, обещанное ИИ, написано украденными словами.
Более 170 000 книг, большинство из которых опубликовано за последние 20 лет, находятся в обучающих данных LLaMA.
В дополнение к работам Сильвермана, Кэдри и Голдена используются документальные фильмы Майкла Поллана, Ребекки Солнит и Джона Кракауэра, а также триллеры Джеймса Паттерсона и Стивена Кинга и другая художественная литература Джорджа Сондерса, Зейди Смит и Джуно Диаса. Эти книги являются частью набора данных под названием “Books3”, и его использование не ограничивалось LLaMA. Books3 также использовался для обучения BloombergGPT от Bloomberg , GPT-J от EleutherAI — популярной модели с открытым исходным кодом — и, вероятно, других программ с генеративным ИИ, которые теперь встроены в веб-сайты в Интернете. Представитель Meta отказался комментировать использование компанией Books3; представитель Bloomberg подтвердил по электронной почте, что Books3 использовался для обучения начальной модели BloombergGPT, и добавил: “Мы не будем включать набор данных Books3 в число источников данных, используемых для обучения будущих версий BloombergGPT”; и Стелла Бидерман, исполнительный директор EleutherAI, не оспаривала, что компания использовала Books3 в обучающих данных GPT-J.
Как писателю и программисту, мне было любопытно, какие книги используются для обучения систем с генеративным ИИ. Ранее этим летом я начал читать онлайн-дискуссии среди академических разработчиков ИИ и любителей на таких сайтах, как GitHub и Hugging Face. В конечном итоге это привело меня к прямой загрузке “the Pile”, огромного хранилища обучающих текстов, созданного EleutherAI, который содержит набор данных Books3, а также материалы из множества других источников: субтитры к видео с YouTube, документы и транскрипции из Европейского парламента, английской Википедии, электронные письма, отправленные и полученные сотрудниками корпорации Enron до ее краха в 2001 году, и многое другое. Разнообразие не совсем удивительно. Генеративный ИИ работает путем анализа взаимосвязей между словами в разумно звучащем языке, и, учитывая сложность этих взаимосвязей, предмет обычно менее важен, чем само количество текста. Вот почему The-Eye.eu сайт, на котором до недавнего времени размещался the Pile — он получил уведомление об удалении от датской антипиратской группы, - утверждает, что его цель — “поглощать и обслуживать большие наборы данных”.
Стопка слишком велика, чтобы ее можно было открыть в приложении для редактирования текста, поэтому я написал серию программ для управления ею. Сначала я извлек все строки с надписью “Books3”, чтобы изолировать набор данных Books3. Вот пример из результирующего набора данных:
{"текст": "\n\N Эта книга является художественным произведением. Имена, персонажи, места и происшествия являются продуктом воображения авторов или используются вымышленно. Любое сходство с реальными событиями, местами или людьми, живыми или мертвыми, является полностью случайным. | POCKET BOOKS, подразделение Simon & Schuster Inc. \n1230 Avenue of the Americas, Нью-Йорк, NY 10020 \nwww.SimonandSchuster.com\n\n---|---