Cкандал вокруг ИИ: деньги, разработчики и посягательство на опубликованный труд писателей
Одна из самых тревожных проблем, связанных с ИИ, проста: он создается в тайне 
Для получения ответов на вопросы такие системы, как ChatGPT, обрабатывают огромное количество письменного материала.  Но мало кто за пределами таких компаний, как Meta (запрещенная в России организация) и OpenAI, знает весь объем текстов, на которых были обучены эти программы. 
Некоторые  учебные тексты  взяты из Википедии и других онлайн-источников, но высококачественный генеративный ИИ требует ввода более высокого качества, чем обычно можно найти в Интернете, то есть того, что содержится в книгах.  В  судебном  процессе, поданном в Калифорнии в прошлом месяце, писатели Сара Сильверман, Ричард Кэдри и Кристофер Голден утверждают, что Meta нарушила законы об авторском праве, используя их книги для обучения LLaMA, большой языковой модели, подобной  GPT-4  от OpenAI — алгоритму, который может генерировать текст, имитируя словесные шаблоны, которые он находит в образцах текстов.  Но ни сам судебный процесс, ни комментарии к нему не позволили заглянуть за ширму: ранее мы не знали наверняка, обучался ли Лама по книгам Сильвермана, Кэдри или Голдена, или по каким-либо другим, если уж на то пошло. 
На самом деле так и было.  Недавно я получил и проанализировал набор данных, используемый Meta для обучения LLaMA.  Его содержание более чем оправдывает фундаментальный аспект утверждений авторов: пиратские книги используются в качестве входных данных для компьютерных программ, которые меняют то, как мы читаем, учимся и общаемся.  Будущее, обещанное ИИ, написано украденными словами. 
Более 170 000 книг, большинство из которых опубликовано за последние 20 лет, находятся в обучающих данных LLaMA.  
В дополнение к работам Сильвермана, Кэдри и Голдена используются документальные фильмы Майкла Поллана, Ребекки Солнит и Джона Кракауэра, а также триллеры Джеймса Паттерсона и Стивена Кинга и другая художественная литература Джорджа Сондерса, Зейди Смит и Джуно Диаса.  Эти книги являются частью набора данных под названием “Books3”, и его использование не ограничивалось LLaMA.  Books3 также использовался для обучения  BloombergGPT от Bloomberg ,  GPT-J от EleutherAI  — популярной модели с открытым исходным кодом — и, вероятно, других программ с генеративным ИИ, которые теперь встроены в веб-сайты в Интернете.  Представитель Meta отказался комментировать использование компанией Books3; представитель Bloomberg подтвердил по электронной почте, что Books3 использовался для обучения начальной модели BloombergGPT, и добавил: “Мы не будем включать набор данных Books3 в число источников данных, используемых для обучения будущих версий BloombergGPT”; и Стелла Бидерман, исполнительный директор EleutherAI, не оспаривала, что компания использовала Books3 в обучающих данных GPT-J. 
Как писателю и программисту, мне было любопытно, какие книги используются для обучения систем с генеративным ИИ.  Ранее этим летом я начал читать онлайн-дискуссии среди академических разработчиков ИИ и любителей на таких сайтах, как GitHub и Hugging Face.  В конечном итоге это привело меня к прямой загрузке “the Pile”, огромного хранилища обучающих текстов, созданного EleutherAI, который содержит набор данных Books3, а также материалы из множества других источников: субтитры к видео с YouTube, документы и транскрипции из Европейского парламента, английской Википедии, электронные письма, отправленные и полученные сотрудниками корпорации Enron до ее краха в 2001 году, и многое другое.  Разнообразие не совсем удивительно.  Генеративный ИИ работает путем анализа взаимосвязей между словами в разумно звучащем языке, и, учитывая сложность этих взаимосвязей, предмет обычно менее важен, чем само количество текста.  Вот почему The-Eye.eu сайт, на котором до недавнего времени размещался the Pile — он получил  уведомление об удалении  от датской антипиратской группы, - утверждает, что его цель — “поглощать и обслуживать большие наборы данных”. 
Стопка слишком велика, чтобы ее можно было открыть в приложении для редактирования текста, поэтому я написал серию программ для управления ею.  Сначала я извлек все строки с надписью “Books3”, чтобы изолировать набор данных Books3.  Вот пример из результирующего набора данных: 
{"текст": "\n\N Эта книга является художественным произведением. Имена, персонажи, места и происшествия являются продуктом воображения авторов или используются вымышленно. Любое сходство с реальными событиями, местами или людьми, живыми или мертвыми, является полностью случайным. | POCKET BOOKS, подразделение Simon & Schuster Inc. \n1230 Avenue of the Americas, Нью-Йорк, NY 10020 \nwww.SimonandSchuster.com\n\n---|--- 
