Нейросети и литература: Почему проект Prosecraft вызвал протесты писателей

Нейросети 10 сент. 2023 г.


Проект по литературной аналитике под названием Prosecraft закрылся из-за негативной реакции писательского сообщества. Это предвестник более масштабных культурных изменений.


ХАРИ КУНЗРУ НЕ БОИТСЯ.

7 августа писатель из Бруклина сидел в метро и пролистывал страницы в социальных сетях. Он заметил, что несколько писателей ворчат по поводу сайта лингвистического анализа под названием Prosecraft. На нем можно было проанализировать стили написания и повествования для более чем 25 000 наименований книг, а также получить лингвистическую статистику, например, количество наречий и ранжирование слов по степени их "яркости" или "пассивности". Кунцру зашел на сайт Prosecraft и проверил, не появились ли там его работы. Ага. Вот она. White Tears , 2017. По данным Prosecraft, в 61-м процентиле по "живости".
Кунцру был настолько раздосадован, что присоединился к нарастающему протесту Prosecraft. Он не был зол на сам анализ. Но он сильно подозревал, что основатель компании Бенджи Смит получил свой каталог, не заплатив за него. "Мне казалось совершенно очевидным, что он не мог собрать эту базу данных каким-либо законным способом", - говорит он. (А Кунцру не привыкать задумываться над такими вопросами: помимо успешной писательской карьеры, в прошлой жизни он был автором WIRED).
"Эта компания Prosecraft, похоже, украла много книг, обучила искусственный интеллект и теперь предлагает услуги на основе этих данных", - написал Кунцру в Twitter. "Я не давал согласия на такое использование моей работы".эх


Его сообщение стало вирусным. То же самое произошло с писателем ужасов Закари Розенбергом, который обратился напрямую к Бенджи Смиту с просьбой удалить его работы с сайта. Как и Кунцру, он слышал о Prosecraft и был расстроен, когда обнаружил, что его работы анализируются на эту тему. "Это было довольно оскорбительно", - говорит Розенберг.
Сотни других авторов поддержали его. Некоторые из них резко отзывались о Смите: "Самоназванный технарь". "Бездушный тролль". "Мусорщик". "Дерьмократ". "Кровавый геморрой".
Другие подумывали о судебном преследовании. Гильдия авторов была завалена просьбами о помощи. "Письма продолжали поступать", - говорит Мэри Расенбергер, исполнительный директор организации. "Люди реагировали очень бурно". В течение 24 часов компания Prosecraft получила сотни электронных писем с просьбой прекратить незаконные действия.
К концу дня компания Prosecraft прекратила свою деятельность. (Смит все удалил и извинился.) Но то, какую бурную реакцию это вызвало, говорит само за себя: Великая обратная реакция ИИ в самом разгаре.
Основатель компании PROSECRAFT не ожидал, что вокруг него развернется полемика.
В понедельник Бенджи Смит  вернулся в свой дом в небольшом городке недалеко от Портленда, штат Орегон.
Он провел выходные на конференции по медитации благодарности и был рад вернуться к работе. До мая этого года Смит занимал постоянную должность инженера-программиста, но потом уволился, чтобы сосредоточиться на своем стартапе - настольном текстовом процессоре, ориентированном на литераторов, под названием Shaxpir. (Да, произносится "Шекспир".) Shaxpir не приносит больших денег - по словам Смита, их пока недостаточно для покрытия расходов на облачные вычисления, менее 10 тыс. долл. в год, - но он испытывал оптимизм по этому поводу.
Prosecraft, который Смит запустил в 2017 году, был работой на полставки внутри работы на полставки. В качестве отдельного сайта он предлагал бесплатный лингвистический анализ романов. Кроме того, Смит использовал базу данных Prosecraft для создания платной версии Shaxpir, так что у него была и коммерческая цель.


Несмотря на то, что Смит был назван разработчиком недели, он не отличается особой венчурной смекалкой. Он - ходячий стереотип Портлендии, с пирсингом, татуировками птиц и щетиной; он бурно рассуждает об искусстве повествования, как будто пробуясь на роль фаната группы Moth. Называя себя театралом, Смит пробовал писать драмы, прежде чем получил свою первую техническую работу в компании, занимающейся компьютерной лингвистикой.
Идея создания Prosecraft, по его словам, возникла благодаря его привычке считать слова в книгах, которыми он восхищался, когда работал над мемуарами о том, как выжить после крушения лайнера Costa Concordia в 2012 году. ("Ешь, молись, люби" состоит из 110 000 слов", - говорит он.) Он подумал, что подобный анализ может быть полезен и другим писателям, и разработал несколько алгоритмов, используя свои знания в области вычислительной лингвистики. Он организовал процесс подачи заявок, чтобы писатели могли добавлять свои произведения в базу данных; он надеялся, что когда-нибудь она составит большую часть его библиотеки. (Всего за годы работы в Prosecraft обратилось около сотни писателей) Смиту и в голову не приходило, что Prosecraft в конечном итоге разозлит многих из тех, на кого он хотел произвести впечатление.
В Prosecraft не обучались никакие большие языковые модели. Это был вовсе не продукт генеративного ИИ, а нечто гораздо более простое. Больше всего он напоминал инструмент, с помощью которого особо целеустремленный и немного банальный аспирант, изучающий компьютерную лингвистику, может наспех получить за дипломный проект пятерку с плюсом. Но у него, похоже, было нечто важное, чего нет у большинства проектов ИИ, попадающих в заголовки газет в наши дни: он обучался на огромном наборе данных, взятых из Интернета, без учета возможных проблем с нарушением авторских прав.


Смит рассматривал это как грязное средство для достижения оправданной цели. Сейчас он не защищает свое поведение - "я понимаю, почему все расстроены", - но он хочет объяснить, как он защищал его для себя в то время. Я верил, что в конечном счете произойдет вот что: если я смогу показать людям эту штуку, люди скажут: "Вау, это так круто, такого еще не было". И это так весело, полезно и интересно". И тогда люди стали бы добровольно и щедро сдавать свои рукописи, а издатели захотели бы получить книги их прозы", - говорит он. "Но невозможно было передать, что это может быть за штука, не построив ее сначала. Поэтому я решил получить данные единственным доступным способом - то есть все это в Интернете".


СМИТ НЕ ПОКУПАЛ книги, которые он анализировал. Большинство из них он получил с сайтов книжного пиратства. На это он намекнул в записке с извинениями, опубликованной им при уничтожении Prosecraft, и он признает это, если вы спросите, хотя, похоже, его смущает то, что люди злятся по этому поводу. ("Стали бы люди меньше злиться на меня, если бы я купил по экземпляру каждой из этих книг?" - спрашивает Смит.

Практика использования теневых библиотек для проведения научной работы обсуждается уже не первый год: такие проекты, как Sci-Hub и Libgen, распространяют научные статьи и книги под аплодисменты многих исследователей, которые, как гласит старая поговорка, считают, что информация должна быть бесплатной.
Многие из авторов, критикующих Смита, например, Кунцру, вообще не одобряют создание пиратской базы данных. Точнее, им неприятна сама идея попытки заработать на работе, полученной из пиратской библиотеки, вместо того чтобы просто заниматься исследованиями. "Я не против любого вида сбора данных", - говорит Девин Мэдсон. "Я знаю многих ученых, занимающихся цифровыми гуманитарными науками, и они собирают очень много данных".

Мэдсон была одной из первых, кто связался со Смитом на прошлой неделе, чтобы пожаловаться на Prosecraft. Ее смутила попытка извлечь прибыль из аналитических инструментов, разработанных на основе собранных данных. (Мэдсон также в целом не одобряет инструменты искусственного интеллекта, включая Grammarly, поскольку, по ее мнению, они способствуют гомогенизации литературного стиля).


Не все авторы выступили против Prosecraft, несмотря на то, как это было показано в социальных сетях. М.Дж. Джавани был в восторге, когда увидел, что на Prosecraft есть страница, посвященная его первому роману. "На самом деле, смею заметить, я, возможно, заплатил бы за этот анализ, если бы он не был предоставлен Prosecraft бесплатно", - говорит он. Он не согласен с решением о закрытии сайта. "Я считаю, что это была отличная идея", - говорит Даниэла Замудио, писательница, предоставившая свою работу.
Даже сторонники этой идеи высказывают свои сомнения по поводу пиратской библиотеки, выgh. Замудио, например, понимает, почему люди расстраиваются из-за пиратства, но надеется, что сайт вернется, используя базу данных, основанную на подаче заявок.
Моральный аргумент против Prosecraft очевиден: книги были пиратскими. У авторов, выступающих против пиратства, есть прямой аргумент против проекта Смита.
Но заслужил ли Смит все эти нападки? "Я думаю, что ему нужно было выговориться", - говорит Кунцру. "Возможно, он не до конца понимал, насколько это важно сейчас, в контексте забастовки WGA и внимания к большим языковым моделям и другим формам машинного обучения".
"Пиратские библиотеки - это не очень хорошо", - говорит он. Но он считает, что реакция на Prosecraft в значительной степени ошибочна. Его термин? "Кричащая истерия".
А некоторые эксперты в области авторского права наблюдают за этой яростью, не отрывая челюстей от земли. Хотя аргументы против пиратства просты, они скептически относятся к тому, что Prosecraft можно было бы успешно довести до суда.
Мэтью Саг, профессор права из Университета Эмори, считает, что Смит мог бы успешно защитить свой проект, сославшись на добросовестное использование - доктрину, которая позволяет использовать заБщищенные авторским правом материалы без разрешения при определенных обстоятельствах, например, при пародировании или написании рецензии на книгу. Справедливое использование является распространенной защитой от претензий по поводу нарушения авторских прав в США и поддерживается технологическими компаниями. По словам юриста по интеллектуальной собственности Бхамати Вишванатана, написавшего книгу об авторском праве и творчестве, это "мутная и неясная" область законодательства. Это делает вопросы о том, что является добросовестным использованием, а что - нет, столь же мутными и неясными, даже если они получены из пиратских источников.
Саг, как и несколько других экспертов, с которыми я беседовал, указал на прецеденты в делах Google Books и HathiTrust - два примера, когда суды принимали решения в пользу проектов, выкладывавших в Интернет отрывки из книг без получения разрешения от правообладателей, считая, что они являются добросовестным использованием. "Я думаю, что причины, по которым люди расстраиваются, на самом деле не имеют ничего общего с этим бедным парнем", - говорит Саг. "Я думаю, что это связано со всем остальным, что происходит".
Ранее этим летом несколько знаменитостей присоединились к громкому коллективному иску против OpenAI, в котором утверждается, что компания, занимающаяся генеративным искусственным интеллектом, обучала свою большую языковую модель на теневых библиотеках. Сара Сильверман, одна из истцов, утверждает, что таким образом OpenAI украла ее мемуары "Нужная моча". При всей эмоциональной привлекательности этого иска, его юридическая обоснованность является предметом споров в авторском сообществе. Ни в коем случае нельзя считать его решающим ударом. Неясно даже, придет ли суд к выводу, что источник книг имеет отношение к вопросу о добросовестном использовании, подобно тому, как нельзя подать в суд на писателя за копирование вашего сюжета на том основании, что он украл экземпляр вашей книги в магазине.


Расенбергер решительно выступает за усиление защиты авторских прав авторов. "Если мы не начнем возводить заборы, то разрушим всю издательскую экосистему", - говорит она. Расенбергер приводит недавнее решение Верховного суда США о том, нарушают ли некоторые работы Энди Уорхола авторские права, в качестве доказательства того, что правовая система, возможно, ограничивает свое толкование.Она не имеет защиты от добросовестного использования. Тем не менее, она считает этот юридический вопрос нерешенным. "То, что кажется автору справедливым, не всегда соответствует действующему законодательству о добросовестном использовании", - говорит Расенбергер.
"Prosecraft - это маленький человек, который оказался втянут в нечто гораздо большее - он является побочным ущербом", - говорит Билл Розенблатт, технолог, изучающий законодательство в области авторского права.


Розенблатт поражен тем, насколько сильно изменилось общественное мнение по вопросам авторского права и данных со времен Napster. Двадцать лет назад крупные технологические компании позиционировали это как "мы против большого зла: книгоиздателей, киностудий, звукозаписывающих компаний", - говорит Розенблатт. Сейчас динамика разительно отличается: технологические компании - это голиафы бизнеса, а художники, музыканты и писатели пытаются их обуздать.
Смит без проблем предлагал ту же самую услугу в течение пяти лет, но сейчас, когда писатели и художники очень настороженно относятся к искусственному интеллекту, Prosecraft вдруг показалась подозрительной в этом новом контексте. Prosecraft, компания, предоставляющая услуги искусственного интеллекта только в самом широком смысле этого слова, была не столько низко висящим плодом, сколько случайным огурцом, лежащим на земле рядом с фруктовым деревом. Было ли в ней что-то гнилое?

Да, конечно, было. Но назвать его сопутствующим ущербом неточно. Настоящими мишенями негативной реакции на ИИ, которая захлестнула Prosecraft, являются компании генеративного ИИ, которые сегодня являются гордостью Силиконовой долины, и корпорации, которые планируют использовать эти инструменты генеративного ИИ для замены творческого труда человека.
Прошло несколько лет, и вряд ли кто помнит эту конкретную полемику, разгоревшуюся в социальных сетях. Смит быстро уступил критику, и малоиспользуемый инструмент неглубокой аналитики прекратил свое существование. Однако этот инцидент является иллюстрацией более широкого культурного поворота против несанкционированного использования творческих работ в обучении моделей. В данном конкретном случае авторы одержали легкую победу над чуваком из Орегона, который шарахался от концепции пассивного залога.
Я подозреваю, что причина столь громкого празднования многими известными людьми заключается в том, что более масштабные текущие сражения будут гораздо более продолжительными, и их будет гораздо труднее выиграть. Забастовка голливудских сценаристов, Гильдия писателей Америки, требующая от студий провести переговоры об использовании искусственного интеллекта, является самой продолжительной забастовкой такого рода с 1988 года. Иск OpenAI - еще одна попытка вернуть контроль над ситуацией; как уже говорилось, выиграть эту борьбу будет гораздо сложнее, учитывая приоритет добросовестного использования.


Тем временем авторы также пытаются создать свои собственные индивидуальные ограничения на использование их произведений генеративным ИИ. Например, Кунцру недавно заключил договор с издательством и попросил добавить в него пункт о том, что его работа не будет использоваться для обучения больших языковых моделей. Его издатель пошел на это.
Кунзру - далеко не единственный автор, заинтересованный в получении контроля над тем, как аспиранты будут изучать его работу. Многие авторы, заключающие контракты, просят включить в них положения об искусственном интеллекте. Некоторые из них имеют не совсем благоприятный опыт. "Существует огромное количество возражений против включения в контракты положений об искусственном интеллекте", - говорит Мэдсон.
Литературный агент Энн Тиббетс заметила всплеск интереса со стороны писателей в последние месяцы: многие клиенты просят включить в контракт пункт об искусственном интеллекте. Некоторые издательства не торопятся отвечать, обсуждая наиболее подходящие формулировки.
Другие не хотят идти ни на какие компромиссы ради этого потенциально нового потока доходов: "Есть некоторые издатели, которые категорически отказываются включать текст вообще», — говорит Тиббетс. Тем временем агентства уже нанимают консультантов специально для разработки своей политики в области ИИ — признак того, что они хорошо понимают, что этот конфликт не исчезнет.

По материалам https://www.wired.com/

Теги

Все представленные на сайте материалы предназначены исключительно для образовательных целей и не предназначены для медицинских консультаций, диагностики или лечения. Администрация сайта, редакторы и авторы статей не несут ответственности за любые последствия и убытки, которые могут возникнуть при использовании материалов сайта.