Достижения, которые вызывают смех, а затем – раздумья
Оценка гендерного неравенства в английской литературе Женских персонажей в книгах значительно менше, чем мужских Project Gutenberg. Старейшая в мире электронная библиотека В работе авторы исследуют 3 гипотезы. 1. Распространенность женских признаков меньше, чем мужских. Рассматривают 3 различных показателя распространенности, чтобы получить надежные результаты. Например, в то время как одна мера просто подсчитывает количество мужских и женских персонажей, извлеченных из текста книги, другие меры подсчитывают количество вхождений таких персонажей, а также учитывают появление мужских и женских местоимений. 2. Разница между преобладанием мужских и женских персонажей снижается при контроле пола автора. 3. Распространенность женских персонажей меняется. Необработанные данные получены из Project Gutenberg и включали 3036 английских книг, представленных в виде текстов, написанных 142 авторами (14 женщин) между 1700 и 1950 годами. После фильтрации фикшен произведений окончательный набор данных состоял из 2426 книг, охватывающих жанры художественной литературы, от приключенческой и научной фантастики до мистики и любовных романов. В корпус также входят рассказы, пьесы и стихи. Важным вкладом этого исследования является количественная оценка распространенности гендерно-специфических персонажей в литературе. Поскольку ручное извлечение символов и вхождений персонажей из корпуса 2426 книг невозможно, использовали высокопроизводительные методы NLP (Natural Language Processing, обработка естественного языка) для извлечения персонажей различными способами и для автоматической классификации, являются ли они мужчинами или женщинами. Основным методом NLP является распознавание именованных объектов NER (Named Entity Recognition). NER стремится найти и классифицировать именованные объекты, упомянутые в неструктурированном тексте, например, имена людей в текстах книг. Последние пакеты программного обеспечения NLP достигли впечатляющих результатов в различных задачах, включая сегментацию предложений, в первую очередь благодаря появлению глубокого обучения и зрелости моделей языкового представления. Использовали модуль SegTok сегментации предложений из библиотеки Python для процессортографически правильных германских языков, примером которых является английский. SegTok способен идентифицировать окончания предложений, такие как '.', '?' и '!', и устранять их неоднозначность, когда они появляются в середине предложения. Чтобы измерить распространенность гендерно-специфических персонажей нужно подсчитать количество мужских и женских героев в каждой из книг корпуса. Одна из популярных библиотек NER в сообществе NLP — NE_Chunk (точность 94,74%). Чтобы классифицировать извлеченные символы как мужские и женские, использовали Gender_Detector, библиотеку Python, разработанную с использованием данных из проекта Global Name Data, которая способна определять пол персонажа по первому имени. Используя эту библиотеку, смогли пометить каждого извлеченного персонажа как мужчину или женщину. Точность этого метода путем случайной выборки 100 извлеченных персонажей и ручной проверки их фактического пола в сравнении с предсказанным полом - 99%. РЕЗУЛЬТАТЫ Гипотеза 1. Распространенность женских персонажей в книгах значительно ниже распространенности мужских. Наибольшая разница в среднем наблюдается при использовании показателя количества символов (78% для преобладания мужских персонажей), а наименьшая разница наблюдается при использовании показателя подсчета местоимений (74% для преобладания мужских персонажей). При рассмотрении абсолютных подсчетов - среднее значение 32 уникальных мужских персонажа по сравнению с 9 уникальными женскими персонажами на книгу. Результат существенно не меняется даже при учете выбросов с использованием медианы вместо среднего. Среднее количество уникальных мужских и женских признаков составляет 22 и 6 соответственно. Гипотеза 2. Разница между преобладанием мужских и женских признаков может уменьшиться, если учесть пол авторов. Доля мужских персонажей падает с 79% в книгах, написанных мужчинами, до 64% в книгах, написанных женщинами. В среднем на 1 книгу, написанную мужчиной, приходится 32 мужских и 8 женских персонажей по сравнению с 38 мужскими и 21 женским персонажем в книгах, написанных женщинами. Гипотеза 3. Распространенность женского характера значительно изменилась в период с 1800 по 1950 год. Нет подтверждения этой гипотезы. Измерения распространенности персонажей показывают, что среднее значение воздействия мужских персонажей для книг, написанных между 1800 и 1950 годами, колеблется в диапазоне 75–80%. В течение длительного периода преобладание женских персонажей в корпусе не меняется. Акарш Нагарадж (Akarsh Nagaraj), Маянк Кеджривал (Mayank Kejriwal), Университет Южной Калифорнии (University of Southern California), опуликовали работу "Надежная количественная оценка гендерного неравенства в досовременной английской литературе с использованием обработки естественного языка" (Robust Qantification of Gender Disparity in Pre-ModernEnglish Literature using Natural Language Processing), arxiv.org, 12 апреля 2022. 30.04.2022 (c)2010-2024 Шнобелевская премия ig-nobel@mail.ru |