Шнобелевская премия
Достижения, которые вызывают смех, а затем – раздумья

Хахахахаха, Чууууууувааааак, Даааааа!
Характеристика растягиваемых слов и динамика опечаток
Хахахахаха, Чууууууувааааак, Даааааа!
растягиваемые слова в Twitter

Растянутые слова, такие как heellllp или heyyyyy, являются обычным явлением в разговорной речи, часто используются для того, чтобы подчеркнуть или преувеличить основное значение корневого слова (help или hey). Авторы исследуют частотное распределение «растягиваемых слов», найденных примерно в 100 миллиардах твитов, созданных за 8-летний период. Посмотрите футбольный матч, слышите, как диктор кричит: ГООООООООЛ!!!!!!. Хрен. Мимо. Удлинение гласных и согласных (называемое удвоением) является особенностью некоторых языков и может изменить слово, в том числе его значение. Растянутые слова, как в приведенном выше примере, иногда называемые удлиненными словами, также являются неотъемлемой частью многих языков, особенно в разговорной речи. Однако вместо того, чтобы полностью изменить значение слова, это растяжение, также называемое удлинением слова, экспрессивным удлинением или использованием буквенных повторов, часто используется для изменения значения основы слова каким-то образом, например, чтобы усилить значение. «Ооооооооооооо» подразумевает сарказм, «ааааааааааааа» показывает волнение, «неееет» сообщает об опасности. Авторы называют слова, поддающиеся такому удлинению, «растягивающимися словами».

Несмотря на то, что растянутые слова являются фундаментальной частью разговорной речи, они редко встречаются в литературе и лексиконе: в Оксфордском словаре английского языка нет слова «Hahahahahahaha». Появлений в книгах немного, и они действительно встречаются только в вымышленных диалогах. Однако с появлением и ростом социальных сетей растянутые слова наконец нашли свое применение в крупномасштабном письменном тексте. Специалисты используют набор данных Twitter - случайную выборку 10% всех твитов с 9 сентября 2008 г. по 31 декабря 2016 г. Все твиты за этот период времени имеют максимальную длину 140 символов. Шаблон собирал любой токен, содержащий не менее 30 символов, в котором один символ повторяется не менее 29 раз подряд, или два разных символа, которые повторяются в любом порядке не менее 28 раз. Выбор 28 ограничивает коллекцию токенами слов, которые действительно растягиваются на практике. Различные, но родственные расширенные слова объединяли в одно более общее ядро для каждого слова, чтобы оно охватывало все случаи, наблюдаемые в собранных токенах. Например, для двух растянутых версий «goal», «goooall» и «goaaaallllllll» первая будет перерабатываться в ядро g[o]a[l], а вторая — в go[a][l]. Эти два ядра объединены как g[o][a][l].

После обработки набора данных получили коллекцию из 7526 ядер. Затем по этим ядрам собрали все токены во всем наборе данных. Затем ранжировали ядра по сумме количества токенов для их растянутых версий. Результаты примерно такие. Самые сбалансированные токены (равное копирование разных знаков) - kdkdkdkdkdkdkd, hahahahahaha, iiiiiiiddddd, uiuiuiuiuiui, lllmlmlmlml, jsjsjsjsjs, eeeeetttttoxoxoxoxoxox, xqxqxqxqxqxqxq, xaxaxaxaxaxa. Слово «hahhahahahahahaha» c дополнителной h встречалось в полном наборе данных 13 894 раза. В твитах, в растянутых словах, часто появляются опечатки. Например, ядро n[o](io), скорее всего, является результатом опечатки n[o] - нет. Для стандартной раскладки клавиатуры буква «i» находится рядом с буквой «o», поэтому легко случайно нажать букву «i» вместо «o» при попытке повторить ее много раз, особенно на маленькой клавиатуре мобильного телефона. Точно так же буквы «a» и «s» расположены рядом друг с другом, поэтому ядро подобное (ha)s(ha)(sh)(ah), вероятно, происходит от опечаток гораздо более простого ядра (ha).

На заметку. В своей статье о смайликах (Вы улыбаетесь носом? Стилистические вариации в смайликах Twitter, 2012) Шнобелен (Schnoebelen T.) рассмотрел различия между пользователями Твиттера, которые включают нос в свои ухмылки, и теми, кто этого не делает. Он обнаружил, что в целом пользователи со смайликами без носа, как правило, писали менее формально, в том числе чаще использовали растянутые слова по сравнению с пользователями, которые включали носы в свои рожицы. Пользователи с носом, как правило, использовали более стандартное письмо, включая меньше растянутых слов. Хахахахаха!, - прокомментировал Кристофер М. Дэнфорт.
Кристофер М. Дэнфорт (Christopher M. Danforth)



Тайлер Дж. Грей (Tyler J. Gray), Кристофер М. Дэнфорт (Christopher M. Danforth), Питер Шеридан Доддс (Peter Sheridan Dodds), Университет Вермонта, США, опублковали труд "Хахахахаха, Чууууууувааааак, Даааааа!: Двухпараметрическая характеристика растягиваемых слов и динамика опечаток и орфографических ошибок", PLoS ONE, 15(5), май 2020.

02.02.2022


(c)2010-2024 Шнобелевская премия
ig-nobel@mail.ru