Характеристика растягиваемых слов и динамика опечаток
Тайлер Дж. Грей (Tyler J. Gray), Кристофер М. Дэнфорт (Christopher M. Danforth), Питер Шеридан Доддс (Peter Sheridan Dodds), Университет Вермонта, США, опублковали труд "Хахахахаха, Чууууууувааааак, Даааааа!: Двухпараметрическая характеристика растягиваемых слов и динамика опечаток и орфографических ошибок", PLoS ONE, 15(5), май 2020.
Растянутые слова, такие как heellllp или heyyyyy, являются обычным явлением в разговорной речи, часто используются для того, чтобы подчеркнуть или преувеличить основное значение корневого слова (help или hey). Авторы исследуют частотное распределение «растягиваемых слов», найденных примерно в 100 миллиардах твитов, созданных за 8-летний период. Посмотрите футбольный матч, слышите, как диктор кричит: ГООООООООООООООООООООООООООООООООООООООООООООООООООООООООООООООЛ!!!!!!. Хрен. Мимо.
Удлинение гласных и согласных (называемое удвоением) является особенностью некоторых языков и может изменить слово, в том числе его значение. Растянутые слова, как в приведенном выше примере, иногда называемые удлиненными словами, также являются неотъемлемой частью многих языков, особенно в разговорной речи. Однако вместо того, чтобы полностью изменить значение слова, это растяжение, также называемое удлинением слова, экспрессивным удлинением или использованием буквенных повторов, часто используется для изменения значения основы слова каким-то образом, например, чтобы усилить значение. «Ооооооооооооо» подразумевает сарказм, «ааааааааааааа» показывает волнение, «неееет» сообщает об опасности. Авторы называют слова, поддающиеся такому удлинению, «растягивающимися словами».
Несмотря на то, что растянутые слова являются фундаментальной частью разговорной речи, они редко встречаются в литературе и лексиконе: в Оксфордском словаре английского языка нет слова «Hahahahahahaha». Появлений в книгах немного, и они действительно встречаются только в вымышленных диалогах. Однако с появлением и ростом социальных сетей растянутые слова наконец нашли свое применение в крупномасштабном письменном тексте.
Специалисты используют набор данных Twitter - случайную выборку 10% всех твитов с 9 сентября 2008 г. по 31 декабря 2016 г. Все твиты за этот период времени имеют максимальную длину 140 символов. Шаблон собирал любой токен, содержащий не менее 30 символов, в котором один символ повторяется не менее 29 раз подряд, или два разных символа, которые повторяются в любом порядке не менее 28 раз. Выбор 28 ограничивает коллекцию токенами слов, которые действительно растягиваются на практике.
Различные, но родственные расширенные слова объединяли в одно более общее ядро для каждого слова, чтобы оно охватывало все случаи, наблюдаемые в собранных токенах. Например, для двух растянутых версий «goal», «goooall» и «goaaaallllllll» первая будет перерабатываться в ядро g[o]a[l], а вторая — в go[a][l]. Эти два ядра объединены как g[o][a][l].
После обработки набора данных получили коллекцию из 7526 ядер. Затем по этим ядрам собрали все токены во всем наборе данных. Затем ранжировали ядра по сумме количества токенов для их растянутых версий. Результаты примерно такие. Самые сбалансированные токены (равное копирование разных знаков) - kdkdkdkdkdkdkd, hahahahahaha, iiiiiiiddddd, uiuiuiuiuiui, lllmlmlmlml, jsjsjsjsjs, eeeeetttttoxoxoxoxoxox, xqxqxqxqxqxqxq, xaxaxaxaxaxa. Слово «hahhahahahahahaha» c дополнителной h встречалось в полном наборе данных 13 894 раза.
В твитах, в растянутых словах, часто появляются опечатки. Например, ядро n[o](io), скорее всего, является результатом опечатки n[o] - нет. Для стандартной раскладки клавиатуры буква «i» находится рядом с буквой «o», поэтому легко случайно нажать букву «i» вместо «o» при попытке повторить ее много раз, особенно на маленькой клавиатуре мобильного телефона. Точно так же буквы «a» и «s» расположены рядом друг с другом, поэтому ядро подобное (ha)s(ha)(sh)(ah), вероятно, происходит от опечаток гораздо более простого ядра (ha).
На заметку. В своей статье о смайликах (Вы улыбаетесь носом? Стилистические вариации в смайликах Twitter, 2012) Шнобелен (Schnoebelen T.) рассмотрел различия между пользователями Твиттера, которые включают нос в свои ухмылки, и теми, кто этого не делает. Он обнаружил, что в целом пользователи со смайликами без носа, как правило, писали менее формально, в том числе чаще использовали растянутые слова по сравнению с пользователями, которые включали носы в свои рожицы. Пользователи с носом, как правило, использовали более стандартное письмо, включая меньше растянутых слов.
02.02.2022
Комментарий:
Шнобелевская премия мира 2017
Участники 25 пациентов в возрасте между 15 и 30 годами с показателем апноэ-гипопноэ и жалобами на храп. Проводились уроки игры на диджериду и ежедневная практика дома в течение 4 месяцев. Диджериду - музыкальный духовой инструмент австралийских аборигенов подробнее
Шнобелевская премия 2007 по химии
За разработку способа извлечения ванилина из навоза животных, Маю Ямамото из Международного медицинского центра, Япония, удостоен Шнобелевской премии за 2007 год по химии. В животноводстве производится много экскрементов, а ванилин очень полезный продукт подробнее