Шнобелевская премия
клинописная таблица на золоте
Уэйн Горовиц (Wayne Horowitz)
Уэйн Горовиц (Wayne Horowitz)

Натан Вассерман (Nathan Wasserman)
Натан Вассерман (Nathan Wasserman)

Габриэль Становский (Gabriel Stanovsky)
Габриэль Становский (Gabriel Stanovsky)





Заполнение пробелов в древних аккадских текстах



Подход к моделированию замаскированного языка

Корен Лазар (Koren Lazar), Бенни Сарет (Benny Saret), Асаф Иегудаи (Asaf Yehudai), Уэйн Горовиц (Wayne Horowitz), Натан Вассерман (Nathan Wasserman), Габриэль Становский (Gabriel Stanovsky), Еврейский университет Иерусалима (Hebrew University of Jerusalem), опубликовали статью "Заполнение пробелов в древних аккадских текстах: ", arXiv.org, 9 сентября 2021 г.

Аккадский язык использовался для коммуникации между людьми Ближнего Востока и Египта в позднем бронзовом и раннем железном веках, на нем говорили с 2500 г. до н.э. Писали клинописью - клиновидными оттисками на глиняных табличках. Клинописный корпус Oracc (Open Richly Annotated Cuneiform Corpus) - одна из основных коллекций аккадских транскрипций, около 2,3 млн знаков с 10 000 табличек. Многие знаки на табличках со временем стерлись, потеряны, пробелы пытаются заполнить специалисты в зависимости от контекста окружающих слов.

Хотя табличек очень много, отсутствующие куски текста до сих пор не позволяют ученым раскрыть все секреты древней восточной цивилизации. Искусственный интеллект, который учили читать на 104 языках, предсказывает пропущенные слова и фразы на клинописных табличках возрастом до 4520 лет достаточно точно, аналогично тому, как функция автозаполнения на телефоне предлагает следующую строку. Длинные и часто набираемые слова дополняются вариантом уже введённого ранее слова с таким же началом при наборе текста. Программа запоминает слова, как часто, в каком порядке они использовались. При наборе слова, предлагается недавно используемое слово для автозавершения.

Авторы представляют модели, которые дополняют недостающий текст с учетом транслитерации древних месопотамских документов, первоначально написанных на клинописных глиняных табличках. Из-за порчи табличек ученые часто полагаются на контекстные подсказки, чтобы вручную заполнить недостающие части в тексте, что является субъективным и длительным процессом. Эту задачу можно сформулировать как задачу моделирования замаскированного языка, используемого в основном как цель предварительного обучения для контекстуализированных языковых моделей. Разработано несколько архитектур, ориентируясь на аккадский язык того времени.

Обнаружили, что, несмотря на нехватку данных (до 1 млн. знаков), можно достичь высокого уровня производительности при прогнозировании пропущенных символов с совпадением до 89%, используя схему декодирования и предварительное обучение на данных с других языков и в разные периоды времени. Экспериментировали с различными адаптациями моделей на основе BERT (Bidirectional Encoder Representations from Transformers - Двунаправленный кодировщик представлений из трансформеров). Нейронная сеть от Google, который известен так же поисковой машиной, магазином приложений (Скачай в Google Play), Android и т.д.

Модели обучены и протестированы на Oracc, в сочетании с жадной схемой декодирования (локально оптимальные решения на каждом этапе) для расширения предсказания - с отдельных токенов (знаков) до нескольких слов. Специалисты сосредоточились на влиянии многоязычного предварительного обучения на последующую производительность, которое полезно для условий с ограниченными ресурсами. Производительность многоязычной языковой модели M-BERT (multilingual, многоязычный) превосходит одноязычную аккадскую модель примерно на 10%. Иногда новая модель подталкивала экспертов к новому образу мышления, которого у них ранее не было, - подчеркнул Габриэль Становски.

19.09.2021

Комментарий:




Шнобелевская премия 2005 по химии

Эдвард Касслер (Edward Cussler) и Брайан Геттельфингер (Brian Gettelfinger) из Университета Миннесоты провели эксперимент, целью которого было определить, плавает ли человек в сиропе быстрее или медленнее, чем в воде. Оказалось, что скорость не меняется
подробнее

Шнобелевская премия - 1991 - экономика

Майкл Милкен, титан, божество такое, Уолл-стрит и отец мусорных облигаций, удостоен Шнобелевской премии 1991 года по экономике. За мошенничество с ценными бумагами Милкен получил 2 года тюрьмы, штраф в $200 000 000, запрет на работу в сфере ценных бумаг
подробнее

facebook
Источник - пресса
(c) 2010-2024 Шнобелевская премияig-nobel@mail.ru