Превращение словаря в "дерево смыслов": доклад аспиранта Школы на научном семинаре

В пятницу 11 декабря на очередном научном семинаре Школы лингвистики выступил аспирант Даниил Алексеевский с докладом "YARN: полпути к русскому ворднету. Эксперименты по дизамбигуации". Докладчик рассказал об одном из наиболее сложных этапов разработки нового лексического ресурса для русского языка, аналогичного принстонскому WordNet.

Английский WordNet был разработан в Принстонском университете и представляет собой древесный граф из синонимических рядов (т.н. синсетов), каждый из которых хранит некоторое «понятие» реального мира. Например, в один синсет можно объединить слова car, auto, automobile, machine, motorcar – вместе они представляют понятие автомобиль; при этом слово car в другом своем значении входит в другой синсет для понятия вагон (вместе с railcar).

У каждого синсета есть родитель – синсет более высокого, общего уровня. Синсет-родитель называется гиперонимом, а синсет-ребенок – гипонимом. Например, синсет автомобиль является гиперонимом для минивэна, внедорожника и т.п.

WordNet оказался чрезвычайно полезным ресурсом для прикладных задач. В частности, с его помощью можно снимать лексическую неоднозначность, улучшать качество машинного перевода, расширять запросы синонимами в информационном поиске. В связи с этим ресурсы такого типа стали создаваться во многих странах, и сегодня их число перевалило за вторую сотню. Однако для русского языка полноценного WordNet по-прежнему не существует, хотя работы ведутся сразу несколькими коллективами.

В одном из таких проектов участвует и Высшая школа экономики.  За время существования проект успел опробовать несколько подходов по созданию графа синсетов, основанных как на ручном труде, так и на автоматической обработке данных. Последний подход связан с автоматическим выделением отношений гиперонимии (частное-общее) из текстов словарных определений толкового словаря. Он основан на том, что гипероним очень часто  является ядром словарной статьи, поскольку через него проще всего объяснить определяемое слово (олень – это млекопитающее, воробей – это птица, велюр – это ткань и т.п.).

Одним из ключевых мест в этом подходе является семантическая дизамбигуация (т.е. снятие ноднозначности) кандидата в гиперонимы. Например, для селедки (в значении вид рыбы) гиперонимом является рыба, но у слова рыба много значений, из которых надо выбрать нужное, прежде чем проводить связь между синсетами.

Для словарей это сложная задача, на которой согласованность между экспертами не превышает 55%. Даниил Алексеевский и его коллеги провели серию экспериментов с классическими эвристическими подходами к дизамбигуации и с их расширением с использованием базы данных семантической близости слов. В докладе были представлены результаты этих экспериментов, а также современное состояние проекта в целом и планируемые дальнейшие шаги.