СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 3
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4
Авторы: Леонид Святогор, Виктор Гладун
Аннотация: В данной работе предлагается расширенное толкование понятия «текст естественного языка» и предлагается схема полного освоения его семантического ресурса за счёт «компьютерного понимания» и диалога. Указываются средства достижения указанной цели в процессе семантической обработки текстов – использование трёхуровневой онтологии для извлечения из текста онтологического смысла, а также ввод обратной связи для дополнительного уточнения в диалоге содержания дискурса.

Ключевые слова: семантический анализ текста, онтология, смысл, диалог.
ACM Classification Keywords: 1.2.7 Natural Language Processing — Text analysis
Conference: The paper is selected from XVth International Conference “Knowledge-Dialogue-Solution” KDS-2 2009, Kyiv, Ukraine, October, 2009.

Введение

В начале и в конце семантического анализа естественно-языковых текстов стоит Слово. Методы анализа разнообразны и зависят от решаемой в прикладной области задачи, и существует не одно направление обработки текстовой информации. В условном разделении можно выделить методы семантической обработки текстов, которые нацелены на «лингвистические преобразования», например – перевод на иностранный язык и обратно; краткий пересказ; конспектирование; тезисное представление; аннотирование и на решение других прагматических задач. С другой стороны, у исследователей искусственного интеллекта интерес к тексту лежит в области «извлечения знаний» – классификация сообщений, ответы на вопросы, контекстный перевод и понимание дискурсов [Sowa,2002]. Здесь применяются методы концептуального анализа. При этом можно заметить оформление двух проблем: (а) синтез систем представления знаний – онтологий и (б) разработка систем семантического анализа и машинного «понимания» текстов при помощи онтологий.
Проблема (а) решается широким фронтом; из последних, практически успешных работ можно указать на исследование [Палагин и др., 2009], где из корпуса профессиональных текстов автоматически извлекается подструктура знаний в одном из разделов предметной области (ПрО) «Материаловедение». Для синтеза онтологии используются формально-логические и синтаксические средства анализа.

Следует заметить, что «конкурирующим» подходом может служить разработка структур знаний при помощи экспертов и инженеров по знаниям. В этом случае готовой базой для разработчиков онтологий
10 15 – Knowledge – Dialogue — Solution служат учебники, свежие публикации и другие пособия по описанию ПрО [Поспелов, 1988; Гаврилова и Хорошевский, 2001; Ной и МакГиннесс, 2001].
В проблеме (б) наш подход состоит в следующем [Гладун и др., 2008; Святогор и Гладун, 2009].
Если описание ситуации, изложенной в тексте, может быть достигнуто чисто лингвистическими средствами, то понимание ситуации возможно за рамками лингвистического ресурса текста – мобилизацией когнитивных усилий человека и его индивидуальных знаний. Например, как отмечает Г.С. Поспелов, связное восприятие текста возможно лишь при его понимании.
Аналогично тому, как человеческое понимание рождается при согласовании внешней информации с его ментальной (когнитивной) моделью мира, «компьютерное понимание» может быть достигнуто отображением информации на определённую и формально-заданную систему знаний. Проще говоря, чтобы «понимать» что-то, надо его «узнавать». В машинной обработке текстовой информации роль памяти человека выполняет компьютерная система формальной репрезентации знаний – онтология: именно она позволяет совместить анализ текста с его компьютерным «пониманием». Процедурно это достигается достаточно просто: необходимо найти проекцию текста на компьютерную онтологию.
Говорить о «понимании информации» можно лишь в контексте окружающего её знания.

Конкретная задача искусственного интеллекта состоит в следующем. Задан текст ЕЯ, или сообщение. То, «о чём говорится», можно назвать темой, содержанием, интенцией сообщения или коммуникативным смыслом; этот смысл требуется из предъявленного текста извлечь [Мальковский, 1985; Штерн, 1998, стр.145].
Проверка «качества понимания», или релевантности текста извлечённому смыслу, происходит за рамками онтологии, например – экспертной оценкой смысла или по результату принятого решения.
Актуальность и цель работы
Машинное понимание языка является парадигмой искусственного интеллекта.
Кардинальным вопросом остаётся один: что мы хотим получить от текста? Мы хотим получить его формальный (компьютерный) смысл. Для этого рассматривается структура Системы семантического анализа ЕЯ текстов, в которой должны быть предусмотрены и объединены базовые процедуры: грамматический анализ, взаимодействие текста с онтологией, получение результата – формального понимания текста через онтологию и, наконец, – уточнение его смысла. В конечном итоге, предлагаемая технология семантического анализа преследует цель – добиться лучшего взаимного понимания автора текста и его потребителя через компьютер, общую базу знаний и родной язык.
Взгляд на семантический ресурс ЕЯ текста Потенциальные возможности текстового документа намного выше тех, что мы используем, и для того, чтобы «понимать» текст, нужно вначале выяснить его потенциальные возможности.

Текст рассматривается не только как вместилище информации – данных, фактов и знаний, которые требуется из него извлечь. Он представляет собой языковое, информационное и культурное явление, которое актуально для данного периода существования социума и может быть востребовано потомками. Отсюда следует, что текстовый материал изначально, априори «погружён» в некоторую общечеловеческую систему накопления и интерпретации знаний, в которой он сам был порождён. С другой стороны, текст генерируется как индивидуально, так и коллективно и может быть востребован также индивидуально или коллективно. Это означает, что содержание («семантическое наполнение») International Book Series «Information Science and Computing» 11 материала часто является многоплановым, и каждый план имеет свою глубину изложения. Выполняя свою коммуникационную функцию, текст обязан быть понимаемым пользователем, то есть – должен отображаться в базе знаний потребителя и взаимодействовать с ней.

Семантический компонент текста ЕЯ давно был зафиксирован лингвистами, которые определили предложение как выражающее законченную мысль. Какую мысль? Как её кратко и неискажённо сформулировать? Поиски ответа продолжаются в рамках когнитивной лингвистики [Штерн, стр.129], психологии [Балл, 2006], искусственного интеллекта [Поспелов, 1988]. В произвольном дискурсе мысль облачена в лексическую оболочку в соответствии с правилами грамматики, и в ряде случаев эту оболочку надо «сбросить». В интересующих нас случаях документ или сообщение несёт актуальную информацию или стабильное знание. Концентрированное выражение знания мы называем смыслом. Это концентрированное знание, или смысл, надо извлечь, чтобы потом с ним оперировать. Следовательно, текст нужно хранить и беречь, поскольку он содержит определённый авторский замысел, интеллектуальный ресурс и в социогуманистическом плане является продолжением баз знаний.

Признавая ёмкий семантический ресурс текста, мы приходим к выводу, что во многих приложениях его потребительская ценность быстро не исчерпывается. Извлечение смысла вряд-ли является одноразовой операцией коммуникации. Можно надеяться на то, что раскрыть содержательный ресурс текста полностью (если это возможно!) удастся многократным к нему обращением. В этом состоит активная функция документа, которая используется в некоторых приложениях для глубинного семантического анализа [Поспелов, 1988; Штерн, стр.70].
См. далее — СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2
  • +3
  • 2 ноября 2009, 17:22
  • yxom

Комментарии (1)

RSS свернуть / развернуть
+
+1
благодарю!
avatar

yxom

  • 3 ноября 2009, 23:11

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.