СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4

Понимание связного текста

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 3
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4

Определив формально онтологический смысл, мы можем в прагматическом плане говорить о «компьютерном понимании текста». Под этим будем подразумевать, что: (а) компьютер выявляет «замысел автора», интерпретирует его внутри собственной системы знаний и (б) производит над смыслом определённые операции, в том числе – даёт ему естественно-языковую грамматическую интерпретацию [Штерн, стр. 60; Мальковский, 1985; Демьянков, 1985].
Предложенный аппарат компьютерного понимания включает триаду «Онтология – Текст – Смысл». Графические структуры триады непосредственно поддерживают процесс понимание текста, потому что семантическая сеть в явном виде способна отвечать на основные вопросы понимания, например: «Что связывает кошку с мышкой?», «Что общее существует между человеком и птицей?», «Чем отличается человек от птицы?». Подчеркнём, что ответы даются не в текстовом лексиконе, а на концептуальном уровне общего знания – на метаязыке онтологии.
В то же время говорить о понимании авторского замысла, имея дело с многоплановым и лексически-избыточным текстовым документом, довольно сложно. Как указывалось, онтологический смысл, который является продуктом семантического анализа полного текста, реализуется в виде пучка траекторий, мощность которого зависит от длины текста. Траектории активизируются ключевыми словами и «накрывают» весь текст дискретно, но не хаотично. Последовательность развития ситуации сохраняется.
Траектории упорядочены по времени их появления, они семантически взаимосвязаны одной фразой, абзацем, разделом. Отдельные ключевые слова вступают во взаимодействие через общие концепты более высокого уровня. Отдельные траектории пересекаются и частично сливаются, причём их концепты пересекаются в разных комбинациях и с разной частотой. Этот сложный механизм структурно и схематично отражает, в принципе, всю семантическую сложность и связность текста, все повороты его тематики. «Неучтёнными» остаются лишь детали, подробности, числовые данные и т.п. Однако уточнение деталей принципиально выходит за рамки выявления смысла и требует другой технологии.
Фундаментальная ценность механизма выявления онтологического смысла кроется в том, что он, создавая графический портрет текста и описывая его метаязыком онтологии, позволяет человеку сложить хотя и самое общее и схематичное, но вполне адекватное представление о ситуации, дать ему концентрированную информацию, возбудить целенаправленные вопросы, отсеять лишние гипотезы.
В итоге потребитель получает определённую ясность – в чём состоит суть сообщения.
Что касается человеческого понимания онтологического смысла, формат которого непривычен для (современного) человека, то для его преобразования в грамматическую языковую форму предусмотрен, как указано выше, специальный транслятор «смысл – текст». Принципы трансляции разработаны в лингвистической модели «смысл–текст» [Мельчук, 1999].
Раскрытие смысла в диалоге
«Текст обогащает смысл» (эта формула принадлежит С. Васильеву, 1988 г).
Как было показано выше, активная функция текста проявляется в том, что он является, в принципе, неисчерпаемым источником интереса, причёмпри повторном чтении возможно не только переосмысливание дискурса, но даже изменение онтологии ( Sic! ). Особенно это относится к учебным материалам и высокохудожественным произведениям. Поэтому необходимо обеспечить многократный доступ пользователя к первоисточнику для более полного раскрытия его ресурса. Это возможно в режиме диалога.
В теории репрезентации знаний используют понятие «страты знаний» [Гаврилова и Хорошевский,
2001]. Стратификация знаний производится по типу их анализа, при этом различают: Зачем – знания,
Кто – знания, Что – знания, Как – знания, Где – знания, Почему – знания и т.д.
Если в упрощённом виде использовать эту методологию для организации диалога, то следует модернизировать лингвистический процессор. В процессе построения дерева синтаксического разбора предложения связи (стрелки) между членами предложения должны быть проиндексированы вопросами, например, такими: кто, что-делает, где, когда, какой, сколько, зачем, каким-образом и т.д. Такая индексация создаёт для диалога лингвистическую базу. Вопросы к тексту, сформулированные пользователем, активизируют соответствующие группы слов, которые формируют ответ и тем самым раскрывают «глубинные падежи» ситуации [Поспелов, 1988; Мальковский, 1985; Штерн, стр. 71].

Заключение
Предлагаемый взгляд на общие ресурсы текста ЕЯ, на задачи его семантического анализа, способы и результат обработки приводит к единой триаде: «Онтология – Текст – Смысл». Задачей семантического анализа текста полагается извлечение концентрированного знания, релевантного замыслу автора. Платформой извлечения знания служит онтология ИО*3 – концептуальная система репрезентации общих знаний о мире и предметных областях. Результатом взаимодействия текста с онтологией является онтологический смысл – множество взаимосвязанных подграфов онтологического графа.
Онтологический смысл извлекается из онтологического графа «смысловым процессором» и интерпретируется с помощью транслятора «смысл – текст».
Для более глубокого изучения содержания документа используется «диалоговый процессор», который исследует дерево синтаксического разбора предложения и по заданному вопросу находит в тексте фрагмент, служащий конкретным ответом на вопрос пользователя.
Компьютерное понимание текста достигается за счёт: 1) погружения текста в единую среду знаний – онтологию, 2) формального представления смысла в памяти компьютера и 3) возможности операций над онтологическим смыслом.

Возможные применения
Предлагаемую новую информационную технологию можно использовать для формирования Баз данных, архивирования электронных документов, их индексирования, классификации и поиска в Интернет. В виртуальных лабораториях возможно на её основе создавать интеллектуальные банки данных, работающие в единой среде знаний.
Данная технология ориентирована на автоматическое извлечение метаданных из текстовых документов. При соответствующей доработке она может служить в системах автоматического реферирования научных публикаций, а в перспективе – для осмысленного интерпретирования мультимедийных документов.
  • +2
  • 3 ноября 2009, 11:10
  • yxom

Комментарии (0)

RSS свернуть / развернуть

Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.