АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 2

АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 1
АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 2
АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 3

Принципы автоматического выбора терминов

Для построения понятийного аппарата из текстов предметной области используется поиск и выделение субстантивных именных словосочетаний, выражаемых схемой: согласуемое слово + существительное. В этой модели существительное является главным словом, а согласуемое слово — зависимым и может выражаться как прилагательным, так и существительным [2]. Словосочетания могут включать в свой состав также предлоги и сочинительные союзы. Количество слов в именных словосочетаниях колеблется от двух до пятнадцати и в среднем составляет три слова [3]. В работе [2] приводится 18 шаблонов именных словосочетаний, используемых для выделения терминов предметной области. В русском языке синтаксическая структура терминов предметной области более чем в 90 процентов случаев соответствует следующим пяти шаблонам: одиночные существительные, прилагательные, и сокращения; существительное + существительное в родительном падеже; прилагательное + существительное; прилагательное + прилагательное + существительное; существительное + прилагательное + существительное в родительном падеже [4].
Вместе с тем существуют сложные словосочетания, используемые для обозначения понятий и терминов, состоящих из трех и более значимых слов. Выражение понятий и терминов словосочетаниями в пять и более слов, с использованием союзов и предлогов встречается редко, особенно такими словосочетаниями, в которых части речи не чередуются (например, прилагательное + прилагательное + прилагательное + существительное + существительное в родительном падеже). Эксперименты по выделению терминов показали, что в украинском языке для предметной области «экономика» целесообразно увеличить количество слов в синтаксической структуре именных словосочетаний до пяти. Словосочетания длиной пять и более слов используются в наименованиях организаций, в определении понятий относящихся к финансово-экономической сфере деятельности организаций. Шаблоны именных словосочетаний, используемых для поиска терминов, приведены в Таблице 1.

( Читать дальше )

АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 1

АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ
ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ


АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 1
АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 2
АВТОМАТИЗИРОВАННОЕ СОЗДАНИЕ ТЕЗАУРУСА ТЕРМИНОВ ПРЕДМЕТНОЙ ОБЛАСТИ ДЛЯ ЛОКАЛЬНЫХ ПОИСКОВЫХ СИСТЕМ часть 3

Авторы: Виталий Величко, Павел Волошин, Светлана Свитла
Аннотация: В статье рассмотрен метод автоматизированного создания тезауруса терминов
предметной области на основе синтактико-семантического анализа естественно-языковых текстов для повышения релевантности поиска в полнотекстовых локальных поисковых системах. Использование предложенного метода позволяет сократить затраты времени на составление и редактирование тезауруса.
Ключевые слова: локальные полнотекстовые поисковые системы, тезаурус терминов, синтактико-семантический анализ.
ACM Classification Keywords: I.2.7 Natural Language Processing — Text analysis
Conference: The paper is selected from XVth International Conference “Knowledge-Dialogue-Solution” KDS-2 2009, Kyiv, Ukraine, October, 2009.

Введение
Количество электронных документов, которые использует в своей ежедневной деятельности современная компания, стремительно возрастает. При этом данные хранятся в различных хранилищах, каждое из которых имеет собственную структуру (базы данных, информационные порталы, электронные библиотеки и т.д.) либо хранилище документов вообще неструктурированно (файлы на жестком диске пользователя).
Поэтому для обеспечения жизнедеятельности крупных государственных структур и частных корпораций необходимым условием является использование локальных поисковых систем для осуществления поиска по внутренним информационным ресурсам.

( Читать дальше )

БАЗОВАЯ ОНТОЛОГИЯ РАСПРЕДЕЛЕННОЙ ВИРТУАЛЬНОЙ ЛАБОРАТОРИИ ПРОЕКТИРОВАНИЯ СЕНСОРНЫХ СИСТЕМ часть2

БАЗОВАЯ ОНТОЛОГИЯ РАСПРЕДЕЛЕННОЙ ВИРТУАЛЬНОЙ ЛАБОРАТОРИИ ПРОЕКТИРОВАНИЯ СЕНСОРНЫХ СИСТЕМ часть1
БАЗОВАЯ ОНТОЛОГИЯ РАСПРЕДЕЛЕННОЙ ВИРТУАЛЬНОЙ ЛАБОРАТОРИИ ПРОЕКТИРОВАНИЯ СЕНСОРНЫХ СИСТЕМ часть2

Цели построения онтологии VLCAD можно разделить на 2 группы – цели разработчика лаборатории и цели разработчика электронного устройства. Для разработчика лаборатории основной целью построения онтологии является формальное описание и классификация элементов виртуальной лаборатории и связей между ними для оценки функциональности текущего состояния VLCAD и планирования дальнейшей разработки лаборатории. С точки зрения разработчика электронного устройства основной целью онтологии является активная помощь пользователю при создании сенсорной системы с общением на ограниченном естественном языке. Ответ системы должен представлять собой описание процедур, методов и компонентов виртуальной лаборатории, которые позволяют решить задачу, поставленную в запросе пользователя. Для базовой онтологии VLCAD было принято ограничить функциональность следующим: предоставление информации, как о полной, так и о частичной структуре лаборатории в текстовом и графическом виде; предоставление информации о зависимостях между отдельными компонентами виртуальной лаборатории по запросу пользователя, включая входные и выходные данные для каждого компонента.

( Читать дальше )

БАЗОВАЯ ОНТОЛОГИЯ РАСПРЕДЕЛЕННОЙ ВИРТУАЛЬНОЙ ЛАБОРАТОРИИ ПРОЕКТИРОВАНИЯ СЕНСОРНЫХ СИСТЕМ часть1

БАЗОВАЯ ОНТОЛОГИЯ РАСПРЕДЕЛЕННОЙ ВИРТУАЛЬНОЙ ЛАБОРАТОРИИ ПРОЕКТИРОВАНИЯ СЕНСОРНЫХ СИСТЕМ
БАЗОВАЯ ОНТОЛОГИЯ РАСПРЕДЕЛЕННОЙ ВИРТУАЛЬНОЙ ЛАБОРАТОРИИ ПРОЕКТИРОВАНИЯ СЕНСОРНЫХ СИСТЕМ часть1
БАЗОВАЯ ОНТОЛОГИЯ РАСПРЕДЕЛЕННОЙ ВИРТУАЛЬНОЙ ЛАБОРАТОРИИ ПРОЕКТИРОВАНИЯ СЕНСОРНЫХ СИСТЕМ часть2

Александр Палагин, Владимир Романов, Крассимир Марков, Виталий Величко, Игорь Галелюка, Крассимира Иванова, Петер Станчев, Илия Митов, Милена Станева
Аннотация: В статье рассмотрен алгоритм построения онтологии виртуальной лаборатории автоматизированного проектирования. Сформулированы требования, согласно которым разработана онтология. Приведены фрагмент глоссария и пример реализации разработанной онтологии специальными программными средствами.
Ключевые слова: Виртуальная лаборатория; автоматизация проектирования; онтология.
ACM Classification Keywords: J.6 Computer-Aided Engineering – Computer-Aided Design (CAD); K.4.3 Organizational Impacts – Computer-Supported Collaborative Work.
Conference: The paper is selected from XVth International Conference “Knowledge-Dialogue-Solution” KDS-2 2009, Kyiv, Ukraine, October, 2009.

Введение
Описанная в [Palagin et al, 2009] компьютерная технология разработки сенсорных систем с помощью виртуальной лаборатории автоматизированного проектирования (virtual laboratories of computer-aided design – VLCAD) позволяет специалистам различных предметных областей, таких как химия, биология, биохимия, физика самостоятельно проверить возможность создания измерительного устройства и спроектировать новый прибор вплоть до разработки конструкторской документации. VLCAD создается на базе формализованного представления теоретических знаний, принципов организации, методов и средств автоматизированного проектирования и тестирования информационно-измерительных систем и приборов с использованием методологии системной интеграции [Палагин и Кургаев, 2003]. Для формализованного описания сложных систем, структурирования и представления знаний о некоторой предметной области в машинной форме все более широко используются онтологии. Онтология, как правило, описывает иерархию концептов предметной области и существенные свойства каждого концепта с помощью механизма «атрибут – значение». Связи между концептами могут быть описаны с помощью дополнительных логических утверждений. Эффективность использования онтологий особенно проявляется в таких наукоемких исследовательских областях, как техника представления и управления знаниями, моделирование объектов и процессов, проектирование баз данных, информационная интеграция и обнаружение знаний [Гладун, 1994]. Рассмотрим онтологическое представление VLCAD.

( Читать дальше )

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4

Понимание связного текста

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 3
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4

Определив формально онтологический смысл, мы можем в прагматическом плане говорить о «компьютерном понимании текста». Под этим будем подразумевать, что: (а) компьютер выявляет «замысел автора», интерпретирует его внутри собственной системы знаний и (б) производит над смыслом определённые операции, в том числе – даёт ему естественно-языковую грамматическую интерпретацию [Штерн, стр. 60; Мальковский, 1985; Демьянков, 1985].
Предложенный аппарат компьютерного понимания включает триаду «Онтология – Текст – Смысл». Графические структуры триады непосредственно поддерживают процесс понимание текста, потому что семантическая сеть в явном виде способна отвечать на основные вопросы понимания, например: «Что связывает кошку с мышкой?», «Что общее существует между человеком и птицей?», «Чем отличается человек от птицы?». Подчеркнём, что ответы даются не в текстовом лексиконе, а на концептуальном уровне общего знания – на метаязыке онтологии.
В то же время говорить о понимании авторского замысла, имея дело с многоплановым и лексически-избыточным текстовым документом, довольно сложно. Как указывалось, онтологический смысл, который является продуктом семантического анализа полного текста, реализуется в виде пучка траекторий, мощность которого зависит от длины текста. Траектории активизируются ключевыми словами и «накрывают» весь текст дискретно, но не хаотично. Последовательность развития ситуации сохраняется.
Траектории упорядочены по времени их появления, они семантически взаимосвязаны одной фразой, абзацем, разделом. Отдельные ключевые слова вступают во взаимодействие через общие концепты более высокого уровня. Отдельные траектории пересекаются и частично сливаются, причём их концепты пересекаются в разных комбинациях и с разной частотой. Этот сложный механизм структурно и схематично отражает, в принципе, всю семантическую сложность и связность текста, все повороты его тематики. «Неучтёнными» остаются лишь детали, подробности, числовые данные и т.п. Однако уточнение деталей принципиально выходит за рамки выявления смысла и требует другой технологии.
Фундаментальная ценность механизма выявления онтологического смысла кроется в том, что он, создавая графический портрет текста и описывая его метаязыком онтологии, позволяет человеку сложить хотя и самое общее и схематичное, но вполне адекватное представление о ситуации, дать ему концентрированную информацию, возбудить целенаправленные вопросы, отсеять лишние гипотезы.
В итоге потребитель получает определённую ясность – в чём состоит суть сообщения.
Что касается человеческого понимания онтологического смысла, формат которого непривычен для (современного) человека, то для его преобразования в грамматическую языковую форму предусмотрен, как указано выше, специальный транслятор «смысл – текст». Принципы трансляции разработаны в лингвистической модели «смысл–текст» [Мельчук, 1999].

( Читать дальше )

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 3

Иерархическая трёхуровневая онтология внешнего мира

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 3
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4

В общем случае в искусственном интеллекте понятие «картина мира» появляется как синоним понятий
«модель мира», «модель предметной области» [Штерн, стр.156]. В области Knowledge representation исследователями предложено немало онтологических систем репрезентации концептуальных знаний о мире (известные онтологии Дж. Совы, Микрокосмос, РуТЕЗ* и другие). Обладая мощным философским и лексическим потенциалом, общие онтологии скорее относятся к области гносеологических моделей, чем к системам, пригодным для семантического анализа текстов живого языка: взаимодействие онтологий с реальным текстом, так же как и результаты онтологической работы, остаются не определёнными.
В предлагаемой структуре Системы семантического анализа ЕЯ текста онтологии отводится ведущая роль. Как система отображения общественного интеллекта она позволяет интерпретировать текстовую информацию на языке общих знаний и объединяет тройку «автор – текст – потребитель» в единую интеллектуальную среду. Любое явление может быть понято и интерпретировано только в контексте общепринятого и стабильного знания.
Базисом Системы служит новая иерархическая трёхуровневая онтология – ИО*3 [Гладун и др., 2008]. Она отличается двумя особенностями: (а) сетевая структура даёт принципиальную возможность объединить – в рамках единой конструкции – знания высшего уровня абстракции, общедоступные (повседневные и актуальные) знания среднего уровня и профессиональные знания нижнего уровня; (б) одновременно она ориентирована на работу с конкретными текстами. Кроме того, показано, что (в) результатом извлечения из текста знаний должен быть «онтологический смысл». Этот смысл поддаётся строгой формализации и компьютерной обработке [Святогор и Гладун, 2009].
Иерархическая трёхуровневая онтология ИО*3 представляет собой семантическую сеть в форме концептуального ориентированного графа.

( Читать дальше )

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2

Какие выводы следуют из расширенного толкования понятия «Текст»?

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 3
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4

Решению задачи полного раскрытия семантического ресурса текста, на наш взгляд, способствует такая Система семантического анализа ЕЯ текстов (Система), которая удовлетворяет следующим требованиям:
Первое. Партнёры интеллектуального общения вместе с текстом погружены в единую компьютерную среду онтологического знания.
Второе. Предварительная лингвистическая обработка исходного текста (морфологический, синтаксический и семантический анализ предложений) необходима для снятия «лексической оболочки» и выделения термов, несущих содержательную нагрузку.
Третье. Результатом компьютерного семантического анализа связного текста должен быть формальный или адаптированный текст ЕЯ, который выражает его смысловое содержание.
Четвёртое. Система должна обеспечивать самоконтроль авторского намерения – насколько адекватно он выражает свои мысли.
Пятое. Система должна многократно активизировать текст с целью более глубокого проникновения в смысл сообщения.
В результате самого общего взгляда на желаемые качества Системы семантического анализа можно сделать вывод, что потенциальные возможности текста реализуются при помощи двух механизмов: анализа через онтологию и активного диалога.

( Читать дальше )

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА

СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 1
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 2
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 3
СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ ЕСТЕСТВЕННОГО ЯЗЫКА: ЦЕЛИ И СРЕДСТВА часть 4
Авторы: Леонид Святогор, Виктор Гладун
Аннотация: В данной работе предлагается расширенное толкование понятия «текст естественного языка» и предлагается схема полного освоения его семантического ресурса за счёт «компьютерного понимания» и диалога. Указываются средства достижения указанной цели в процессе семантической обработки текстов – использование трёхуровневой онтологии для извлечения из текста онтологического смысла, а также ввод обратной связи для дополнительного уточнения в диалоге содержания дискурса.

Ключевые слова: семантический анализ текста, онтология, смысл, диалог.
ACM Classification Keywords: 1.2.7 Natural Language Processing — Text analysis
Conference: The paper is selected from XVth International Conference “Knowledge-Dialogue-Solution” KDS-2 2009, Kyiv, Ukraine, October, 2009.

Введение

В начале и в конце семантического анализа естественно-языковых текстов стоит Слово. Методы анализа разнообразны и зависят от решаемой в прикладной области задачи, и существует не одно направление обработки текстовой информации. В условном разделении можно выделить методы семантической обработки текстов, которые нацелены на «лингвистические преобразования», например – перевод на иностранный язык и обратно; краткий пересказ; конспектирование; тезисное представление; аннотирование и на решение других прагматических задач. С другой стороны, у исследователей искусственного интеллекта интерес к тексту лежит в области «извлечения знаний» – классификация сообщений, ответы на вопросы, контекстный перевод и понимание дискурсов [Sowa,2002]. Здесь применяются методы концептуального анализа. При этом можно заметить оформление двух проблем: (а) синтез систем представления знаний – онтологий и (б) разработка систем семантического анализа и машинного «понимания» текстов при помощи онтологий.
Проблема (а) решается широким фронтом; из последних, практически успешных работ можно указать на исследование [Палагин и др., 2009], где из корпуса профессиональных текстов автоматически извлекается подструктура знаний в одном из разделов предметной области (ПрО) «Материаловедение». Для синтеза онтологии используются формально-логические и синтаксические средства анализа.

( Читать дальше )
  • +3
  • 2 ноября 2009, 17:22
  • yxom
  • 1+1