Главная > Документ


Если в текстах порождающих правил использованы различные шрифты, то отделение метапонятий и понятий запятой не обязательно. При создании записи правил языка не учитывается вариация окончаний слов. Предполагается, что изменение окончаний в имени понятий не приводит к другим понятиям. Сказанное является по существу семантикой языка Марков, поэтому комментарии к правилам излишни. Язык Марков определяет форму порождающих контекстно-свободных грамматик (КС-грамматик), и язык Марков определяется также порождающей КС-грамматикой, язык Марков - это порождающая грамматика, которая определяется формально с помощью порождающей грамматики:

порождающая грамматика: алфавит терминальных символов ,

алфавит нетерминальных символов , последовательность правил ,

аксиома.

алфавит терминальных символов: список терминальных символов.

терминальный символ: слово символ , наименование ; знак.

алфавит нетерминальных символов: список метапонятий.

аксиома: нетерминальный символ.

знак: символ алфавита ASCII.

слово символ: с , и , м , в , о , л.

наименование: метапонятие.

Порождающая грамматика - это четверка: конечный алфавит терминальных символов, конечный алфавит нетерминальных символов, конечный набор формул подстановок и нетерминальный (целевой) символ - аксиома. Система предложений (утверждений), данная ниже определяет правила построения формул подстановок (правил порождения). Далее формально определяется понятие правила.

правило: метапонятие , символ двоеточия , правая часть , знак границы правила.

метапонятие: последовательность слов.

понятие: метапонятие ; терминальный символ.

слово: буква; слово , буква ; слово , цифра.

правая часть: перечень возможных предложений.

предложение: список понятий.

знак границы правила: символ точки.

последовательность понятий: понятие ; последовательность понятий , понятие.

возможное понятие: пусто ; понятие.

список понятий: понятие ; список понятий , символ запятой , понятие.

перечень понятий: понятие; перечень понятий , символ точки с запятой , понятие

Терминальные символы задаются своими наименованиями и кодами, которые определяются формально с помощью порождающей грамматики. Если код знака не задан, то подразумевается код этого знака в алфавите ASCII.

таблица кодов терминальных символов: перечень соответствий.

соответствие: терминальный символ , символ равно , код.

код: целое число ; код целого числа.

код целого числа: # целое число.

целое число: последовательность цифр.

Код целого числа задается знаком # и целым числом десятичной системы счисления. Символы букв и цифр не представлены в грамматике в силу их понятности и известности.

В качестве примера формального определения можно рассмотреть сам метаязык или язык Марков, предназначенный для синтаксического определения формы порождающей грамматики и его ввода в память Интеллсист для реализации генерации тестов проверки транслятора ФЯ или ЯПП. Синтаксис определяет КС-грамматику. Данное формальное определение является примером самоопределения грамматики с формальной точки зрения. Имя Марков языку дано в силу того обстоятельства, что именно Марковым впервые были исследованы формулы подстановки при построении теории нормальных алгоритмов [Марков84]. Порождающая грамматика применяется для генерации текстов определяемого языка. При практическом использовании языка Марков будут использованы дополнительные правила упрощения записи правил. Например, в правилах опускается символ запятой, если соединяются метапонятия с терминальными символами, которые представлены графически или выделены полужирным шрифтом.

Каждый нетерминальный символ является термином для определения понятия, у которого значениями являются слова, порождаемые грамматикой для этого нетерминального символа. Каждое метапонятие является именем подъязыка определяемого языка. В формальном определении языка Марков отсутствуют средства указания аксиомы, поэтому инициализация генератора должна сопровождаться метапонятием, являющимся аксиомой. В частности это может быть основное метапонятие, которое именует весь язык. Весь язык Марков определяет набор метапонятий, термины которых находятся слева от двоеточия в каждом правиле, число метапонятий (без одного) определяет количество подъязыков. Конечно, необходимо учитывать, что для одного термина написано несколько правил. Поэтому для определения понятия необходимо использовать всю совокупность правил, у которых левая часть имеет один и тот же термин.

В заключение сделаем некоторые замечания. Аналогично можно построить грамматику для контекстно-зависимого языка. Отличие контекстно-зависимой грамматики от КС-грамматики состоит в том, что левая часть правил может состоять из списка предложений из метапонятий и терминальных символов. Символ пробела используется при построении предложений правил грамматики для выделения слов. Однако формализм не предусматривает использование символа пробела. Это сделано для экономии записи грамматики. Считается, что слова автоматически разделяются пробелами для упрощения процедуры распознавания слов. В одном месте символ пробела используется для отделения слов (разделитель слов), в других местах символ пробела не обязателен, хотя по тексту он проставлен во многих местах. Сказанное можно отнести к прагматике языка Марков. Терминальный символ может быть задан в правилах знаком. В текстах правил используется одно допущение: в списках понятий некоторые запятые опускаются. Если символ представлен знаком или словами из полужирного шрифта, то он не отделяется от слова запятой, как было сказано выше. В качестве знаков не могут использоваться символы двоеточия, запятой, точки и точки с запятой и точки, они несут синтаксическую нагрузку в правилах.

Если заданы значения отдельных слов [терминов] и правила синтаксиса, то определено значение всей фразы.

Б. Рассел

Глава 2. Семантическая грамматика русского языка

Два стимула послужили основанием для создания новой грамматики русского языка. Первый стимул - это упорная работа над созданием Интеллсист, призванной обеспечить любого пользователя ВМ средствами решения его задач и проблем на основе своих знаний без привлечения программистов и формальных способов их представления. Второй стимул - публикация пяти лекций известного в информатике языковеда Н. Хомского [Хомский96] о сопоставлении и согласовании языка и знаний. Первый стимул явился как необходимость рассмотрения ЕЯ в качестве средства общения человека с ВМ, а второй - вызвал критическое настроение от способов понимания смысла любых текстов, передающих знания. В этой главе рассматривается формальное определение ЯПП как части ЕЯ с помощью грамматики языка Лейбниц, который предназначен для внутреннего (в Интеллсист) представления знаний и для точного понимания языковой сущности общения в системе человек-ВМ.

Утверждается, что существующая грамматика русского языка является по существу синтаксической. Она рассматривает правила построения слов, словосочетаний, предложений и текстов. Грамматика базируется примерно на двух-трех сотнях грамматических категорий. Различие ЕЯ одной национальности и ЕЯ другой заключается не только в различных способах представления слов и алфавитов, но и базируется на разных категориях грамматик. Эти факторы усложняют процессы перевода с одного ЕЯ на другой. В частности, от этого же усложняется перевод с данного ЕЯ на ФЯ, а перевод крайне необходим при передаче смысла знаний для Интеллсист. Синтаксическая грамматика ЕЯ не определяет смысл всех конструкций и категорий этого языка для Интеллсист (эта задача и не входила в цели описания грамматики). Имеются некоторые исключения для такого общего мнения. К примеру, в синтаксической грамматике поясняется смысл косвенной речи, некоторых знаков пунктуации и собственных имен. Несколько больше смысла можно обнаружить в части русского языка, применяемой для передачи профессиональных знаний. ВМ обычно используется для решения задач, вопросов или проблем, формулировка которых содержит смысл, который не может быть понят на основе грамматических правил. Определение смысла возможно только при построении СеГ ЕЯ. СеГ состоит из правил вычисления смысла текстов. Будем рассматривать только русский язык, хотя все формальные определения его СеГ легко перекладываются на любой другой ЕЯ. Эти обстоятельства позволяют предполагать, что СеГ является универсальной и промежуточной (посреднической), она может использоваться для построения программ перевода с одного (в том числе и формального) языка на другой (в том числе формальный) язык.Именно в связи с этим укрепляется мысль о существовании универсальной грамматики, которая явилась бы промежуточным языком в алгоритмах перевода с языка на язык.

Введение в сущность СеГ

Истоки воззрений на смысл текстов находятся в трудах Лейбница [Лейбниц], который исследовал начала символического языка как универсального средства анализа научного мышления, а также в трудах Фреге [Фреге77], который определил элементарную единицу знания. Клини в своей монографии [Клини73] показал примеры сопоставления ЕЯ и символического языка. Длительная работа со средствами написания программ и развития интеллекта ВМ позволили автору вплотную заняться изучением сущности грамматики русского языка и поиском алгоритмов понимания ЕЯ. Ограничимся рассмотрением только русского языка, в предположении, что для других ЕЯ сохраняется общий конструктивный подход для формирования алгоритмов понимания текстов. В лекциях Хомского делается попытка поиска смысла текста с помощью средств, данных в классической грамматике, - СиГ ЕЯ. Этот подход оправдывается только частично. Рассматривается альтернативный подход к методам определения смысла текстов.

Современная литература по проблемам анализа ЕЯ и применения его в ИИ отражает поиск продуктивного сопоставления грамматик ЕЯ и ФЯ [Логический98 и др.]. Внимательный анализ литературы в сопоставлении с идеями настоящего раздела приводит к следующему. Можно указать несколько ошибок в анализах ЕЯ с точки зрения нового понимания СеГ в выборе путей сближения ЕЯ и логических языков. Первая ошибка состоит в игнорировании принятого в информатике правила о том, что каждое понятие должно быть описано, а описание понятия должно передаваться ВМ для использования его при анализе текстов. Человек понимает текст только в том случае, когда ему известны (может быть и на интуитивном уровне) смыслы всех понятий, используемых в тексте. Известное высказывание Рассела из Анализе разума, приведенное в эпиграфе, подтверждает сказанное. Другой взгляд таков: только термины могут иметь смысл или значения, которые определяют смысл фразы. Вторая ошибка состоит в переносе из СиГ идеи о том, что основным носителем смысла является только слово. Опять можно применить указанный выше другой взгляд. Конечно, слово может быть термином, тогда оно будет носителем смысла. Третья ошибка состоит в том, что смысл фразы постоянен относительно данной БЗ и не зависит от контекста ее использования или применения. Смысл фразы: «Жители Адаманских островов едят на обед рагу из гиппопотама» может быть определенным. Если имеются затруднения при понимании этого высказывания, то эту фразу можно задать в качестве запроса для Интеллсист, тогда она в зависимости от наполнения БЗ будет выводить различные ответы: «да», «нет» или «не знаю». Так же эту фразу понимает и человек. Четвертая ошибка состоит в том, что части речи грамматики ЕЯ привязываются прочно к смыслу понятий, упуская при этом важное обстоятельство - фраза, составленная из слов различных частей речи, может составлять структурное понятие, имеющее смысл, отличный от соединения смыслов отдельных слов. Конечно основная беда исследований ЕЯ, представленных в [Логический98], состоит в том, что каждый подход к формализации ЕЯ (обсуждается формализация английского языка) состоит в поиске правил, охватывающих весь ЕЯ. Всезнайкой быть невозможно, поэтому ЯПП ориентирован на конкретную область знаний (для анализируемой литературы это пятая ошибка). Это вполне оправдано, поскольку задачи решаются специалистами конкретной области, их не интересует другая область знаний, может быть кроме смежных областей.

История формирования СеГ начиналась в связи с появлением первых электронных ВМ. ВМ перерабатывает (главным образом) двоичные коды. Запись программ в двоичных кодах сразу же не была воспринята, но помогла счастливая случайность простого перевода двоичного кода в восьмеричный и обратный перевод. Эти возможности помогли программистам некоторое время успешному освоению основ программирования. Вскоре появился буквенно-цифровой код, имена ячеек памяти ВМ стало возможным именовать словами, а коды операций - их естественным обозначением. Такой способ записи программ стали именовать автокодом. Было обнаружено, что трансляция формул осуществляется на основе простых алгоритмов. После этого родилось средство записи программ на языке формульный автокод (ФРАК). Со временем стали появляться многочисленные ФЯ некоторого уровня абстракции. В настоящее время актуально использование ЕЯ на основе символов, экранных пиктограмм или картинок. При этом история развития средств общения с ВМ наложила серьезный отпечаток на программирование, каждый из способов представления программ работает и будет работать в программистской деятельности.

Тексты на ЕЯ после ввода в память ВМ подвергаются переводу на внутреннее представление, которое должно максимально сохранять смысл исходного текста (как главное требование к любому преобразованию текстов или цепочек символов). Проблема перевода с одного ЕЯ (исходный язык) на другой (объектный язык) состоит в построении текста на объектном языке таким образом, чтобы смысл исходного текста сохранился максимально. Едва ли можно утверждать «сохранился полностью», об этом необходим отдельный разговор. С точки зрения требования сохранения смысла все рассматриваемые процедуры должны их выполнять. По-видимому, алгоритм понимания текстов пригоден для программ перевода с одного ЕЯ на другой. При переходе к внутреннему представлению текстов возникает реальная и разрешимая проблема построения универсальной грамматики и универсального языка, который именуется Лейбниц. Универсальная грамматика не пригодна для всеобщего использования человеком, она выполняет специальные функции построения Интеллсист или программ перевода (она доступна только программистам для построения таких программ).

На основе алгоритмов понимания ЕЯ представляется возможным построение новой грамматики русского языка, которая по составу возможных или допустимых ею текстов не отличается от классической грамматики, но которую понимает и человек, и ВМ. Классическая грамматика русского языка [Шанский81, Современный81] нами именуется синтаксической грамматикой или СиГ, поскольку она дает правила построения слов, словосочетаний и предложений, новая грамматика – семантической грамматикой или СеГ, поскольку она дает правила «вычисления смысла» всего текста. Именно СеГ русского языка является предметом нашего рассмотрения. Язык, порождаемый СеГ, называется ЯПП. Профессиональность ЯПП определяется составом лексикона. Язык поэзии можно и надо изучать с точки зрения передачи знания, но он очень уж активно использует принцип умолчания и небрежно (хотя и красиво) варьирует термины и синонимы.

Научить ВМ пониманию ЕЯ - это главная цель построения СеГ. Другая цель состоит в обучении пользователя общению с ВМ, которому сообщены знания в данных предметных и проблемных областях. Указанные цели являются взаимодополняющими и не противоречат ни современной грамматике русского языка, ни запросам обладателя ВМ, не знающего средств написания программ.

СиГ содержит набор грамматических категорий (или понятий самой грамматики) и набор правил построения слов и фраз (главным образом из слов и знаков препинания). Исходными лексемами, как начальными кирпичиками текстов, являются слова. По традиции в словах ищется смысл. Все толковые словари составлены по принципу «слово - смысл слова». Эта традиция и является камнем преткновения для нашего рассмотрения. Толковые словари обобщают каждое слово по многим областям их применения, но не по всем (!). Иногда слову сопоставляется несколько смыслов в зависимости от контекста, что препятствует пониманию смысла в заданном и составленном тексте. Кроме этого, наш критический взгляд направлен на ограниченные возможности СиГ, которые отсутствуют в практических текстах. Например, имеются лексемы, которые не рассматривает СиГ ЕЯ. Построение СеГ связано с расширением возможностей грамматики ЕЯ. Заметим, что запись фраз по правилам СеГ должна удовлетворять правилам СиГ, но не наоборот.

Имеющиеся попытки поиска смысла текстов с помощью СиГ, как это, например, реализует Хомский на основе графов зависимостей слов, будут обречены. Только СеГ обеспечит передачу знаний ВМ и, в конечном счете, человеку. Это следует из того факта, что правила СеГ позволяют определить смысл текста. Так или иначе, лекции Хомского позволили четче обрисовать границы СеГ и перспективу ее развития. Действительно, проблема сопоставления язык-знание является сложной, поэтому необходимо сделать крутой поворот от привычных правил понимания текстов к необычным правилам, но только на первый взгляд.

Информатика проникла во все отрасли знания [Красилов90д]. Но она доступна пока только программистам, а с их помощью (с помощью готовых программ) другим пользователям ВМ, для которых подготовлена программа. Программы стоят дорого. Необходимо обеспечить каждого пользователя средствами самому решать свои задачи с помощью ВМ без написания программ (реализация идеи бесплатной программы). Для этого необходимо построить инструментарий Интеллсист с учетом языка данной группы пользователей, на основе их знания, которые должны быть переданы для Интеллсист на (естественном для нее) ЯПП. Фразы языка должны передавать полностью смысл всего знания и соответствовать СеГ.

Рассмотрим последовательно следующие вопросы, частные ответы на которые можно найти в ссылках на литературу:

1. Что явилось основанием для создания СеГ и что такое знание с точки зрения поиска смысла, а также, какова связь этого понятия с формализацией [Красилов90в, 90е, 00а, т.4]. Понятие знание известно всем интуитивно, но при описании СеГ необходимо придерживаться некоторого формализма в определении знания для обеспечения точной передачи его для Интеллсист. Известные по литературе основания и формализм ориентированы на СиГ, что приводит авторов к неразрешимым проблемам при получении результатов сопоставления ЕЯ и ФЯ, при анализе ЕЯ и при реализации Интеллсист, базирующихся на ЕЯ в представлениях знаний.

2. Что такое язык и грамматика при формализации СеГ? Важный вопрос связан с сохранением непротиворечивости двух грамматик СиГ и СеГ, они должны быть полностью согласованы. Смысл любого текста должен определяться независимо от использования той или иной грамматики, если выполнены условия или правила СеГ.

3. Грамматику любого языка характеризуют фундаментальные исходные понятия или грамматические категории. От того, какие понятия или категории определяют СеГ, определяется ее назначение. Какие же это категории?

4. Как представлять знания с помощью СеГ и какова критика недостаточности СиГ? Главное средство для достижения указанных целей появляется после сопоставления слова (и других элементов текста) и знания. СеГ предназначена для указания правил такого сопоставления. Определение элементов текста является скорее техническим делом. А вот определение знания требует некоторого усилия для преодоления классического понимания этого термина. При этом надо учитывать, что определение знания обычно строилось для человека, умеющего интуитивно осмысливать каждое понятие. Теперь определение знания надо построить так, чтобы возникло понимание определения для ВМ. Заметим, что после формирования «нового» определения знания, станет ясным, что оно годится и для человека, иначе он не приобретет возможность общения с ВМ.

5. Центральными вопросами являются: каков механизм познания и что такое экология знания? Эти вопросы обычно исследуются слабо в надежде на интуитивные представления о них у человека. Если полагают, что любой текст имеет значение (или смысл) истины, то важно найти противоречия в БЗ или в предлагаемом тексте.

6. Как использовать знания в Интеллсист для решения практически важных вопросов, задач или проблем [Красилов91б, 91в, 94а] и как построить процесс логического вывода решения? Какова роль СеГ в этом процессе?

7. Последний вопрос является итоговым, он связан с языковой системой и универсальной грамматикой, которая должна явиться буфером между двумя различными ЕЯ. Кратко и описательно рассмотрим язык Лейбниц, который скрыт от пользователя и является внутренним языком Интеллсист. Как использовать систему ЕЯ и ФЯ для формирования нового знания?

Следует заметить, что не на голом месте строится СеГ. Она понималась человеком интуитивно. Развитие СеГ шло от методов программирования, от развития средств общения с любой ВМ. С появлением первой ВМ были осмыслены понятия адреса и содержимого ячейки памяти. Понятие адреса постепенно развилось в понятие идентификатора, затем в понятие имени и, наконец, достигло своего апогея - появилось в информатике понятие термина. Понятие содержимого ячейки памяти развивалось чисто технически. Постепенно рассматривалось содержимое одного двоичного разряда, байта - 8 двоичных разряда, слова - 16 или 32 двоичных разряда, набора слов, последовательности наборов слов и т.д. Смысл содержимого выявлялся только при выводе на печать или экран последовательностей преобразованных нулей и единиц, только тогда человек мог увидеть внешнее представление содержимого. Аналогично этому рассуждают об адресе и содержимом «ячеек памяти» человека. Адресом в письме и речи является термин. Только внешнее представление (через речь, письмо, действия) можно понять содержимое «ячеек памяти» человека.

Трудно рассчитывать на полное описание СеГ в объеме одной главы. Полное описание СеГ занимает 400-500 страниц текста. Рассмотрим только ее основы, формальное изложение и сформулируем основные посылки, тезисы и канву грамматики для реализации Интеллсист, для стимулирования критики лингвистов и для поиска путей развития исходных оснований. Некоторые практические пояснения излагаемого формализма языка можно найти в томе 4. Чтение изложения СеГ или фрагментов грамматики языка Лейбниц не требует специального знания, как и чтение грамматики ЕЯ. При знакомстве с главой может показаться, что СеГ учит программированию, так для описания грамматики используется формализм. Здесь снимаются всякие подозрения на этот счет, поскольку Интеллсист воспринимает задания, представленные в СеГ, которые не являются конкретными программами, но рассуждениями. С другой стороны СеГ учит логическому программированию так, как этому учат везде, включая лекции или доклады. Желающие программисты могут использовать покомандное описание алгоритмов в СеГ для построения программ на своем профессиональном языке. Процедурные языки - языки приказов - обеспечивают пошаговое описание алгоритмов, как это делается при описании алгоритмов, но при этом не используются ФЯ.

Кроме изложения основ СеГ необходимо иметь в виду проблемы использования грамматики. В силу «привычек», которые сложились в информатике, необходимы незначительные уступки ФЯ, что образует своего рода проблему СеГ. Чрезвычайно важна проблема связи СеГ и СиГ для «увеличения» понимания смысла текстов и для корректной печати результатов работы Интеллсист. Конечно, технически решаются проблемы размеров контекста, полного словаря и быстродействия ВМ. Особняком стоят проблемы неоднозначности понятий, умолчания части текста, ударений в словах, избыточности слов и текстов, а иногда понятий. Эти вопросы будут рассмотрены в разделе 4.7.



Скачать документ

Похожие документы:

  1. Информатика в семи томах том 3 концептуальная информатика

    Документ
    Информатика как наука имеет свой лексикон, который еще не устоялся и находится в развитии. В томе продолжается раскрытие понятие смысла текстов, используемых в информатике, через изучение смысла понятия.
  2. Информатика в семи томах том 6 методы информатики

    Документ
    Каждая наука является коллекцией своих методов. Информатика также включает в состав своих инструментов методы изобретания, проектирования, разработки и сопровождения любого объекта с помощью средств вычислительной техники, способствующие
  3. А а красилов информатика в семи томах том 4 представление знаний

    Документ
    Излагается неформальное описание представления знаний различных видов на языке профессиональной прозы. Описание дано в полном соответствии с формальным изложением языка в томе 2.
  4. А а красилов информатика в семи томах том 1 основы информатики

    Книга
    Книга дает начальные сведения о новом определении информатики. Они необходимы для получения представлений о возможностях СВТ и человека, использующего или желающего использовать свой компьютер для принятия интеллектуальных решений
  5. А а красилов информатика в семи томах том 1 основы информатики

    Книга
    Книга дает начальные сведения о новом определении информатики. Они необходимы для получения представлений о возможностях СВТ и человека, использующего или желающего использовать свой компьютер для принятия интеллектуальных решений
  6. Том 7 интеллектуальные системы (системы решения проблем) москва 1997 -2003

    Документ
    Последний том посвящается проблемам интеллектуализации в деятельности человека на основе информатики. Инструментом повышения уровня интеллектуальной деятельности является Интеллсист.

Другие похожие документы..