Включение лингвистических представлений в разряд матема тических методов нельзя считать общепризнанным. Символичес-^ ки отображение системы в терминах математической лингвисти ки (Т - тезаурус, G - грамматика) показано на рис. 1. Некоторые исследователи (например, Ю.А. Шрейдер [18]) считают, что лингвисти ка в силу специфических особенностей, по зволяющих моделировать развивающиеся системы и процессы (что обеспечивается от сутствием закона исключенного третьего), не Ф[5 ]' \ / является математикой в сложившемся пони- \ / мании этого термина. В то же время фран- TG' цузская школа математиков [15] считает математическую лингвистику разделом со- временной математики. МЛ возникла во второй половине XX в. как средство форма лизованного изучения естественных языков и вначале развива лась как алгебраическая лингвистика. Первые полезные результа ты алгебраической лингвистики связаны со структуралистским (дескриптивным) подходом. Однако в силу отсутствия в тот пе риод концепции развития языка эти работы привели к еще боль шему тупику в попытках построения универсальной граммати ки, и был период, когда структурализм считался неперспективным направлением развития науки о языке и даже был гоним. Активное возрождение МЛ началось в 50-60-е гг. и связано в значительной степени с потребностями прикладных технических дисциплин, усложнившимся задачам которых перестали удовлет ворять методы классической математики, а в ряде случаев - и фор мальной математической логики. В период уменьшения интереса к МЛ появилось статистичес кое направление, которое называют статистической лингвисти кой, или лингвистической статистикой [6, 12, 13 и др.]. Для системных приложений интересно сочетание МЛ и семи отики, которая возникла как наука о знаках, знаковых системах. Однако некоторые школы, развивающие семиотические представ ления, настолько равноправно пользуются в семиотике понятия ми МЛ, такими, как тезаурус, грамматика, семантика и т.п. (характеризуемыми далее), не выделяя при этом в отдельное направление лингвосемиотику (как это делает, например, Ю.С. Степанов [14]), что часто трудно определить, к какой обла сти относится модель - к МЛ или семиотике. 351 в то же время именно в лингвосемиотике достигнуты наибо лее конструктивные результаты, которые могут быть полезны при исследовании систем различной физической природы. Основными понятиями, на которых базируются лингвисти ческие представления, являются тезаурус (см.), грамлштика, се мантика, прагматика. Термин тезаурус (от греч. 9г|5аг)ро^ - сокровищница, богат ство, клад, запас и т.п.) в общем случае характеризует «совокуп ность научных знаний о явлениях и законах внешнего мира и ду ховной деятельности людей, накопленную всем человеческим обществом» [10]. Этот термин был введен в современную литературу по язы кознанию и информатике в 1956 г. Кембриджской группой по изучению языков. В то же время данный термин существовал рань ше: в эпоху Возрождения тезаурусами называли энциклопедии. С обзором определений тезауруса можно познакомиться в [11]. В МЛ и семиотике термин тезаурус используется в более уз ком смысле, для характеристики конкретного языка, его много уровневой структуры. Для этих целей удобно пользоваться од ним из принятых в лингвистике определений тезауруса как «множества смысловыражающих элементов языка с заданными смысловыми отношениями» [18]. Это определение позволяет представить структуру языка в виде уровней, или страт (см.) множеств слов, словосочетаний, предложений, абзацев и т.п., смысловыражающие элементы (СВЭ) каждого из которых формируются из смысловыражающих эле ментов предшествующих структурных уровней. Правила формирования СВЭ второго и третьего уровней в тезаурус не входят, в тезаурусе определяются только вид и наи менование уровня, характер и вид СВЭ. Иногда вместо термина смысловырао/сающие элементы исполь зуется термин синтаксические единицы тезауруса. Представляет ся, что это менее удачный термин, так как при формировании элементов нового множества смысловыражающих элементов каж дого последующего уровня (при образовании слов из букв, фраз и предложений - из слов) у элементов вновь образованного мно жества появляется новый смысл, т.е. как бы проявляется законо мерность целостности (см.), и это хорошо отражает термин «смысловыражающий элемент». В таком толковании понятие тезауруса можно конструктив но использовать при создании искусственных языков - языков 352 моделирования, автоматизации проектирования, информацион но-поисковых языков. Оно позволяет охарактеризовать язык с позиции уровней обобщения, ввести правила их использования при индексировании информации. Можно говорить о глубине тезауруса того или иного языка, характеризуемой числом уровней, о видах уровней обобщения, и, пользуясь этими понятиями, сравнивать языки, выбирать более подходящий для рассматриваемой задачи или, охарактеризовав структуру языка, организовать процесс его разработки. Под грамматикой (которую иногда называют синтактикой, синтаксисом, что сужает понятие грамматики, исключая из него морфологию) понимаются правила, с помощью которых форми руются смысловыражающие элементы языка. Пользуясь этими правилами, можно «порождать» (формировать) грамматически (синтаксически) правильные конструкции или распознавать PIX грамматическую правильность. Термин грамматика употребляется в лингвистике и как уко роченная замена термина «формальная грамматика», который имеет иной смысл и будет охарактеризован далее. Под семантикой понимаются содержание, значение, смысл формируемых или распознаваемых конструкций языка, под праг матикой - полезность для данной цели, задачи. В естественном языке различить понятия, с помощью кото рых характеризуются термины семантика и прагматика, трудно; обычно пояснить различие можно лишь при парном сопоставле нии терминов: <семантика> : : = <содержание> | <смысл> | <значение>; <прагматика> : : = <смысл> | <значение> | <полезность>. Поэтому принято рассматривать эти понятия на примерах. Поясним различие между семантически и прагматически правиль ными конструкциями языка на следующих легко запоминающихся примерах. Традиционно для пояснения синтаксической правильности и семан тической бессмыслицы используется предложенный Л.В. Щербой при мер: «Глокая куздра тшето борздапула бокра и курдычет бокрёнка» (в котором нет ни одного слова естественного языка, имеющего смысл). Но примеры можно найти и в естественной речи. 353 Предложение «Муха лукаво ваглеспула зубами» синтаксически пра вильное, но не имеет смысла в естественном русском языке в обиход ном, широком употреблении, т.е. является с точки зрения пользовате лей русским языком семантически неправильным (исключим пока гипотетическую ситуацию сказки, в которой «муха» может быть наде лена указанными свойствами). Другое предложение «Маленькая девочка собирает цветы на лугу» - синтаксически и семантически правильное. Однако для директора заво да (если это луг, а не заводской газон, и - учтем личный фактор - если эта девочка не его дочь) это предложение не несет никакой информа ции, т.е. прагматически (с точки зрения задач и функций руководителя) является неправильным. Другое дело, если «Иванов (который в данный момент дол:жен находиться на рабочем месте) собирает цветы на лугу». Тогда это предложение было бы и прагматически правильным. Возвратимся теперь к примеру с мухой. Приведенное предложение, семантически неправильное, может в гипотетической ситуации сказки оказаться прагматически правильным, что важно иметь в виду в случае применения лингвистических представлений. При создании и использовании искусственных языков исполь зуют такие понятия структурной лингвистики, как порождающая и распознающая грамматики. Под пороэ/сдающей грамматикой понимается совокупность правил, с помощью которых обеспечивается возможность фор мирования (порождения) из первичных элементов (словаря) синтаксически правильных конструкций; под распознающей грам матикой - правила, с помощью которых обеспечивается возмож ность распознавания синтаксической правильности предложений, фраз или других фрагментов языка. Все рассмотренные понятия в равной мере используются как в МЛ, так и в лингвистической семиотике. Некоторую условную границу между ними можно провести, лишь введя понятие клас сов формальных грамматик (как теорий математической лингви стики). На базе лингвистических представлений развивается теория формальных грамматик Н. Хомского [16, 17 и др.]. Классы фор мальных грамматик Хомского считаются основой теории фор мальных языков. Формальный язык определяют как множество (конечное или бесконечное) предложений (или «цепочек»), каждое из которых имеет конечную длину и построено с помощью нейоторых опе раций (правил) из конечного множества элементов (символов), составляющих алфавит языка. 354 Формальную грамматику определяют в виде четверки мно жеств: где Vj V. G^<Vj, Vf^, R, A >, (1) множество основных, или терминальных, символов; дг - множество вспомогателы1ых, или нетерминальных, символов; R - множество правил вывода, или продукций, которые могут иметь вид: а->р, (2) где Р G ( F u Кд,), т.е. Р - цепочка конечной длины из терминальных и нетер минальных символов множеств Vj. и F^, a G ( K ^ u K ^ ) K ^ ( | / ^ u K ^ ) , (3) т.е. а является цепочкой из терминальных и нетерминальных сим волов, содержащей по крайней мере один нетерминальный сим вол из V^; А - множество аксиом (в грамматиках комбинаторно го типа, к которым относятся грамматики Хомского, А состоит из одного начального символа S, причем S G Ид,). Учитывая, что в литературе по формальным грамматикам, как правило, не стремятся к содержательной интерпретации получа емых выводов, а рассматривают лишь формальную сторону про цессов порождения и распознавания принадлежности цепочек соответствующему классу грамматик, приведем содержательный пример порождающей грамматики. Предположим, дано: Кд, = <5, Р> Пороэгсдающая грамматика Распознающая грамматика R S S R S Р —> —> -> -^ -^ SP{\) exS{2) eiSO) /7(4) л (5) SP в\8 eiS п л -> —> -^ -^ -^ S{V) S{T) 5(3'). 5(4') F(5') (4) 355 Применяя правила R левой части (4) в приведенной последо вательности, получим: S=^SP=> e^SP =^ e^e^SP => в^в2пР=^ в^в2пл. (1) (2) (3) " (4) (5) Это формальная сторона процесса порождения. Чтобы полу чить интерпретируемое выражение, нужно расшифровать терми нальные символы, включенные в V^, где в^ - «все», в^ - «возрас ты», п - «покорны», л - «любви». Тогда полученное предложение «в^ в^ п л» - «все возрасты по корны любви». Если изменять последовательность применения правил, то будут получаться другие предложения. Например, если приме нить правила в последовательности (1)=> (3) =» (2) ==> (4) => (5), то получится «возрасты все покорны любви». Если применить не все правила: например, (1) => (2) => (4) => (5), то получим «все покор ны любви». Если же попытаться получить предложение, как у А.С. Пуш кина {«Любви все возрасты покорны»), то, как бы мы ни меняли последовательность правил, получить эту фразу не удается. Нужно изменить первое правило: вместо S —> SP включить в R правило S-^ PS. Из примера видно, что вид порождаемых цепочек (предложе ний) зависит от вида правил {исчисления) и от последовательности их применения {алгоритма). С помощью приведенного примера легко также продемонст рировать тесную связь понятия «грамматически правильно» с язы- ком {грамматикой). Распознающая грамматика для рассматриваемого примера будет содержать как бы «перевернутые» правила - правая часть (4), которые должны применяться в обратной последовательнос ти. Пример анализа правильности предложения с помощью пра вил распознающей грамматики приведен на рис. 2. Если при распознавании правильности предложения не ого варивать, что предложение (цепочка) грамматически правильно с точки зрения правил данного формального языка, то можно, пользуясь формальной грамматикой в первоначальном виде, по лучить вывод, что приведенная фраза Пушкина грамматически неправильна с точки зрения правил грамматики (4). 356 Рис.2 Действительно, с точки зрения правил грамматики для пост роения делового текста, которым соответствуют правила (4), дру гие поэтические строки часто получали бы формальную оценку «грамматически неправильно». И, напротив, если бы мы постро или грамматику на основе анализа пушкинского стиля, то в де ловом тексте получили бы предложения типа «Ярешение свое при нял правильное» (подобно фразе «Я памятник себе воздвиг нерукотворный»). Изложенное позволяет легко представить полезность опреде ления формальной грамматики при создании языка моделирова ния соответствующего литературного или музыкального произ ведения - пародий, подражательств или, как иногда принято говорить, произведений соответствующего стиля или класса. На пример, известны работы Р.Х. Зарипова [8] по моделированию написания музыкальных произведений в стиле, или в классе, мас совых советских песен, работы по моделированию процесса со чинения стихотворных произведений и т.п. Подобным же образом можно моделировать порождение де ловых писем или других документов, имеющих, как правило, не только формализованный стиль, но и формальную структуру. Аналогично можно создавать языки моделирования структур, языки автоматизации проектирования сложных устройств и сис тем определенного вида (класса). Основу подобных работ составляют идеи, которые можно пояснить с помощью классов грамматик, впервые предложенных Хомским [16, 17]. 357 Разделение грамматик на классы определяется видом правил вывода R. В зависимости от правил R можно выделить четыре основных, наиболее часто рассматриваемых класса грамматик (в полной теории формальных грамматик с правилами типа под становки есть и промежуточные классы). 1-й класс. На правила вывода накладывается только одно требова ние, чтобы в левой части этого правила было всегда меньше символов, чем в правой, т.е. чтобы правила были неукорачивающими, не умень шали число символов в выводимых цепочках. Данный класс грамматик обычно так и называют неукорачивающими (ЯУ-грамматиками). Иног да их также называют грамматиками типа нуль (пулевого типа) или ал- горипти ческилш. 2-й класс. На правила вывода, помимо требований неукорачиваемо- сти, накладывается ограничение, чтобы на каждом шаге изменялся толь ко одип символ в контексте, т.е. чтобы Z1 В Z2-^ Z\ WZ1, где В - один нетерминальный символ, W- непустая цепочка символов, т.е. W^0; Z\ и Z2 - контекст. Грамматику такого вида называют коптекстпой, кон текстно-связанной или иногда применяют термин - грамматика непос редственных составляющих (ЯС-грамматики). Данный термин иногда используется в расширенном смысле для названия всех комбинаторных грамматик, поскольку последующие классы являются подклассами НС- грамматик. 3-й класс. Если, кроме неукорачиваемости, требуется, чтобы прави ла имели вид i5 —> Р, т.е. а в (2) всегда состояло бы из одного вспомога тельного символа, то грамматику такого типа называют бесконтекст ной или контекстно-свободной (/ГС-грамматика). 4-й класс. Если на правила вывода накладывается по сравнению с 3-м классом еще одно ограничение, требующее, чтобы в правилах выво да нетерминальный символ всегда стоял справа или слева, т.е. с одной стороны, то грамматику называют автоматной (.4-грамматикой). Если нетерминальный символ стоит слева, т.е. правила имеют вид А —^ аВ или А —> а, где (А, В)е F^, а е Vj, автоматная грамматика является пра- волинейной; если нетерминальный символ стоит справа, то автоматную грамматику называют леволинейной. В теории формальных грамматик показывается, что имеет место следующее соотношение: AQKCQHC^ НУ. (5) Иногда доказывают, что имеет место строгое вхождение: А с: КС с. НС (z НУ. (5«) 358 При исследовании разных классов формальных грамматик получены результаты, которые позволяют сформулировать сле дующее утверждение: по мере уменьшения числа ограничений, накладываемых на правила вывода, а именно по мере продвиже ния в соотношении (5) слева направо, в языке увеличивается воз можность отображения смысла, повышается смысловыражающая способность языка, т.е. возможность выражения с помощью формальных правил семантических особенностей проблемной ситуации (говорят, что формальная система становится более богатой). Однако при этом в языке растет число алгоритмически неразрешимых проблем - увеличивается число положений, истин ность или ложность которых не может быть доказана в рамках формальной системы языка. Здесь мы сталкиваемся фактически с гёделевской проблемой [19], которая в теории формальных языков обсуждается обычно в тер минах этой теории, а именно: вводится понятие «операция опреде лена (или не определена) на мноэ/сестве языков данного класса» и считается, что операция определена на множестве языков данного класса, если после применения ее к языкам, входящим в это мно жество, получается язык, принадлежащий множеству языков это го класса. Например, если Я^ с КС ^^Я^а КС и если {Я^ и Я^ с КС, то операция объединения и определена на классе А*С-языков. Характеризуя с помощью введенного понятия классы языков, отмечают, что в соотношении (5) по мере продвижения слева на право увеличивается число операций, которые не определены на множестве языков данного класса. Здесь, правда, следует подчеркнуть, что дело обстоит не так прямолинейно. Точнее было бы сказать, что для большого числа операций нет доказательств, что они определены на классах НС- языков и ЯУ-языков, т.е. эти доказательства становятся сложнее или вообще (в силу теоремы Гёделя) нереализуемы средствами теории формальных грамматик. В упрощенном виде проблема представлена с целью обратить внимание тех, кто будет заниматься разработкой языков програм мирования или программных систем, языков моделирования, автоматизации проектирования, на необходимость учитывать закономерность: чем большими смысловыраэ/сающими возмоэ/сно- стями обладает знаковая система, тем в большей мере растет в ней число алгоритмически неразрешимых проблем (т.е. тем менее доказательны в ней формальные процедуры). 359 При выходе в класс произвольных грамматик, в котором не выполняется даже условие неукорачиваемости, доказать допус тимость тех или иных формальных преобразований средствами МЛ практически невозможно, и поэтому в поисках новых средств исследователи обратились к семиотическим представлениям. Здесь можно провести как бы формальную границу между линг вистикой и семиотикой.
Ви переглядаєте статтю (реферат): «МАТЕМАТИЧЕСКАЯ ЛИНГВИСТИКА (МЛ)» з дисципліни «Теорія систем і системний аналіз в управлінні організаціями»