— Что сейчас наиболее интересного делается в теоретической лингвистике?
— Все зависит от того, как понимать теоретическую лингвистику. Если, например, фундаментальные исследования русского вида или лексической многозначности числить по ведомству теоретической лингвистики, то назвать хотя бы одну десятую интересных работ, посвященных только этим двум темам (на самом деле таких тем гораздо больше), в коротком ответе невозможно. Если же к теоретической лингвистике относить формальные системы типа грамматики Монтегю, то тут я должен признаться, что за этой областью не слежу, а то немногое, что я случайным образом знаю, кажется мне неприменимым в реальной работе с материалами естественных языков.
В связи с обсуждаемым вопросом следует упомянуть еще одно обстоятельство, которое привело к усовершенствованию методологии поиска научной истины и тем самым ускорило темпы развития теоретической лингвистики. В последние десятилетия прошлого века стала меняться эмпирическая база лингвистики. Появились большие электронные корпусы текстов, снабженные программами поиска нужной лингвисту информации, в частности Национальный корпус русского языка. Они на порядок сократили время сбора эмпирического материала с одной стороны и стали удобным полигоном для проверки фактической обоснованности теоретических гипотез с другой.
— Еще вопрос — о связи теоретической лингвистики и автоматического перевода, вообще задач автоматической обработки текста. На начальном этапе казалось, что машинный перевод вырастет непосредственно из семантического представления. Но сейчас мы видим, что автоматическая обработка текста строится прежде всего на статистической обработке больших массивов текстов. Так что же, практические приложения теоретической семантики оказались более ограниченными, чем виделось вначале? Или у них есть перспектива? Каково в этой связи место системы «ЭТАП»?
— Цитирую преамбулу вашего вопроса: «На начальном этапе казалось, что машинный перевод вырастет непосредственно из семантического представления». Честно говоря, я не знаю, кому так казалось. Семантическое представление не может быть исходным пунктом машинного перевода по двум причинам. Во-первых, неясно, откуда оно возьмется. Во-вторых, до сих пор не существует формального семантического языка, на котором можно полностью отразить смысл произвольного предложения на естественном языке.
Тем не менее и в отсутствие семантического представления задача машинного перевода сводится к тому, чтобы каждому предложению языка-источника поставить в соответствие такое грамматически правильное предложение другого языка, в котором с достаточной полнотой сохраняется смысл исходного предложения. Когда мы начинали свою работу в этой области, мы исходили из того, что указанную задачу можно решить только на основе серьезной лингвистической теории. В качестве такой теории мы выбрали модель «Смысл⬌Текст» И. А. Мельчука.
Наш главный результат в области машинного перевода — система «ЭТАП» и, более конкретно, подсистемы перевода научно-технических текстов с английского языка на русский и с русского на английский. Их основные лингвистические компоненты — полные формальные грамматики (морфология и синтаксис) английского и русского языков, формальные словари обоих языков объемом более 100 000 слов каждый и модули перехода от предложения входного языка к предложению выходного языка.
В обеих подсистемах переход от исходного текста к его переводу происходит не на уровне семантического представления, а на уровне синтаксической структуры (дерева зависимостей) переводимого предложения. Полученное в результате синтаксического анализа дерево зависимостей входного предложения через ряд промежуточных шагов (снятие особенностей входного языка, собственно перевод, порождение особенностей выходного языка) преобразуется в дерево зависимостей выходного предложения; последнее с помощью ряда операций, «обратных» операциям синтаксического анализа, превращается в реальное предложение выходного языка.
Пример машинного перевода с английского языка на русский: In the early sixties, chromatography became an analytical tool (now the most highly used instrumental technique in the chemical laboratory) ⮕В начале шестидесятых годов хроматография стала аналитическим инструментом (в настоящее время наиболее широко использованный инструментальный метод в химической лаборатории). Пример машинного перевода с русского языка на английский: Несколько лет назад стали коммерчески доступны первые микропроцессорные схемы, что привело к созданию многочисленных вариантов машины ответа ⮕Several years ago became commercially accessible the first microprocessor chips, which has led to creation of numerous versions of a machine of answer.
Я намеренно привел примеры перевода, содержащие явные ошибки, зачем — станет ясно чуть ниже. Когда появились статистические системы машинного перевода (упоминаемые и в вашем вопросе), оказалось, что они функционируют ничуть не хуже, чем наша «умная» система, а иногда дают и более правильные со всех точек зрения переводы.
В любом случае вне конкуренции остается перевод текстов профессиональными переводчиками. Здесь я хотел бы вернуться к сделанному выше утверждению: мы никогда не узнаем с достаточной степенью детальности, как работает мозг/сознание человека. Если бы это знание было нам доступно, мы бы смогли сконструировать машинного переводчика, способного конкурировать с человеком.
Сказанное ни в коем случае не значит, что наши усилия были напрасны. Во-первых, полученные результаты ценны сами по себе, в частности, потому, что могут указывать на ошибки в самой модели языка, положенной в основу системы машинного перевода.
Во-вторых, что гораздо важнее, в процессе разработки системы «ЭТАП» мы выработали новый тип лингвистического описания, который, как мне кажется, представляет общетеоретический интерес, — так называемое интегральное описание языка. Поясню, что это такое. Полное лингвистическое описание всякого конкретного языка состоит из двух основных компонентов — грамматики и словаря. В идеале эти два компонента должны быть полностью согласованы друг с другом по типам помещаемой в них информации и по формальным языкам ее записи — в противном случае они не смогут взаимодействовать друг с другом. Традиционные лингвистические описания этому естественному требованию не удовлетворяют. Например, в грамматиках (в том числе в уже упоминавшейся академической «Грамматике русского языка» 1960 года) при описании сравнительной степени прилагательных не отмечается, что она имеет разные значения от разных семантических классов прилагательных. В частности, сравнительная степень от прилагательных размера «пробегает» всю шкалу размера: предмет Х может быть больше или меньше предмета Y и в том случае, когда Y очень большой, и в том случае, когда он очень маленький. Между тем сравнительная степень от прилагательных цвета «пробегает» не всю цветовую гамму, то есть позволяет сравнивать не любые цвета, а только оттенки одного и того же цвета: предмет X может быть краснее предмета Y только в том случае, если оба предмета красные.
Более того, даже в пределах одного и того же семантического класса прилагательных сравнительная степень может иметь разные значения. Так обстоит дело с антонимичными оценочными прилагательными типа умный — глупый. Человек X может быть умнее человека Y и в том случае, когда Y тоже умен, и в том случае, когда он глуп. Если же мы говорим, что X глупее Y, обычно имеется в виду, что Y тоже глуп. В свою очередь, в словаре даются чересчур общие грамматические пометы, не учитывающие грамматических особенностей слова в разных случаях его употребления даже в рамках одного и того же значения. Тому же прилагательному красный в его главном значении ‘цвета крови’ словари приписывают краткие формы красен, красна и красно, но не сообщают точно, в каких случаях они возможны, а в каких — нет. Например, во фрагменте словарной статьи Большого академического словаря русского языка (8-й том), посвященной главному значению этого прилагательного, фигурируют в качестве примеров словосочетания красная икра, красная медь, красное золото, красное вино, красный гриб и т. п. Ни в одном из этих словосочетаний сравнительная степень невозможна, потому что в них красный является, в сущности, относительным прилагательным. Однако в словаре это никак не оговаривается.
Интегральное описание языка я считаю сверхзадачей синхронической лингвистики. Мы в своей лингвистической работе, и, в частности, в рамках системы «ЭТАП», стремимся в максимальной степени следовать принципам интегрального описания, хотя, естественно, тоже не застрахованы от ошибок.