Охотники за словами

Интернет превратил компьютерных лингвистов почти в волшебников

Узнать о вас даже то, о чем вы давно забыли, и перевести эту информацию на любой язык мира, найти вам семиногого осьминога о двух головах, а заодно написать сказку или футбольный репортаж — эти люди могут и не такое. Над чем сейчас трудятся компьютерные лингвисты, рассказал «Деталям мира» заведующий кафедрой компьютерной лингвистики РГГУ и ФизТеха, директор по лингвистическим исследованиям компании ABBYY Владимир Селегей

ИНТЕРВЬЮ:

Когда люди слышат слова «компьютерная лингвистика», они сразу начинают представлять себе общение с компьютером. И тут же возникают вопросы об искусственном интеллекте. Однако Вы говорите, что искусственным интеллектом не занимаетесь. Как так?

В.С.: Искусственный интеллект (далее ИИ — ДМ) — уж очень обширная область. Компьютерная лингвистика поуже — у нее свои методы, свой предмет изучения, хотя есть очень сильные области пересечения с ИИ. Я, безусловно, занимаюсь компьютерной лингвистикой.

К искусственному интеллекту в ABBYY я бы отнес, прежде всего, методы распознавания, методы машинного обучения. Но фактически те методы, которые были созданы для распознавания, так или иначе перенесены у нас и в компьютерную лингвистику. Но я все-таки больше связан именно с компьютерной лингвистикой, с тем, что может быть выражено, скажем так, не математическими формулами и системами уравнений, а формальными описаниями лингвистических структур.

Тогда поясните, почему Вы говорите, что компьютерная лингвистика — наука математическая, а не гуманитарная.

В.С.: Лингвистика и сама по себе, по крайней мере, очень существенная ее часть, стремится к точному «негуманитарному» описанию языковых фактов. Так, в рамках лингвистики были разработаны некие модели, формализмы, которые затем были перенесены, например, в математическую лингвистику. То есть в науку, раздел математики, которая занимается не естественными языками, а формальными. Например, знаменитая классификация языков, которую предложил Хомский в свое время, лежит в основаниях теории компиляции языков программирования.

Если уже занимаетесь, то совсем не рано. Это же как раз и есть перевод текстов.

Не только. Например, у вас есть картина. Когда вы должны описать, что на ней находится, вы превращаете ее, фактически, в линейный текст, разбивая то, что вы видите, на последовательность отдельных предложений. Существуют стратегии такого разбиения, это отдельная и очень сложная задача. И наоборот, если у вас есть текст, вы можете решать обратную задачу: построить изображение, соответствующее этому тексту, восстановить пространственные отношения между описанными в тексте объектами. Например, у вас написано: «На столе стоит чашка. Рядом с чашкой — кружка. Слева сидит симпатичная девушка, а напротив – молодой человек в очках очень интеллигентного вида». Когда мы слышим или читаем, что на столе стоит чашка, мы понимаем, что здесь есть пространственные отношения между столом и чашкой, что чашка сверху, стол — снизу, а не наоборот. Но это только одна маленькая деталь. Подумайте сами над другими деталями, скрытыми в этом простейшем тексте. И мы должны всю совокупность деталей превратить в картину мира и показать ее. Это означает, что уже должна быть система, в которой зафиксированы не просто языковые отношения, а уже понятно, что такое стол, что на столе есть разные объекты, как они располагаются, как относительно стола и друг друга сидят люди. И основная проблема здесь в том, что если семантика языка — это нечто универсальное, то те картинки, которые мы, допустим, должны построить по этим текстам, требуют описания соответствующих фрагментов мира.

То есть, чтобы восстановить все детали уникальной картинки из текста, нужно их туда сначала заложить.

В.С.: Да. Кстати, в свое время в аспирантуре я занимался генерацией текстов. Мы тогда занимались представлением знаний, и было интересно, как из знаний можно порождать текст. Например, мой научный руководитель Евгения Тихоновна Семенова занималась со студентами совершенно чудесными вещами — генерацией волшебных сказок. Это было страшно популярно на факультете в то время. И была написана куча популярных статей. Поспелов, Гаазе-Рапопорт и Семенова втроем написали книжку о принципах генерации сказок, основываясь на идеях структурного фольклора. У них было достаточно хорошее формальное описание структуры волшебной сказки, взятое у Проппа. И, соответственно, можно было уже решать такую задачу: у вас есть база знаний, в которой есть герои, есть модель сказки — давайте попробуем сделать реальный текст.

А эту систему нельзя подстроить под что-нибудь менее сказочное?

В.С.: Тут надо понимать, что структура отношений в этом мире везде разная. Волшебная сказка — одна структура отношений, футбольный матч — другая. Я на недавней конференции европейской видел систему, которая генерирует тексты спортивных репортажей. Например, футбольный матч. Где здесь задача компьютерной лингвистики и искусственного интеллекта? С одной стороны, вы должны распознать то, что происходит на экране. Очень сложная задача, которая относится, безусловно, к искусственному интеллекту. То есть, нужно на общем фоне распознать ворота, разметку поля, движение игроков, и каждого игрока идентифицировать. Серьезная задача, но вполне постижимая. Есть ведь и более сложные.

Из суммы распознанного на картинке получается динамическая картина происходящего. Она нелинейная, потому что все объекты одновременно движутся. А дальше начинается то, что делает каждый репортер — он должен преобразовать видимое в текст. Он должен понять, как ему выбрать направление рассказа. Вот бежит игрок. Почему нужно говорить про того, а не этого? Потому что у него мяч. Возможно, и так. А, может быть, кто-то стремительно движется на возможную передачу, и именно он должен оказаться в фокусе внимания? Такой этап планирования структуры текста очень сложен, и для каждой области он свой. А уже потом в результате этого планирования появляется линейная цепочка еще не языковых структур, но уже зачатков того, что потом становится предложениями текста. Из этого уже можно делать текст. И задача компьютерной лингвистики начинается с того, что есть уже эти элементарные события, которые и нужно превратить в текст.

Или можно решить обратную задачу: у вас есть готовый репортаж — а теперь попробуйте нарисовать то, что там происходило.

Все равно тогда нужна система объектов.

В.С.: Да, тогда вы должны сначала разделить текст на предложения, на какие-то единицы, которые можете анализировать семантически, и из этого текста вы должны получить элементарные события. А потом уже возникнет задача восстановить по этим элементарным событиям исходное пространство.

Где-то здесь проходит граница между наукой, которая занимается знаниями о мире, и наукой, которая занимается знаниями о языке — компьютерной лингвистикой. В каждой такой задаче есть такая граница. Ее можно смещать глубже. Например, можно строить семантику, сильно ориентированную на футбол. И тогда у вас эта граница сдвинется. В языковом анализе будет происходить чуть больше работы, чем обычно.

Сильно ориентировать на футбол семантический анализатор, может, и не стоит. Но анализатор должен правильно разбирать фразы типа «Иванов передал мяч Петрову». Ему должно быть понятно, что «передал» — это не руками передал, что если произносится английское ball, то это тот ball, который имеется в виду, и что Иванов и Петров — это люди, которые выполняют определенные роли в этом действии. То есть, семантический анализ состоит в том, чтобы точно установить, описанию какой сущности соответствует это действие, и какую роль в сценарии, который за этим словом стоит, играют те или иные участники.

Если вы не прошли через все стадии анализа (морфология, синтаксис, семантика) и не получили вот это meaning (значение), вы ничего не можете. Когда вы получили meaning, начинается счастье. Потому что людей, готовых работать с meaning, много. Готовых заниматься логическими выводами, аккумуляцией данных. Есть ведь почтенная область логического вывода в том самом искусственном интеллекте, которая имеет большую историю. Проблема только в том, что люди изъясняются текстами, а не семантическими структурами, которые можно легко заложить в базу данных. Поэтому огромная, колоссальная нерешенная задача — собственно, задача компьютерной лингвистики — как от текстов с их произволом, с их сложностью объяснений перейти вот к этой цепочке понятных логических предикатов (элементарных действий), с которыми потом можно работать как угодно.

И на каком уровне находится этот переход?

В.С.: На настоящий момент нет ни одной промышленной системы, которая может строить универсальную семантическую структуру. Но мы пытаемся это сделать. Наша задача состоит в том, чтобы научиться от языка, от произвола разных конкретных языков перейти к этим искусственным структурам.

То есть, качественно перевести просто с китайского на русский сейчас ничего нельзя?

В.С.: Ну, Google может перевести статистическим способом с китайского на русский, но этот перевод очень корявый. Я недавно приводил в лекции свежий пример того, как работает статистический перевод. Возьмем фразу «He told me he had already had a letter from Mary which he would have enjoyed answering, but he had to ignore it». Вот перевод Google: «Он сказал мне, что он уже получил письмо от Марии, который он наслаждался бы ответить, но он должен был игнорировать ее». А так переводит ту же фразу система ABBYY Compreno, использующая семантику: «Он сказал мне, что у него есть письмо от Мэри, которым он наслаждался бы, отвечая, а ему пришлось игнорировать его». Перевод не совершенный, но у него есть огромное преимущество: система понимает, каким «героям» какие местоимения соответствуют, и именно поэтому справляется с выбором рода.

Наша задача — не просто заменить русские слова на иностранные, а взять русский текст и получить его семантическое представление. Из этого семантического представления мы сегодня умеем синтезировать английское, немножко французское, немецкое и занимаемся китайским. Так что мы умеем работать и с китайским. Правда, этот проект еще не в том состоянии, чтобы говорить, что мы «семи пядей во лбу». Мы, может, четверть пути только прошли. Но переводить с китайского мы через некоторое время, безусловно, сможем. Так же, как сейчас переводим на английский. Но перевод — это задача следующего уровня. Нужно получить нечто универсальное, из чего уже можно синтезировать китайский текст. Или английский. Или эсперанто. А можно…

…базу данных о человеке.

В.С.: Да. Но для формирования базы данных вы должны решать много проблем, которые для перевода можно не решать. Иногда лучше и для перевода их решить, чтобы улучшить его качество. Потому что иногда перевод может зависеть от знания, кто такой этот Ассанж, который недавно критиковал Обаму. Очень часто выбор глагола в переводе зависит от этого знания. То есть, от того, что в тексте не содержится. И вот здесь — непреодолимая граница, если нет знаний о мире.

Идеальным было бы переводить так, как это делает человек. Конечно, фразу «Титаник» утонул» можно, в принципе, перевести и так, не зная, что «Титаник» — это имя утонувшего корабля, когда это случилось, и сколько там человек погибло. А где-то в системе знаний о мире эти факты есть. И иногда они могут быть важны для перевода. Например, в каких-то языках для корабля и, допустим, человека по имени «Титаник» нужны разные глаголы.

Мы постепенно поднимаемся по стороне треугольника перевода. Сначала мы научились делать морфологии, потом — синтаксические структуры. Следующий этап — попытка разработать и получить семантическую структуру. И теперь уже — прагматика, знания о мире, онтологии. Это будет очень интересно, это может быть уже подходом к созданию машинного перевода очень высокого уровня, похожего на то, как человек переводит. То есть, когда вы знаете, что фраза «семью хлебами не прокормишь» связана с Библией, то понимаете, что «семью» — это числительное. Потому что, если быть честным, то в анализе русского предложения мы получим две возможные семантических структуры. В одном случае family, в другом случае seven. Как между ними выбрать? Мы сейчас делаем примерно следующим образом. Если у нас в тексте уже фигурировала семья, то и выбираем такую трактовку. Но это просто выводимая из контекста вероятность. А точный перевод должен основываться на том, что это вариант библейской фразы. То есть, на базе знаний о мире.

И тогда переводчики станут не нужны?

В.С.: Переводчикам не о чем беспокоиться, потому что машинный перевод решает ту проблему, которую люди все равно не могут решить. Сейчас объем переводов в мире таков, что сделать его вручную нельзя. Нельзя всех людей сделать переводчиками. Число переводимых текстов растет намного быстрее, чем число переводчиков. И в такой ситуации у вас просто нет другого выхода, кроме как использовать машинный перевод. И это понимают сейчас все. И Европейское сообщество, и крупные заказчики — все они понимают, что машинный перевод, каким бы он ни был слабым, с какими бы он ни был проблемами, безальтернативен. Отдельное переводческое агентство может мыслить категориями перевода только своих заказов. А Европейское сообщество должно мыслить категориями «как ему справиться с таким объемом документов». И поэтому структуры, отвечающие за перевод в ЕС, стали активными поставщиками задач для машинного перевода. Они участвуют во всех конференциях по машинному переводу, активно пытаются воздействовать на процесс производства систем так, чтобы они удовлетворяли их нужды…

То же самое было и в 60-е годы ХХ века. Темы машинного перевода возникали по заказу спецслужб: ЦРУ, ФБР, наших разведструктур… Представьте себе огромный объем русскоязычных текстов, который невозможно перелопатить. У вас просто нет такого количества специалистов по русскому языку, чтобы их читать. Поэтому как бы вы плохо ни переводили, все равно это было полезно. Этот огромный поток информации пропускался через очень плохие системы машинного перевода, и, тем не менее, их выход обладал тем замечательным свойством, что его можно было прочитать человеку, знающему только английский язык, и решить, что вот здесь, конечно, непонятно, но это интересно.

И тогда уже отдать переводчику?

В.С.: Да, и тогда отдать переводчику. Так что тут есть экономические ниши для машинного перевода, которые даже при переводе не очень высокого качества делают его не просто эффективным, но даже незаменимым. И этот процесс, расхождение в количестве требующих перевода текстов с возможностями профессиональных переводчиков, идет все дальше и дальше. И это означает, что фронт работы для систем машинного перевода постоянно растет.

Но, судя по вашим словам, профессия переводчика не умрет и когда машинный перевод достигнет «человеческих» высот.

Умрут… плохие переводчики. Есть такой замечательный человек, Павел Русланович Палажченко, это переводчик Горбачева. Если посмотреть старые встречи Горбачева с Рейганом, всегда увидите рядом Палажченко. Он не просто выдающийся переводчик, может быть один из пяти лучших переводчиков-синхронистов, которые у нас были за всю историю, он еще и замечательный лексикограф – человек, которому очень интересно размышлять, с какими словарными знаниями связана профессия переводчика. Мы с ним вместе делали проект словарный: он у нас на сайте вел специальный форум, посвященный сложным, изысканным проблемам перевода, на основании этого обсуждения в форуме был сделан специальный словарь. Так вот, Палажченко высказал мысль о том, что профессия переводчика не умрет никогда, просто с каждым годом будет все более и более востребован высококачественный профессиональный перевод.

Так что хорошим профессиональным переводчикам ничего не угрожает. А вот переводчикам слабым… На самом деле, системы машинного перевода заменяют таких уже сейчас. Особенно в предметных областях, специальных. Неквалифицированные переводчики часто берутся за перевод текстов, которые они не понимают. И здесь они лишаются того преимущества, которое есть у человека перед системами машинного перевода. Потому что понимание часто дает возможность принять решение, даже если вы не очень точно поняли исходный текст. Можно пропустить какие-то детали, даже не понять структуру, но, тем не менее, успешно понять, о чем идет речь. Когда вы выстраиваете в голове картинку, она помогает вам домысливать даже то, чего в исходном тексте, может быть, и не было, и получать гладкий текст. А если вы не знаете предметной области… Вот дай вам сейчас английский текст по хирургии, например, или по теории музыки, и попроси перевести его на русский язык — у вас возникнет куча проблем, не просто со значением слов, которое можно посмотреть и в словаре, но просто с пониманием того, о чем речь. И может оказаться, что система машинного перевода, знакомая терминологически с соответствующей областью, будет переводить лучше, чем дилетант-переводчик с хорошим знанием английского языка, но ничего не понимающий в этой предметной области. И уж тем более, если он и язык плохо знает, тогда полная чепуха получается.

Нам, к сожалению, часто приходится иметь дело с результатами такого плохого перевода. Колоссальный объем чепухи создают такие переводчики. Количество переведенных текстов растет быстро, а количество хороших переводчиков не увеличивается. Поэтому процент хорошо переведенного с каждым годом уменьшается. Растет процент чепухи, текстов, переведенных с ошибками, с глупостями даже. И, конечно, за эту растущую область машинный перевод конкурирует очень сильно. Он может улучшить эту ситуацию. По крайней мере, тут есть средства контроля, которые у дилетантов отсутствуют. Можно, например, взять три системы машинного перевода, перевести текст, сравнить переводы между собой, то, что в них похоже, оставить, а сильно различающееся отдать на проверку переводчику. Уже получается быстрее и дешевле. Поэтому рынок машинного перевода всегда будет.

Вы сейчас говорили про разные схемы перевода. Это чисто статистическая, чисто лингвистическая и смешанная. А чисто статистическая модель при увеличении числа плохих переводов не станет хуже?

В.С.: Это колоссальная проблема для систем статистического машинного перевода. В том-то и беда, что системы статистического перевода учатся на параллельных текстах. И чтобы перевод был хорошим, статистическим системам нужно бы учиться на хороших переводах. Вот, скажем, откуда Google берет тексты? Из себя же, то есть из Интернета. То есть, Google обладает большим конкурентным преимуществом перед другими статистическими системами просто потому, что он сидит на этом богатстве. В принципе, конечно, это никому не заказано – сиди себе и собирай в интернете. Но он уже собрал, у него есть технология, он умеет это мониторить, знает, где что лежит… Поэтому ему проще всего набирать в базе параллельные тексты. Он их и набирает. Но нужно систему совершенствовать: во-первых, хочется, чтобы она все лучше и лучше переводила, а во-вторых, язык-то меняется. Появляются новые слова, новые выражения… И нужно увеличивать эту базу. И тут плохой переводчик оказывается вредным игроком на этом поле, потому что он порождает неправильный перевод, который попадает в базу. И чем больше у вас процент плохих переводов, тем хуже статистической системе.

На самом деле, здесь даже диверсия возможна. Я надеюсь, что никто этим не занимается, но…

…но получается, что диверсии даже не нужны, потому что количество плохих текстов постоянно растет.

В.С.: Конечно. Допустим, кто-то захочет сломать Google и вбросит куда-то в Интернет гигабайт плохого перевода в надежде, что Google их «подцепит» и научится плохому переводу. Правда, Google может попытаться как-то отфильтровать плохой текст.

Но такая проблема существует не только для систем статистического перевода. Для нас она тоже неприятна, ведь наши системы тоже учатся, хоть в них и есть языковая модель. Дело в том, что не всегда свободный перевод — правильный. Иногда нужно переводить совершенно определенным способом. И как именно лучше переводить порой очень трудно определить, не привлекая статистику. Мы постоянно занимаемся автоматическим мониторингом переводов, пытаясь понять, какие есть устойчивые переводные соответствия. И из-за роста некачественного перевода эти соответствия не обязательно соответствуют правильному переводу.

Например, есть такая печальная история. В Lingvo в разное время входили словари разного качества. Часть словарей мы делаем сами или заказываем их у крупных производителей словарной продукции, но иногда приходилось в отсутствие качественных словарей лицензировать словари и не очень высокого качества, просто чтобы заполнить какие-то важные ниши. А ведь словарями пользуются миллионы. И вот, представьте себе, каким-нибудь неудачным или даже смешным переводом редкого слова начинают пользоваться неквалифицированные переводчики. В словаре такая ерунда встретилась один раз. Но бывает, что ее начинают воспроизводить все новые и новые переводчики. Объем цитирования ошибки увеличивается, и хороший перевод в интернете может быть «похоронен» в массе чепухи.

Еще бОльшая проблема у открытых ресурсов, например, у «Мультитрана». Туда вообще любой может что угодно запихнуть. И любой может это прочитать. А так как количество квалифицированных людей меньше числа неквалифицированных на порядки, то… Поэтому вброс ерунды, особенно в массовые ресурсы, очень опасен. Он приводит к тому, что ерунда начинает тиражироваться.

Есть разные подходы к таким проблемам, например, есть так называемый wiki-подход, который гласит: люди сами разберутся. Мы в лексикографии все-таки сторонники редакторского подхода. Но сторонники первого подхода получают некоторое конкурентное преимущество просто за счет того, что у них очень больший объем словаря и не надо платить редакторам и корректорам. Сравните, например, Британскую энциклопедию и «Википедию». Первая редактируется, и в ней вся информация выверена, но зато у второй — колоссальнейший объем. И надо в данном случае понимать, как относиться к той или иной информации. Вот вы, например, человек разумный и понимаете, где можно доверять информации, а где нет. А множество людей относятся к поступающей к ним информации некритично, и конечно это большая беда.

Это немного похоже на то, как автоматическая проверка орфографии привела к падению качества текстов. Проверка стиля — к еще одному снижению планки. Просто потому, что люди перестали за собой перечитывать… И машинным переводом можно некритично пользоваться, и это может привести к падению языковых навыков. Если люди получат хорошие системы машинного перевода, у них может пропасть стимул к изучению языков. А «Википедия» может привести к тому, что люди начнут некритично относиться к информации. Ведь раньше добыча знаний, это был процесс, в ходе которого вы должны были привлекать логику, сопоставлять источники. А теперь, когда информация вам дана в готовом виде…

Ну, может, это и не так плохо. Ведь раньше людям для того, чтобы выжить, надо было зерно выращивать и одежду самим из травы и шкур делать… Всем.

В.С.: Ну да. Тут надо понимать, что новые компьютерные технологии меняют саму структуру общества. Но это мы уже ушли в сторону…

Но как же можно разрабатывать новую технологию, не думая о последствиях ее применения?

В.С.: Должны думать, да. И разработчики, и заказчики, такие как Европейское сообщество, которое финансирует такие разработки.

Кстати, о заказчиках. Меня не оставляет в покое одна мысль: а у вас прежние заказчики остались?

В.С.: Какие заказчики?

В смысле, вы до сих пор — шпионы?

В.С.: А, в смысле, есть ли среди наших заказчиков спецслужбы?

Но ведь системы же машинного перевода стали лучше. И они теперь собирают информацию о людях качественнее. Нет смысла ими не пользоваться.

В.С.: Конечно, пользуются. Посмотрите по проектам, какие языки сейчас самые популярные в мире. Арабский и китайский. Понятно, почему — это языки, которые интересуют силовые структуры. В США, например, очень много проектов по разметке корпусов, где арабский и китайский очень важны. Потому что все хотят понимать, о чем там арабы и китайцы пишут. А широкий мониторинг арабоязычной и китайскоязычной прессы обязательно требует машинного перевода. И арабский, и китайский языки, безусловно, в центре внимания спецслужб, и они являются очень серьезными заказчиками. Но не только. Финансовые структуры, например, коммерческие… Все они заинтересованы в том, чтобы был и машинный перевод, и аналитика какая-то. Правда, про аналитические задачи сложнее рассказывать, потому что они все сильно ориентированы на конкретного заказчика. Например, есть какая-то служба, которая отслеживает угоны автомобилей, и их интересует все, что связано с угонами автомобилей, и ничего больше. Их не интересует погода, например, или гороскопы… Поэтому для них можно построить систему, которая настроена ровно на поиск текстов по угонам.

То есть, как раз создать эту самую локальную «картину мира» — систему ограничений и правил анализа.

В.С.: Да. Потому что решить универсальную задачу — построить по тексту картину мира — никто сейчас не способен, и еще в ближайшие лет 20-30 не будет способен. Но в ней можно найти отдельные фрагменты, которые поддаются логическому описанию, и из этих фрагментов легко построить интерфейс с семантикой языка в конкретной предметной области. И мы такими задачами занимаемся.

Вы, фактически, ответили на вопрос об универсальной задаче расшифровки слитной речи на произвольную тему.

В.С.: Очень трудная задача. В языке вообще действует множество умолчаний. Часто их можно восстановить по каким-то законам языка, хотя и не всегда. Могу привести пример: часто бывает, что когда вы переводите с одного языка на другой, надо перевести термин «устройство, делающее то-то и то-то». Но вы не будете все время писать в тексте полностью «устройство, делающее то-то и то-то». Вы напишете «это устройство». Или просто «устройство», или «оно». Использовать способ, который для читающего абсолютно понятен — местоимения, синонимы… Читатель понимает, что речь идет именно об этом устройстве.

Теперь представьте, что у вас есть система информационного поиска, которая должна собрать факты об этом устройстве. Когда оно названо «устройство, делающее то-то и то-то», это одна история. А вот когда оно названо другим способом… В тексте таких скрытых объектов полно. Это серьезная проблема.

В слитной речи все гораздо хуже, потому что там катастрофически велик процесс потерь. Я иногда с ужасом слушаю сам себя, когда говорю быстро, потому что пропускаю звуки. То же слово «статистический», например, в моем исполнении может звучать вроде «стассичский». Вы должны знать это слово, чтобы его распознать. А еще есть шум вокруг, другие разговоры. Процент потери информации в сигнале может быть колоссальным. Поэтому там невозможно без лингвистических технологий. И там даже в большей степени, чем при машинном переводе, нужно бы привлекать факты, знания о мире, контекст. Когда вы выбираете между значениями слова, это одно. Но когда вы должны догадаться, какое это было слово – это уже совершенно другое. По законам языка вы можете построить, может, пятьдесят гипотез о том, какое слово было на самом деле произнесено. И только понимание смысла текста помогает его восстановить. Так что, я думаю, что слитную речь, особенно в естественных условиях, можно будет распознавать качественно еще очень нескоро.

Тем более, что даже при абсолютной дикции и полных предложениях в рамках одного языка все равно существуют различия. И таким различиями Вы тоже занимаетесь. Вы — один из авторов «Словаря русских городов».

В.С.: О, этот проект не случайный. Научные истоки этого словаря заложили исследования замечательного лингвиста Владимира Ивановича Беликова. Его интересы связаны с социолингвистикой. Я бы сказал, что в России нет другого специалиста, который настолько глубоко понимал бы проблемы лингвистического описания живого языка. К сожалению, лингвисты часто склонны к теоретизированию, к построению формальных башен из слоновой кости, а живая стихия языка по-настоящему интересует немногих.

Собственно, Беликов обратил в свое время мое внимание на то, что жители разных городов говорят по-разному. Мы говорили тогда о Москве и Петербурге. Собственно многие знали о существовании десятка-другого примеров, которые часто фигурируют при сравнении столиц: поребрик, кура, парадная-подъезд, скамейка, шаверма-шаурма и так далее. Это стало почти анекдотом. Ну что такое 15-20 слов? Несерьезно.

А у Владимира Ивановича было ясное понимание, что дело обстоит гораздо более серьезно. Что есть важные региональные отличия. Но никто этого не доказал, нигде это не было зафиксировано. И мы в ABBYY увлеклись этой идеей и запустили проект «Языки русских городов» на форумах сайта Lingvo. Задача была следующей: разобраться, действительно ли есть существенные отличия в речи людей из разных регионов. Все знают про сельские диалекты, что бабушки в деревнях говорят как-то по-особому. Но мы не этим занимаемся, мы занимаемся речью современных образованных людей, которые пишут в интернете, публикуются в средствах массовой информации. И в течение трех-четырех лет работы проекта выяснилось, что существуют серьезнейшие региональные отличия, причем, не в сферах каких-то маргинальных, как, например, наркоманы между собой разговаривают, а в речи обычных людей: врачей, преподавателей, репортеров… Есть целые группы таких понятий, абсолютно по-разному называемых в разных регионах. Мы обнаружили уже более пяти тысяч региональных слов. Этот проект оказался очень полезным и интересным, получился замечательный словарь.

А примерно можно определить, сколько существует в России языковых зон?

В.С.: У нас есть рубрикатор, в котором около сотни рубрик, мы им пользуемся. Есть лексика, которая хорошо «кластеризуется». Но есть и такая, которая причудливо распределена по карте. Есть миграция населения, из-за которой возникают удивительные вещи. Например, одно и то же слово – отсветить (в смысле «скопировать на ксероксе») или отсветка (ксерокопия) встречается только в Литве и на Дальнем Востоке. И все. Почему так получается? Или совпадение, или кто-то завез из Литвы в Благовещенск, или наоборот. Так что просто так по регионам словоупотребления не делятся, получается намного более интересная карта.

У этого словаря есть практическое применение? Или это фундаментальное исследование?

В.С.: Есть. Например, из этого проекта фактически вырос следующий, которым сейчас занимаются совместно РГГУ, ABBYY и ФизТех — проект создания генерального интернет-корпуса русского языка (ГИКРЯ). Потому что для проведения исследований подобных нашему региональному, нам не хватает языкового материала. Просто поиск в интернете проводить нельзя, так как системы поиска все данные усредняют, и ничего не видно. Поэтому мы сейчас делаем систему, которая собирает тексты в интернете, подвергает их лингвистическому анализу, создает из этих текстов корпус с особой системой поиска и позволяет уже на основании этого корпуса делать скрупулезные исследования. В том числе можно будет сделать существенный шаг вперед в изучении региональной лексики, потому что у нас будет новый инструмент.

Почему такие пропорции?

В.С.: Потому что нам весь интернет не нужен. В нем есть много вещей повторяющихся и просто неинтересных для языкового анализа. Например, рекламы каких-нибудь технических устройств… Огромное количество такой информации в интернете есть, и она тоже интересна, но в небольшом количестве. Нас гораздо больше интересуют блоги, средства массовой информации…

Проект очень амбициозный, мы к нему относимся очень трепетно. Кроме того, он позволил нам дать студентам ФизТеха и РГГУ конкретный совместный проект в качестве учебного. Этот проект — хороший пример того, как компьютерная лингвистика и лингвистика соединяются в едином процессе.

Это не просто соединение лингвистов и инженеров-физиков. Фактически, ABBYY создала себе на базе двух вузов курсы по подготовке своих специалистов.

В.С.: Наша компания — наверное, крупнейший в России работодатель для лингвистов. Но не тех, у кого в дипломе написано «лингвист», а тех, кто занимается исследованием языка, как универсальной системы. У нас таких людей выпускают только в двух городах — Москве и в Санкт-Петербурге. И существенную часть этого выпуска мы себе забирали. Сначала мы активно на процесс учебы не воздействовали, но потом… Понимаете, абитуриенты часто приходят в лингвистическое учебное заведение совсем с другой целью. Какая-нибудь милая девушка, которая хочет разговаривать свободно на иностранном языке, приходит за этим в лингвистический вуз. И если она при этом разумная, она пробивается через достаточно сложный экзамен. Но все равно ее интересует не система языка, не язык как объект, а язык как инструмент для решения других задач: перевод, преподавание, бизнес и т.п.

Лингвисты — люди, которых интересует язык как объект. Таких людей мало. А тут еще появляется компьютерная лингвистика какая-то. И здесь нужны не просто лингвисты, а лингвисты, склонные к созданию инженерных устройств. Найти таких лингвистов среди выпускников вузов очень трудно. И вузы это стали понимать, и мы стали понимать, что нужно активно воздействовать на процесс. Поэтому наш приход в РГГУ и МФТИ — это попытка сделать так, чтобы появились специалисты нужной нам компетенции. Потому что ситуация с компьютерной лингвистикой в России очень сложная. Вот только один пример: недавно проходила крупнейшая конференция европейских компьютерных лингвистов (EACL). Двести докладов, а докладчиков, указавших в качестве своей страны Россию — один (и я при этом знаю, что у докладчика научный руководитель — испанец).

В России есть компании, которые разрабатывают лингвистические технологии: Яндекс этим занимается, мы, Mail.Ru и другие вполне достойные проекты. Но это все коммерческие компании, не их задача заниматься наукой. Наукой должны заниматься университеты. А университеты выпускают просто лингвистов, которые к нам приходят и только у нас начинают заниматься компьютерной лингвистикой. Это неправильный процесс, его нужно сместить обратно в вуз. И тогда будут появляться российские научные работы в этой области, молодежь поедет на конференции — будет нормальный процесс, которого сейчас нет.

Вот вчера, когда я читал лекцию про компьютерную лингвистику в Политехническом музее, я был просто потрясен, как много пришло слушателей. И сам музей тоже был удивлен — не ожидали такого. Кажется, мы перекрыли рекорд посещаемости для лекций по лингвистике, который был установлен на выступлении Максима Кронгауза, директора Института Лингвистики РГГУ — человека очень популярного. Когда мы с Максимом планировали этот цикл лекций и обсуждали, сколько человек может прийти, то решили, что области занятий новая, и если придут сто человек, то это будет очень здорово. А вчера было под триста человек, очереди в кассу, да еще и транслировали куда-то… Это означает, что тема компьютерного анализа языка стала снова интересной. В советские годы, например, о ней писали регулярно «Химия и жизнь», «Знание – сила» — там были журналисты, интересовавшиеся естественным языком. Потом произошел слом в девяностых, люди ушли из журналистики, а новое поколение интересуется немножко другими вещами. И я все удивлялся – неужели не интересная тема. А тут вдруг выяснилось, что интерес-то колоссальный, просто люди не догадывались об этом.

Ну, многие люди не знают, что лингвистика — наука математическая. Это не общеизвестно.

В.С.: В 60-е годы тем, кто читал советскую научную фантастику, это было известно точно. Стругацкие — тогда это было очень популярно.

Да, структуральнейший лингвист. Правда, хочу сказать, что четыре раза читал этот рассказ, но так и не понял, как он это делал. То есть, понятно, что язык расшифровывал, но не понял как.

Так часто бывает. Так, например, сейчас происходит с нанотехнологиями. Все знают, что это такая мощная штука, но как это работает — не представляют. Вообще, так часто случается, что какое-то слово становится… грантоемким. В нашей области таким словом в какой-то момент стала семиотика. Или синергия, например. Или инновации, как сейчас. Полезные слова, которые помогают менять мир.

К вопросу об изменениях. Я так понимаю, что работа по составлению словарей ещё далеко не закончена?

В.С.: В каком смысле?

В том, что языки постоянно меняются, слова постоянно добавляются, и словари нужно менять.

В.С.: Лингвистическая работа никогда не может быть закончена, потому что язык меняется каждый день. Правда, профессиональная лексикография в сложном положении сейчас находится, потому что появляются доступные интернет-ресурсы. Словарные проекты очень дорогие. Вот представьте себе: человек сидел, работал, выверял, потратил время на одну качественную статью. А дальше вступает в силу арифметика: время, потраченное на тысячу статей, в тысячу раз больше, чем потраченное на одну. А если словарь на сто тысяч слов? Поэтому когда появляется дешевая альтернатива, пускай даже среднего качества, делать профессиональные словари становится очень сложно. Поэтому мы стараемся максимально внедрять новые технологии. Ведь результат работы лексикографов порой получается не только дорогой, но еще и некачественный в силу ограниченного доступа к адекватной информации. И наши проекты типа LingvoPro — это проекты, в которых мы пытаемся внедрить методы компьютерной лингвистики в методики создания словарей. Но нельзя обойтись без участия обычных людей при составлении словарей, потому что они и генерируют этот самый словарный контент естественным образом. Когда переводчикам не хватает словарей в процессе работы, они обмениваются мнениями, что бы это слово могло означать. Они ходят на форумы, что-то спрашивают, им что-то отвечают — и возникает большой объем информации, который полезен, даже если на него набросить просто систему поиска. А чтобы сделать из этого словарную статью, нужно применять некоторые технологии.

Вот, собственно, этим мы и занимаемся — в проекте LingvoPro пытаемся получать качественные словари на этом новом, расширенном материале. Это очень интересная задача. Но когда мы с этим справимся, можно ли сказать, что работа лингвистов закончится? Нет, будут другие задачи. Например, соединение словаря с технологией семантического анализа, чтобы при переводе определенного текста вы получали из словаря не всю информацию, а только релевантную. Очень сложно прорываться через большой объем информации в словаре, особенно человеку не очень искушенному. И чем словарь лучше, тем в нем больше информации, и тем сложнее его читать.

Мы давно об этом думаем, и сейчас наши технологи уже таковы, что можно уже попытаться соединить два наших направления — лексикографического и семантического анализа. Я думаю, что здесь какие-то результаты появятся.

А как методами машинного анализа, пусть даже полностью лингвистического, перевести непереводимую игру слов? Как ее вообще можно перевести?

В.С.: Это очень трудная проблема. Упомянутый ранее Павел Русланович Палажченко был вдохновителем другого нашего словарного проекта. Дело в том, что он как переводчик много занимался именно как Вы сказали — «непереводимой игрой слов». Ну, не то, чтобы непереводимой, а непереводимой напрямую. Мы используем специальный термин «паремия» для некоторых таких непереводимых фраз. Паремия — это скрытая цитата. В отличие от явной цитаты, которую люди публикуют, собирают, которыми люди блещут в разговоре, скрытые цитаты вошли в фонд языка, в наш лексикон. Представьте себе лексикон как конструктор, из которого мы строим высказывания. В нем есть слово баранка, слово чашка, слово купить, а есть, например, фраза «бандитская пуля». Понимаете? «Что с вами? А, бандитская пуля…». Это уже для знающих. Это такая скрытая цитата. А теперь представьте себе, что вы переводите эту фразу на английский язык. Ведь так и переведут, напрямую.

Чтобы справиться с этой проблемой, мы задумали двуязычный англо-русский проект — сбор вот таких паремий. Ведь для того, чтобы правильно перевести их, их надо идентифицировать и соотнести друг с другом. У Палажченко был хороший пример: английское “the usual suspects”, вошедший в наши словари. Это, например, говорил Рейган, входя в зал для заседаний и видя там уже знакомых людей. Как это перевести? Самый близкий перевод, наверное — «знакомые все лица». Потому что паремию хорошо переводить паремией.

Фраза пришла из фильма «Касабланка» и стала скрытой цитатой в английском лексиконе. Такие объекты есть в каждом языке, и это колоссальная проблема для переводчика. Словари почти никогда не отображают паремии. Вот, собственно, поэтому мы задумали сделать такой словарь. Он по намерению похож на словарь русских городов, чтобы его собрать, надо обратиться к людям, переводящим тексты. То есть, такой вики-подход. Потому что из текстов автоматически извлекать их довольно трудно.

Без такого знания при переводе возникает колоссальное количество чепухи. Например, какой-нибудь роман начинается с фразы «Все смешалось в доме Ивановых». Каждый русский понимает, что это скрытая цитата. Но представьте себе, что перевод делает тот, кто Толстого не читал. В истории перевода очень много таких случаев, когда смысл теряется. И это сложная проблема как для ручного, так и для машинного перевода. Поэтому она нас интересует и как компьютерных лингвистов, и как лексикографов.

Тем более, что мы не можем пока даже оценить масштаб проблемы. Помните, про региональную лексику думали, что ее 15 слов, а их оказалось 5000, и это только лежащих на поверхности. А сколько на самом деле?.. Также и с паремиями. Думаю, там сотни тысяч единиц. Литература, фильмы… Это очень важно для понимания смысла текста, потому что ведь здесь непрямой смысл. Это моя любимая тема, и проект очень интересный, только вот времени на него не хватает. Все-таки его (коммерческая — ДМ) важность не такая, как, например, описание бизнес-терминологии.

А если его отдать студентам?

Вот как раз об этом и думаем. Для этого студенты и нужны — реализовывать проекты с сильной научной составляющей.

А какие еще нужны специалисты, кроме лингвистов и инженеров, чтобы составить грамотный словарь?

В.С.: У нас обычно работа строится так: есть специалисты-лингвисты, которые занимаются, например, медицинской лексикой. Они сами не медики, но работают с медиками. Мы ищем специалистов-предметников, которые знают при этом языки, склонны к языковому анализу. Вот, скажем, в региональном проекте мы столкнулись со следующей проблемой: выяснилось, что имеются колоссальные региональные различия в названии биологических объектов. Травы, цветы, деревья, животные… И чтобы разобраться, нужен был, конечно, биолог. По крайней мере, он может навести порядок. Например, есть камыш и есть рогоз. И как выглядел тот камыш, который в «Шумел камыш, деревья гнулись…», зависит от того, где вы родились. А уж как называют всякие растения говорящие по-русски, живущие в других странах — вообще темный лес. Так что тут еще разбираться и разбираться.

rbanews