«Память переводчика», или Что такое Translation Memory. Технология translation memory Совместное использование ТМ

Описание

Одна запись в такой базе данных соответствует сегменту или «единице перевода » (англ. translation unit ), за которую обычно принимается одно предложение (реже - часть сложносочинённого предложения либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match ), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match ). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведённые тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведённого текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format ), который основан на XML и может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик, работающий с OmegaT , может использовать ПП, созданную в Trados , и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment ), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Стандарты и форматы памяти переводов

TMX (Translation Memory Exchange Format - Обмен памятью переводов). Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. Последняя версия этого формата - 1.4b позволяет восстанавливать исходные документы и их перевод из файла TMX.
TBX (Termbase Exchange format - Обмен терминологическими базами). Это принятый LISA (Ассоциации индустрии локализации) формат сейчас пересматривается и переиздаётся согласно ISO 30042 . Этот стандарт позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620 , ISO 12200 и ISO 16642 . ISO 12620 обеспечивает реестр четко определённых «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределённые значения. ISO 12200 (известен также как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642 (известен также как Terminological Markup Framework - Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
GMX GILT означает Globalization, Internationalization, Localization, and Translation (Глобализация, интернационализация , локализация , перевод). Стандарт GILT Metrics состоит из трёх частей: GMX-V для показателей объёма, GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объёма работ и требований качества при реализации задач GILT.
OLIF - открытый стандарт, совместимый с XML , который используется для обмена терминологическими и лексическими данными. Хотя изначально он применялся в качестве способа обмена лексическими данными между частными лексиконами машинного перевода, постепенно этот формат превратился в более общий стандарт терминологического обмена.
XLIFF (XML Localisation Interchange File Format - XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознаётся всеми программными средствами локализации. XLIFF - это наилучший в современной индустрии переводов способ обмена информацией в формате XML. Некоторые инструменты используют проприетарные форматы XLIFF, не позволяющие открывать созданные в них файлы в других программах.
TransWS (Translation Web Services - переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развёрнутая система автоматизации процесса локализации с использованием сервисов в сети Интернет .
xml:tm , этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml:tm был передан Lisa OSCAR компанией XML-INTL .

Преимущества и недостатки

Преимущества

Сокращение времени и объёма работы переводчика.
Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
Увеличение прибыли за счёт увеличения производительности труда переводчика, группы переводчиков.
Повышение качества услуг за счёт увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

Недостатки

Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации.
Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом.
Оригинал должен быть в электронном виде.
Одна незамеченная ошибка может распространиться на весь проект.
Необходимо обучение работе в самой программе, а при смене работы - возможно, и не один раз (если работодатели пользуются разными программами ТМ).
Подходит не ко всем видам текстов.
Высокая стоимость лицензионного ПО.

См. также

Литература

Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. - С. 57-62.

Ссылки

Использование профессиональных программ переводческими компаниями России // Константин Дранч, 8 апреля 2015.

(реже - часть сложносочинённого предложения , либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match ), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match ). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведенные тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведенного текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format ), который основан на XML и который может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик работающий с OmegaT может использовать ПП, созданную в ТРАДОСе и наоборот.

Большинство систем ПП как минимум поддерживают создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment ), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Стандарты и форматы памяти переводов

TMX (Translation Memory Exchange Format - Обмен памятью переводов) формат. Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. Последняя версия этого формата - 1.4b позволяет восстанавливать исходные документы и их перевод из файла TMX.
TBX (Termbase Exchange format - Обмен терминологическими базами). Это принятый LISA (Ассоциации индустрии локализации) формат сейчас пересматривается и переиздается согласно ISO 30042. Этот стандарт позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620, ISO 12200 и ISO 16642. ISO 12620 обеспечивает реестр четко определенных «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределенные значения. ISO 12200 (известен также как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642 (известен также как Terminological Markup Framework - Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
GMX GILT означает Globalization, Internationalization, Localization, and Translation (Глобализация, интернационализация , локализация , перевод). Стандарт GILT Metrics состоит из трех частей: GMX-V для показателей объема, GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объема работ и требований качества при реализации задач GILT.
OLIF - открытый стандарт, совместимый с XML , который используется для обмена терминологическими и лексическими данными. Хотя изначально он применялся в качестве способа обмена лексическими данными между частными лексиконами машинного перевода, постепенно этот формат превратился в более общий стандарт терминологического обмена.
XLIFF (XML Localisation Interchange File Format - XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознается всеми программными средствами локализации. XLIFF - это наилучший в современной индустрии переводов способ обмена информацией в формате XML.
TransWS (Translation Web Services - переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развернутая система автоматизации процесса локализации с использованием сервисов в сети Интернет .
xml:tm, этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml:tm был передан Lisa OSCAR компанией XML-INTL.

Преимущества и недостатки

Преимущества

Сокращение времени и объема работы переводчика
Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
Увеличение прибыли за счет увеличения производительности труда переводчика, группы переводчиков
Повышение качества услуг за счет увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

Недостатки

Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации
Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом
Оригинал должен быть в электронном виде
Одна незамеченная ошибка может распространиться на весь проект
Необходимо обучение самой программы, а при смене работы - возможно, и не один раз (если работодатели работают с разными программами ТМ)
Подходит не ко всем видам текстов
Высокая стоимость лицензионного ПО

См. также

Литература

Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. - С. 57-62.

Ссылки

Не делайте один и тот же перевод дважды // Компьютерра Онлайн, 14 февраля 2005 года.

Примечания

Wikimedia Foundation . 2010 .

Смотреть что такое "Память переводов" в других словарях:

Содержание 1 В психологии 2 В компьютерной технике … Википедия

Мозаика с изображе … Википедия

Текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания параллельных текстов называются… … Википедия

Параллельный текст (битекст) текст на одном языке вместе с его переводом на другой язык. «Выравнивание параллельного текста» это идентификация соответствующих друг другу предложений в обеих половинах параллельного текста. Большие собрания… … Википедия

Память переводов (ПП, англ. translation memory, TM иногда называемая «Накопитель переводов») база данных, содержащая набор ранее переведенных текстов. Одна запись в такой базе данных соответствует сегменту или «единице перевода» (англ.… … Википедия

Системы памяти переводов (Translation Memory): концепция и реализации 1. Идеология ТМ-инструментариев 2. Общий принцип ТМ 3. Состав системы ТМ 4. Функции ТМ 5. Обзор основных программ класса Translation Memory: ТРАДОС 3. 0 Deja. Vu SDLX 3. 0 Transit и Term. Star Word. Fisher 4 IBM Translation. Manager 2. 0 6. Преимущества и недостатки ТМ ТМ

Идеология ТМ-инструментариев Макото Нагао, Япония, университет г. Киото. В 1982 г. предложил новую концепцию машинного перевода, которая была основана на утверждении, что тексты должны переводиться по аналогии с текстами, ранее переведенными вручную. М. Нагао назвал свой подход к техническому переводу с английского на русский язык „Example based translation“ (перевод, основанный на примерах). Идея М. Нагао была использована некоторыми Makoto Nagao

Что такое Translation Memory? Translation Memory (ТM) - база данных, где хранятся выполненные переводы. Технология ТМ работает по принципу накопления: в процессе перевода в ТМ сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то этот сегмент отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в ТМ.

Идеология ТМ-инструментов ТМ-инструменты предназначены для сохранения пар предложений в переводческой базе данных. Каждая такая пара состоит из предложения из оригинала и его технического перевода на другом языке. Возможно размещение фрагментов текста и других форматов превышающих длину предложения или являющихся лишь его частью. Но в автоматическом режиме сохраняются именно предложения, поэтому довольно часто такие программы называют «память предложений» (от англ. Sentence Memory).

Принцип действия ТМ-инструментов ТМ-программы интегрируются с такими офисными программами, как, например, Word. Некоторые средства текста. из них имеют собственные редактирования технического Их интерфейсы мало отличаются от привычных для современного переводчика интерфейсов текстовых редакторов.

Память переводов и вспомогательные программы для перевода Классы: MT (Machine Translation) – автоматический или машинный перевод; программы CAT (Computer-assisted/aided translation) автоматизируют и облегчают труд переводчика в различных его аспектах, реализуют концепцию памяти переводов (translation memory), такие, как Trados, Omega. T, Deja. Vu, Word. Fast и т. п.

Принцип работы современных CAT-программ Программа делит исходный текст на сегменты (как правило, это предложения или части предложений), и переводчик вписывает перевод каждого сегмента прямо под исходным текстом или если текст представлен в виде таблицы - справа от него. Перевод сегмента сохраняется вместе с исходным текстом. Записываются также имя переводчика и дата перевода (что важно для командной работы). К сегменту можно вернуться в любой момент, чтобы проверить или изменить перевод. Программа помещает сегмент в память переводов, так что если он снова встретится в исходном тексте, его перевод подставится из ТМ автоматически. Кроме того, CATпрограмма имеет функцию поиска нечетких соответствий: она обнаруживает сегменты, только частично схожие с уже переведенным (например, совпадающие на 75 %), и дает «подсказки» по их переводу.

Cистема автоматизированного перевода Trados (Традос) Trados - система автоматизированного перевода, разработанная немецкой компанией Trados Gmb. H в 1992 году. Один из мировых лидеров в классе систем Translation Memory (TM, накопитель переводов). Система Trados включает несколько модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций Power. Point, текстов в формате HTML и других метаданных, документов Frame. Maker, Inter. Leaf и др. , а также для ведения терминологических баз данных (модуль Multi. Term).

Принцип работы системы Trados Концепция Translation Memory предполагает выявление в переводимом тексте фрагментов, переводы которых уже имеются в базе данных переводов, и за счет этого сокращение объема работы переводчика. Это выявление получило название выравнивания или сопоставления (alignment). Фрагменты, оставшиеся непереведёнными после выравнивания (сопоставления), передаются дальше для ручной обработки переводчику или системе машинного перевода (Machine Translation, MT). Переводчик на этом этапе может выделить вновь переведённые фрагменты и занести новые пары параллельных текстов на двух языках в базу данных. Такая схема наилучшим образом работает на однотипных текстах, где повторяемость словосочетаний достаточно высока.

Основные модули системы Trados * Trados Workbench - основной модуль для перевода документов, интегрируется в оболочку Microsoft Word; * Tag. Editor - модуль для перевода документов в формате HTML, XML и т. п. ; * Win. Align - модуль для создания памяти переводов на основе ранее переведённых двуязычных текстов; * S-Tagger - модуль для перевода документов в формате Frame. Maker и Inter. Leaf; * T-Window - модуль для перевода документов в формате Power. Point; * Multi. Term - модуль для ведения глоссариев; * Extra. Term

Что общего у программ Translation Memory - Сведение – Alignment Обслуживание – Maintenance Терминологический словарь – Terminology Program Текстовый редактор – Document Editor Конкорданс (Связка словоупотребле-ния с контекстом) – Concordance

Преимущества и недостатки программ класса Translation Memory Преимущества - Сокращение времени и объема работы переводчика - Улучшение последовательности перевода, особенно при работе нескольких переводчиков над одним проектом. - Увеличение прибыли за счет увеличения продуктивности труда - Повышение качества услуг за счет увеличения точности перевода терминов, особенно в специализированных текстах. Недостатки - Может делать перевод более „сухим“, утрачивается сама суть текста - Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом - Оригинал должен быть в электронном виде - Одна ошибка распространяется на весь проект - Необходимо обучение самой программе, а при смене работы возможно, и не один раз (если работодатели работают с разными программами ТМ) - Подходит не ко всем видам текстов - Высокая стоимость

Литература: 1. 2. 3. 4. Грабовский В. Н. : Технология Translation Memory. „Мосты“ 2/2004 Кутузов, А. Б. : Компьютерные технологии в формировании профессиональной компетенции переводчика // Языки профессиональной коммуникации: сборник статей Третьей международной научной конференции, т. 2. – Челябинск, 2007 г. URL: http: //tc. utmn. ru/files/kutuzov_it. pdf Шахова Н. Г. : Поезд снова уходит. Домашний компьютер № 5 1. 05. 2000 Силонов А. : Программы, помогающие переводчику. Компьютерная неделя № 16 (238) Москва 16 -22. 05. 2000

В наш век стремительного развития информационных технологий и невиданного до сих пор тесного взаимодействия самых, казалось бы, отдалённых культур потребность в предоставлении быстрых и качественных переводческих услуг становится особенно актуальной. И не удивительно, что сфера письменного перевода , считавшаяся до недавнего времени территорией приложения исключительно человеческого интеллекта, с появлением уже первых компьютеров начала медленно, но заметно видоизменяться. И не могло быть иначе, ведь облегчение труда и постоянный поиск новых решений заложен в самой сути человека.

Как это часто бывает, технический прогресс в сфере коммуникаций не только поставил перед человечеством новые задачи, но и принёс с собой средства для их решения. В сфере письменных переводов одним из таких решений стала технология под названием Translation Memory (ТМ) и использующие её средства автоматизированного перевода (CAT - computer assisted translation) .

Важно заметить, что средства автоматизированного перевода ни в коем случае нельзя путать с машинным переводом. Это два совершенно разных подхода к автоматизации перевода компьютерными средствами, две совершенно разные «философии» переводческого процесса. В случае машинного перевода весь перевод - от начала и до конца - делает машина, компьютер, используя для этого имеющиеся в её распоряжении словари и алгоритмы перевода. Как следствие, результат такой работы далёк от того, что можно назвать «качественным переводом» ровно по той причине, что искусственный интеллект до сих не изобретен человечеством. Во втором же случае речь идёт только об инструментах , облегчающих и ускоряющих традиционный процесс человеческого перевода , который выполняется и контролируется непосредственно переводчиком. Бюро переводов «ЛингваКонтакт» никогда не занималось и не занимается машинным переводом.

Translation Memory (TM) или «память переводов» (ПП) представляет собой базу данных, где хранятся все ранее выполненные переводы с её использованием. Для удобства переводчика программы, использующие технологию Translation Memory, разбивают переводимый текст на так называемые сегменты - фрагменты текста, оригинал и перевод которых и хранится в памяти. За единицу сегментирования (минимальную единицу перевода) такие программы обычно принимают предложение или часть сложноподчинённого предложения, но в зависимости от настроек ею также могут быть слово, фраза либо целый абзац.

Принцип работы большинства средств автоматизированного перевода прост. Во время перевода программа, во-первых, «запоминает» все переводы сегментов, подтверждённые переводчиком, а во-вторых, постоянно сверяет каждый новый непереведённый сегмент с уже имеющимися в памяти переводов и в случае обнаружения идентичного или похожего сегмента «напоминает» его перевод. Таким образом, переводчику остаётся только подтвердить предложенный программой перевод или исправить/дополнить его в соответствии с контекстом.

Кроме собственно создания и работы с памятью переводов, современные программы автоматизированного перевода позволяют:

Создавать и использовать глоссарии и словари пользователей;

Создавать памяти переводов из пар уже ранее переведенных текстов без использования средств автоматизированного перевода;

Проводить анализ текста и делать выборку из его ключевых слов, которые потом можно добавлять в глоссарии;

Осуществлять так называемый «предварительный перевод» (pretranslation) на основе уже имеющихся баз ПП.

Наиболее эффективно применение данной технологии для перевода:

Больших проектов, содержащих много однотипных фрагментов и терминов: разного рода научных и технических текстов, документаций , финансовых и юридических текстов ;

Одного проекта группой из нескольких переводчиков - в этом случае технология ПП (облачная) позволяет добиться единообразия терминологии и стиля;

Новых версий уже ранее переведённых текстов - это значительно сокращает время на поиск и перевод новых фрагментов;

В то же время эта технология оказывается практически бесполезной при переводе художественных , публицистических и рекламных текстов. Другими словами, всего того, что требует творческого подхода и незаурядных решений.

Вот так выглядит интерфейс SDL Trados, интегрированной в MS Word:

Краткий обзор основных средств автоматизированного перевода

Сегодня на рынке представлено несколько десятков программ, поддерживающих работу с технологией Translation Memory. Самыми известными из них являются SDL Trados , Déjà vu , Wordfast , MultiTrans , STAR Transit и Omega-T . Кроме самого очевидного - цены (например, программа Omega-T является полностью бесплатной) - эти программные среды отличаются:

Интерфейсом редактирования текста: некоторые программы интегрируются в MS Word (например, все версии SDL Trados до версии SDL Trados 2007 включительно), другие же имеют свой собственный интерфейс;

Алгоритмами разбиения текста на сегменты (сегменты состоят из предложений, фраз или слов);

Наличием дополнительных функций (например, в программе MemoQ, в отличии от других, существует возможность оценки в процентном отношении однородности текста, т.е. наличия в нём повторяющихся элементов на уровне слов и фраз);

Возможностью интеграции средств машинного перевода;

Количеством поддерживаемых форматов файлов;

Наличием возможности работать с памятью переводов в режиме он-лайн.

Выбор CAT-программы часто зависит больше от личных предпочтений переводчика или требований бюро переводов, с которым он сотрудничает (к примеру, многие западные бюро переводов работают с форматом TTX, а он полноценно поддерживается только средой SDL Trados).

Переводчики бюро переводов «ЛингваКонтакт» знают и владеют на высоком уровне самыми распространенными CAT-инструментами. Кроме того, в нашем арсенале «помощников переводчика» есть не только средства работы с памятью переводов, но также и множество других программ и утилит (инструменты Quality Assurance, создание терминологических баз, межформатная конвертация и пр.), без которых едва ли можно добиться высокого качества и скорости работы. На счету «ЛингваКонтакт» десятки тысяч переведённых страниц с использованием TM-средств!

Вы можете быть уверены, что Ваш текст будет переведён качественно и в срок, в каком бы формате и какой бы сложности он ни был!

В.Н. Грабовский; Журнал практикующего переводчика "МОСТЫ" 2/2004

Статья рассказывает о новом инструменте переводчика – технологии Translation Memory (TM), благодаря которой осуществляется механизация переводческой деятельности.

Нейронные сети в работе переводчика

Теории машинного перевода, разрабатывавшиеся в вялотекущем режиме с незапамятных времен, с 1970-х годов получили серьезный импульс. Это было связано с существенными достижениями в области моделирования интеллектуальной деятельности. Помимо чисто научного интереса, это объяснялось возрастающей ролью межъязыковых коммуникаций в современном мире.

Кроме электронных словарей и словарей-разговорников, к середине 1990-х годов довольно большое распространение получили "электронные переводчики" (их стали называть технологией MT ). В принципе, "электронные переводчики" - это программы, которые могли обработать целый текст. Правда, на выходе получалось не совсем то, что надо, а если откровенно, то совсем не то. Для того, чтобы результат работы технологии MT стал действительно связным текстом, человеку приходилось немало поработать над ним.

Понятие “машинный перевод” стало общеизвестным. Довольно большое распространение у нас получили отечественные программы Stylus (сейчас она называется Promt и Сократ ). Впрочем, интерес к таких программам после периода первоначального любопытства постепенно снижался, и сейчас он невелик, даже несмотря на то, что их в значительной степени доработали. В настоящее время их используют в основном для знакомства с содержанием иноязычных сайтов в Интернете, а также для чтения и написания электронных писем на иностранном языке.

По большому счету, работа переводчика за столетия принципиально не изменилась. Да, появились компьютеры, этакие быстродействующие и удобные пишущие машинки. Да, появились "электронные переводчики". Однако при всем том, что технологии MT совершенствовались, они так и не стали инструментом, имеющим широкую сферу применения и позволяющим по-настоящему экономить время и силы.

Что такое технология Translation Memory

Новым инструментом переводчика стала технология Translation_Memory (TM). На Западе технология TM и созданный на ее базе инструментарий переводчика - Translation Memory Tools (TMT) - хорошо известны и широко применяются. Особенностью такой технологии является механизация переводческой деятельности, а не ее автоматизация в том виде, каком ее видели создатели технологии MT. Причем это более скромное, на первый взгляд, решение принесло практической пользы неизмеримо больше, чем глобальный замысел "электронных переводчиков".

Отличие от электронных словарей и других инструментов переводчика заключается в том, что типичная программа класса ТМ основана на нейронных сетях, которые способны в определенной степени моделировать работу человеческого мозга при обработке данных. Эти сети способны обучаться и анализировать сложные наборы данных, которые сложно обрабатывать с помощью линейных алгоритмов.

В этих программах используются размытый алгоритм, позволяющий отыскивать слова не только в их словарных формах, но и в других формах, например, в другом падеже. Кроме того, они могут находить словосочетания в другом порядке слов. Самоорганизующаяся искусственная нейронная сеть способна находить закономерности и определять взаимосвязи между ними. Программа сравнивает тот фрагмент, над которым вы сейчас работаете, с содержимым базы данных, и предоставляет эту информацию на дисплей. Она может установить, что данный фрагмент похож на аналогичный фрагмент, имеющийся в памяти системы, например, на 99%, на 74%, или даже на 20%.

Каждому переводчику знакомо ощущение, что фраза, над которой он сейчас бьется, уже где-то, когда-то встречалась, хотя бы в приблизительном виде. Причем попадалась либо в этом же материале, либо в каком-то другом, переводимом ранее. Прямо дежавю какое-то… Посмотреть бы ее, эту фразу, хотя бы для справки, чтобы толково сформулировать ту, над которой работаешь сейчас…

Начинаешь листать оригинал обратно, рыться на книжной полке. И часто бывало так, что искомая фраза действительно обнаруживалась. Чаще всего, когда уже поздно, уже после того, как работа над переводом закончена. Думается, в такую минуту все бы отдал за средство, которое помогло бы найти необходимый текст. Даже сейчас, когда печатаешь текст перевода с помощью компьютера, а не на пишущей машинке, всегда жаль переделывать то, что сочинялось с таким трудом. Давняя мечта переводчика - придумать какое-либо средство, которое бы освобождало от необходимости переводить одну и ту же фразу несколько раз.

Подобного рода идея лежит в основе создания технологии Translation Memory, или просто ТМ, на основе которой с конца 80-х - начала 90-х годов начали появляться более или менее работоспособные программы. По сути дела, такая программа представляет собой управляющую оболочку, которая работает с той или иной подключаемой базой данных (ТМ) и которую я бы назвал копилкой переводов. ТМ - это компьютеризированная версия большого картотечного шкафа, в котором хранится каждая фраза, которую вы когда-либо переводили, причем в паре - как на языке оригинала, так и перевода. Каждая такая пара называется билингва. Программа мгновенно напомнит вам, как эту фразу переводили в прошлый раз. Доступ к информации легкий и быстрый.

Обзор основных программ класса Translation Memory

В настоящее время на мировом рынке представлено несколько программных продуктов, использующих технологию ТМ. Они отличаются друг от друга, и порой существенно. Вместе с тем им всем присущи некоторые общие функциональные возможности.

Например, у них, как правило, предусмотрен текстовый редактор, имеющий два параллельных окна. Одно окно предназначено для текста оригинала, второе - для перевода. Когда в окно оригинала выводится исходный фрагмент текста (это может быть предложение, абзац, отдельное слово), начинается поиск аналогичного фрагмента в базе данных. Если в памяти оказался точно такой же фрагмент, он выводится в окно перевода автоматически. Если в точности такого же фрагмент не нашлось, но обнаружился какой-то похожий, то в окно программы выводится найденный фрагмент с указанием процента совпадения.

Переводчик редактирует предложенный программой текст перевода, приводя его в соответствие с оригиналом, посылает его в память базы данных и приступает к следующему. Если ничего не нашлось вообще, то переводчик переводит его с нуля, впечатывая текст в окошко перевода. Закончив работу над этим фрагментом, переводчик посылает его в память базы данных и приступает к следующему. Таким образом, пополнение ТМ происходит автоматически, по мере работы. Сразу после того, как билингва попала в ТМ, она становится доступной пользователю. Если ТМ-программа расположена на сетевом диске и с ней работают другие пользователи, то новая билингва сразу же становится доступной и для остальных переводчиков. После того, как фрагмент оригинала и фрагмент перевода отправлены в базу данных, в окно оригинала выводится следующий фрагмент.

Первую программу такого типа, получившую название Translation Manager, разработала фирма IBM. Вначале IBM использовала Translation Manager для собственных потребностей - для локализации (адаптации на иностранные языки) собственного программного обеспечения. Затем Translation Manager был предложен рынку в качестве коммерческого продукта, и некоторое время он был монополистом в этой области. Эта программа довольно проста в использовании, отличается быстродействием и обеспечивает хорошие возможности для индивидуальных настроек пользователя. Для каждой из трех основных функций предусмотрены отдельные окна - Translation, Translation Memory и Dictionary. В окне Translation Memory отображаются найденные в памяти соответствия, если они там есть, а в окно Dictionary выводится терминология из словарей, разработанных IBM. Есть в этой программе и некоторые неудобства, например, усложненная процедура поиска в копилке памяти (Translation Memory) отдельных слов.

Еще одна программа - SDLX - разработана для своих собственных потребностей английской компанией SDL , занимающейся локализацией программного обеспечения. Каждая программа, входящая в комплект, устанавливается отдельно. SDL Edit - это, собственно, сама программа, с помощью которой осуществляется перевод. В ней есть три окна, показывающие исходный текст, перевод и Translation Memory. Следует отметить, что документ для перевода нельзя импортировать непосредственно в SDL Edit. Сначала его необходимо преобразовывать при помощи SDL Convert, что является определенным неудобством.

Программа Déjà Vu пользуется у переводчиков в Европе популярностью благодаря своей гибкости и адаптивности. Помимо удобства, Déjà Vu отличается от других продуктов самым высоким соотношением цена/качество. По сравнению с двумя предыдущими программами рассматриваемый продукт имеет ряд удобных возможностей. Специалисты отмечают, что с самого начала эта программа разрабатывалась в контакте с ее будущими пользователями. Известно, что последняя версия Déjà Vu тестировалась, в частности, российскими переводчиками. Один из них, Андрей Герасимов, написал положительную рецензию на эту программу в журнале MultiLingual Computing & Technology

Известна в нашей стране и популярная в Европе программа STAR Transit . По своей идеологии она совершенно не похожа на другие продукты рассматриваемого класса. Вы уже получили определенное представление о них, и знаете, что все они имеют центральную базу данных большой емкости, копилку переводов, в которой нужные данные обнаруживаются мгновенно (если они там есть, конечно). Как сказал бы Билл Гейтс: "Information at your fingertips". Так вот, все программы Translation Memory имеют электронный каталожный шкаф, а Transit - не имеет. У него все по-другому. Исходные данные и перевод сохраняются в текстовом формате в виде файлов, которые переводчик размещает в директориях по своему усмотрению. Затем переводчик может просто указать программе, какие директории и даже какие файлы ему необходимы. Затем Transit формирует ассоциативную сеть ссылок, с которой и ведется работа. Несмотря на отдельные плюсы, в России Transit не получил широкого распространения. В конечном счете Promt, официальный дистрибьютор Transit, переключился на дистрибуцию Translator’s Workbench фирмы Trados.

А вот Translator’s Workbench, или просто Традос, быстро получил широкое распространение в России, сначала среди переводческих фирм, а затем и среди индивидуальных переводчиков. Наверное, это можно объяснить тем, что он дает возможность работать, не выходя из Word’a, что психологически комфортней. Кому приятно смотреть на текст, испещренный всевозможными кодами в квадратных скобках? Translator’s Workbench (Традос) по сравнению с другими программами более удобен для обычного переводчика, который не является специалистом по программированию, он более понятен по сравнению с остальными программами подобного типа. В частности, кнопки управления снабжены всплывающими подсказками. Находясь в знакомом и понятном Word’е, можно использовать все его инструменты (например, автотексты).

Данный продукт обладает полным набором полезных инструментов, которые в остальных программах присутствуют лишь в той или иной степени. Одним из таких инструментов является Analise, позволяющий заранее проанализировать текст оригинала и выяснить, есть ли там (и в каком количестве) полные и неполные совпадения. Стоит упомянуть и такую удобный инструмент, как Placeables, позволяющую, например, автоматически менять цифры в тексте, если все остальное в переводимом фрагменте совпадает с обнаруженным в копилке переводов (ТМ). Очень удобна автоматическая функция замены в цифрах десятичных точек и/или запятых, формата времени, аббревиатур и т.д. на соответствующие параметры, задаваемые переводчиком.

Подавляющее большинство российских переводчиков, использующих технологию TM, предпочитают Translator’s Workbench (Традос).

Что общего у программ Translation Memory

Резюмируя описание основных программных продуктов класса Translation Memory, следует отметить наличие у них, как правило, ряда общих функциональных возможностей.

Сведение - Alignment

Эта функция позволяет создавать копилки переводов (ТМ) из существующих файлов. Из двух файлов - один с текстом оригинала, а другой с текстом перевода - создается набор билингв. Напротив предложения исходного текста выстраивается его перевод. И так по всем файлам, которые переводчик свел в единую копилку. Степень удобства функции совмещения у разных программ различная.

Обслуживание – Maintenance

По мере накопления в базе данных билингв их количество может увеличиться настолько, что содержимое базы может выйти за все пределы. Могут обнаружиться какие-то неточности и даже ошибки, особенно если программа используется в сети многими пользователями. Возникнет необходимость что-то отредактировать или уточнить, а то и просто удалить. Справедливости ради надо сказать, что упомянутое средство обслуживания программ до конца эту проблему не решает - бороться на практике с засорением копилок переводов все равно затруднительно.

Терминологический словарь - Terminology Program

Все рассматриваемые программы имеют свои терминологические словари, являющиеся по сути известными всем электронными словарями. Терминологические словари могут импортировать файлы в формате словарей или глоссариев, их можно пополнять и вручную.

Текстовый редактор - Document Editor

Здесь, собственно, и осуществляется процесс перевода. Для этого у всех программ предусмотрены упоминавшиеся выше два окна - для исходного текста и для его перевода. У всех текстовых редакторов есть возможность устанавливать в процентах степень сходства между переводимым в данный момент исходным текстом и текстом в копилке переводов. Чем выше вы установите процент сходства, например, 90% или 95%, тем меньше вероятность обнаружения там подходящего текста. Однако можно установит процент поменьше, тогда может набраться немало материала, который был бы полезен хотя бы для справки.

Конкорданс (Связка словоупотребления с контекстом) - Concordance

Это очень полезная функция всех рассматриваемых программ. Нередко бывает, что какой-то термин (или сочетание терминов) может иметь несколько значений или оттенков значений. Выделив термин, можно просмотреть в окне все билингвы, имеющиеся в копилке, причем в самых разных контекстах. Это всегда облегчает выбор наиболее точного варианта перевода данного термина или сочетания.

Наталья Шахова, директор агентства EnRus, считает что большинство TM-продуктов избавляют пользователя от необходимости знакомиться с различными текстовыми процессорами. Достаточно изучить особенности текстового редактора самого продукта, и вам станет подвластно все разнообразие текстов, будь они представлены в QuarkXPress, FrameMaker или Adobe Illustrator. Здесь есть, конечно, некоторый подвох: для того чтобы освоить очередной текстовый процессор или издательскую систему, вам понадобится соответствующая программа-фильтр, которая - что? Правильно - продается за отдельные деньги! Вообще денежный вопрос самый серьезный, когда речь идет о TMT. Стоят они недешево (как правило, несколько сотен долларов), совместимости, понятное дело, нет. Поэтому если вы приобрели (и освоили!) какой-либо продукт для одного проекта, то для следующего может потребоваться приобрести другой продукт и снова тратить время на его изучение.

Далее Наталья Шахова отмечает, что на Западе уже вовсю обсуждают последствия повсеместного распространения таких программ. Одно из них заключается в том, что переводчик-новичок теряет возможность выйти на рынок. Точно так же, как в России уже очень трудно получить заказ переводчику, если у него нет компьютера и принтера, так и за границей возникают проблемы трудоустройства у переводчиков, не имеющих TM-программы. У этого явления есть и положительная сторона - нанимая на работу владельца TM-программы, заказчик получает некоторую гарантию его профессионализма. Но ведь и новички должны иметь возможность стартовать!

Отношение к технологии Translation Memory в нашей стране разное.

Когда в 1999 году бюро переводов "Фонетикс" начало работать с Trados Translator’s Workbench, то естественно, в ходе контактов с заказчиками мы рассказывали о переходе на новую технологию. Вопреки ожиданиям, реакция была настороженной, а порой и просто отрицательной. Оказалось, что идея машинного перевода была уже скомпрометирована бездумным применением в 90-х годах программ типа Stylus и Socrat. Причем их нередко использовали переводчики, скажем, не очень высокой квалификации, которые не утруждали себя редактированием того, что выдавали "электронные переводчики". Впрочем, пользователей этих программ тоже можно понять - редактирование этих текстов требовало много времени и сил.

Даже сейчас порой можно встретить со стороны заказчиков из числа российских организаций настороженное отношение к любым новациям в сфере программного обеспечения для переводов. Вместе с тем иностранные фирмы, наоборот, требуют применения программ класса Translation Memory. Зачастую у них есть сложившиеся предпочтения, в основном это Trados Translator’s Workbench, а также Star Transit. У них нередко имеются готовые ТМ (копилки переводов), которые они предлагают использовать.

Что касается переводчиков, то они испытывают к технологии Translation Memory вполне понятный интерес. Еще более понятный интерес испытывают к ним бюро переводов. Они имеют дело не столько с художественной литературой, публицистикой, поэзией и т.д., сколько с инструкциями по эксплуатации, руководствами по поиску и устранению неисправностей, а также с локализацией программного обеспечения, т.е. с теми материалами, где имеются повторяющиеся или схожие фрагменты текста.

В своем нынешнем виде программы Translation Memory, по-видимому, достигли потолка. Дальнейшая работа по их доработке идет по пути совершенствования их существующих функциональных возможностей. Это ведет к тому, что программы становятся все более громоздкими и сложными, и это при том, что каких-то принципиально новых идей там нет. Тот же Translator’s Workbench (Традос) в своей последней версии оброс таким набором инструментов, что простому пользователю разобраться в них очень сложно.

Эксплуатация этой программы предполагает наличие в штате бюро переводов отдельного сотрудника. Помимо руководства пользователя, в документации предусмотрено руководство для выделенного специалиста (TRADOS Specialist Guide). Кроме этого в пакет документации входит Project Management Guide, MultiTerm User Guide и WinAlign User Guide. Даже у подготовленного переводчика на ознакомление с сотнями страниц этих документов потребуется много сил и времени.

Поиском новых решений занимается группа исследователей в университете Мэрилэнд, округ Балтимор (США), под руководством профессора С.Ниренбурга, известного специалиста в области искусственного интеллекта и машинного перевода. Пока разработки находятся на стадии теоретических исследований, и скорее всего, доведение этих исследований до стадии коммерческого продукта потребует значительного времени.

Обращает на себя внимание то обстоятельство, что на рынке инструментов переводчика работают в основном зарубежные фирмы. Хотелось бы надеяться, что это не будет продолжаться вечно. Потенциал теоретических разработок российских специалистов в области семантического анализа очень большой. Наши исследования в этой области достигли весьма высокого уровня. Есть все основания рассчитывать, что эти разработки будут материализованы в виде принципиально новых лингвистических технологий, которые позволят в полной мере раскрыть творческий потенциал переводчика.

Журнал практикующего переводчика «Мосты», одно из немногих профессиональных периодических изданий для переводчиков. В журнале публикуются статьи переводчиков различных специальностей, как устных, так и письменных. На страницах журнала переводчики, специализирующиеся в различных областях знаний, имеют возможность обсуждать актуальные проблемы, полемизировать друг с другом, делиться секретами профессионального мастерства.