В.В. Бойков, Н.А. Жукова

Тверской институт экономики и менеджмента

 

ИЗБЫТОЧНОСТЬ ИСХОДНОГО АНГЛИЙСКОГО ТЕКСТА

ПО СРАВНЕНИЮ С ЕГО РУССКИМ АНАЛОГОМ ПРИ МАШИННОМ ПЕРЕВОДЕ

 

В настоящее время производство компьютеров и программного обеспечения является важнейшей сферой мировой экономики. Ежегодно продаются десятки миллионов компьютеров и сотни миллионов экземпляров их программного обеспечения. Стремительно нарастают темпы использования компьютерной техники в России, которая пока еще очень сильно отстает в этой области от развитых стран.

Персональный компьютер способен не только оказать помощь в трудовой деятельности человека и упростить подъем по ступеням карьеры, но и в целом облегчить его повседневную жизнь и даже сделать ее более увлекательной и приятной. Поэтому не удивительно, что ежедневно за компьютерами оказываются сотни, если не тысячи, новых пользователей.

Особенно активно осваивает компьютерную технику молодежь, но даже люди среднего и старшего поколения постепенно преодолевают психологический барьер страха перед компьютером. Однако многих при первых же попытках общения с компьютером ожидает разочарование. Дело в том, что подавляющее большинство «новобранцев» не в ладах с английским языком, обучение которому издавна в нашем государстве поставлено, за редкими исключениями, из рук вон плохо, а во многих классах общеобразовательных школ вообще не ведется.

Между тем подавляющее большинство компьютерных программ и приложений имеют англоязычный интерфейс, да и инструкции по эксплуатации компьютера и периферийных устройств также пока еще печатаются на английском языке. Поэтому нередко случается так, что, поглотив немалую сумму, компьютер надолго превращается в дорогое, но бесполезное украшение из-за того, что пользователь плохо, либо совсем не владеет языком. В этой ситуации большую помощь не только начинающим, но и пользователям со стажем, могут оказать системы и программы машинного перевода.

Хотя все они многообещающе провозглашают, что способны синтезировать выходной текст на грамматически правильном языке с учетом морфологических, синтаксических и семантических связей, в действительности же перевод в подавляющем большинстве случаев весьма далек от совершенства и требует редакционной правки.

Пока пользователь размышляет, пытаясь вникнуть в смысл выданного программой перевода, а на это уходит немало времени, компьютер простаивает и лишь напрасно потребляет электроэнергию. Поэтому редактирование текста перевода часто удобнее проводить не на дисплее компьютера, а по отпечатанным копиям исходного текста и его иноязычного аналога. Тем более, что в этом случае пользователь не привязан к компьютеру и может выполнять работу в любых подходящих условиях.

Хранение информации о входном и выходном текстах требует определенных затрат дисковой памяти, а вывод на печать сопряжен с расходами на бумагу. Следовательно, практически важно знать, как соотносятся между собой число символов исходного текста и текста его аналога.

Фрагменты на английском языке объемом от 500 до 2000 байт файлов с расширением txt, файлов RЕАDМI, а также фрагменты текстов, относящиеся к компьютерной тематике, ввод которых производился сканером GENIUS ITEUECVSA410, переводились с помощью программ машинного перевода SOCRAT TRANSLATOR 1.0 и STYLUS 2,5. Общий объем переведенных текстов составляет около 40 килобайт.

Какая-либо стилистическая или редакционная правка переводов не вводилась, устранялись лишь орфографические ошибки. Попутно были получены сведения о числе и длине слов во входном и выходном текстах, некоторые другие данные, а также определена избыточность по числу слов английского текста в сравнении с его русским аналогом (переводом).

Основные сравнительные статистические характеристики англоязычных источников и русских аналогов – переводов (программа SOCRAT) приведены в таблице 1, в которой приняты следующие обозначения: m – среднее значение; s – стандартное отклонение; Е – эксцесс; А – коэффициент асимметрии.

 

Таблица 1

Показатели

m

s

Е

А

мин

макс

1

Отношение числа символов русского аналога (перевода) к числу символов англоязычного источника

1,14

 

0,067

-0,18

-0,23

1,00

1,26

2

Отношение числа слов в русском аналоге (переводе) к чипу предложений англоязычного источника

0,85

0,116

0,71

-0,98

0,58

1,04

3

Длина слова в англоязычном источнике

4,97

0,45

5,20

-1,35

3,34

5,80

4

Длина слова в русском аналоге (переводе) англоязычного источника

6,82

1,106

1,18

0,92

4,59

9,94

 

При использовании программы STYLUS среднее значение отношения числа символов оказалось равным -1,19. Хотя различие средних согласно критерию Стьюдента статистически достоверно, какого-либо практического значения это обстоятельство не имеет, так как расхождение составляет лишь около 4%.

Почти 20% слов в русском тексте имеют длину более 8 символов. Совершенно иначе обстоит дело с английским текстом. Здесь слов, имеющих свыше 6 символов, не встретилось вовсе.

Соотношение в объемах потребной памяти для выходного и входного текстов, составляя 1,12, не отличается заметно от соотношения числа символов.

Формализованной характеристикой слова как носителя информации, имеющей смысловое значение, является его длина или обратная ей величина  – число слов, которые могут быть образованы из некоторого, заданного количества символов.

В таблице 2 приведены данные по распределению числа слов на 1000 символов английских текстов, а в таблице 3 – по русскоязычным аналогам.

 

Таблица 2

Число слов на 1000 символов

 

172,49

 

198,07

 

223,65

 

249,23

 

274,82

 

300,4

Вероятности, r

0,0333

0,3

0,5666

0,0333

0

0,0333

-log r

4,9083

1,7369

0,8196

4.9083

-

4,9083

-r log r

0,1636

0,5211

0,4644

0,1636

0

0,1636

 

 

Таблица 3

Число слов на 1000 символов

 

103,74

 

126,58

 

149,41

 

172,25

 

195,08

 

217,92

Вероятности, r

0,0333

0,1

0,2666

0,5

0,6666

0,0333

-log r

4,9083

3,3219

1,9072

1

3,9083

4,9083

-r log r

0,1636

0,3322

0,5085

0,5

0,2605

0,1636

 

Согласно данным таблиц 1 и 2 энтропия английского текста по числу слов составляет 1,4763, а русского – 1,9284. Следовательно, коэффициент избыточности англоязычного текста по сравнению с русскоязычным по числу слов равен 0,2344. Для программы STYLUS этот показатель составляет 0,2592.

К избыточным словам относятся в первую очередь артикли, которые игнорируются программами машинного перевода (независимо оттого, введены ли слова английского текста с артиклями или таковые опущены, перевод на русский язык будет одним и тем же). Хотя артикль сам по себе, как известно, не переводится, однако вносит в предложение оттенок, который необходимо учитывать при переводе.

Рассмотрим простейшие примеры. Фраза Take аn арр1е означает по-русски приглашение: Возьмите яблоко (какое-нибудь, любое). Take the арр1е соответствует предложению: Возьмите это яблоко (именно это, конкретное яблоко, а не какое-то иное). Программа STYLUS оба предложения переводит одной и той же фразой: Берите яблоко. SOCRAT TRANSLATOR выдает и в том и в другом случае: Возьмите яблоко.

Первое из них содержит не только предложение выполнить действие, но и некоторую разрешающую интонацию. Глагол «возьмите» – более категоричен. Впрочем, это обстоятельство относится уже к содержанию словарей, которыми укомплектованы программы, что без труда можно нивелировать. Что же касается интонационных параметров фраз, то их можно правильно интерпретировать только по контексту и экстралингвистической ситуации, а это пока не под силу современным программам машинного перевода.

 

(0, 27 п.л.)