Izbyto4nost

В.В. Бойков, Н.А. Жукова

Тверской институт экономики и менеджмента

ИЗБЫТОЧНОСТЬ ИСХОДНОГО АНГЛИЙСКОГО ТЕКСТА

ПО СРАВНЕНИЮ С ЕГО РУССКИМ АНАЛОГОМ ПРИ МАШИННОМ ПЕРЕВОДЕ

В настоящее время производство компьютеров и программного обеспечения является важнейшей сферой мировой экономики. Ежегодно продаются десятки миллионов компьютеров и сотни миллионов экземпляров их программного обеспечения. Стремительно нарастают темпы использования компьютерной техники в России, которая пока еще очень сильно отстает в этой области от развитых стран.

Персональный компьютер способен не только оказать помощь в трудовой деятельности человека и упростить подъем по ступеням карьеры, но и в целом облегчить его повседневную жизнь и даже сделать ее более увлекательной и приятной. Поэтому не удивительно, что ежедневно за компьютерами оказываются сотни, если не тысячи, новых пользователей.

Особенно активно осваивает компьютерную технику молодежь, но даже люди среднего и старшего поколения постепенно преодолевают психологический барьер страха перед компьютером. Однако многих при первых же попытках общения с компьютером ожидает разочарование. Дело в том, что подавляющее большинство «новобранцев» не в ладах с английским языком, обучение которому издавна в нашем государстве поставлено, за редкими исключениями, из рук вон плохо, а во многих классах общеобразовательных школ вообще не ведется.

Между тем подавляющее большинство компьютерных программ и приложений имеют англоязычный интерфейс, да и инструкции по эксплуатации компьютера и периферийных устройств также пока еще печатаются на английском языке. Поэтому нередко случается так, что, поглотив немалую сумму, компьютер надолго превращается в дорогое, но бесполезное украшение из-за того, что пользователь плохо, либо совсем не владеет языком. В этой ситуации большую помощь не только начинающим, но и пользователям со стажем, могут оказать системы и программы машинного перевода.

Хотя все они многообещающе провозглашают, что способны синтезировать выходной текст на грамматически правильном языке с учетом морфологических, синтаксических и семантических связей, в действительности же перевод в подавляющем большинстве случаев весьма далек от совершенства и требует редакционной правки.

Пока пользователь размышляет, пытаясь вникнуть в смысл выданного программой перевода, а на это уходит немало времени, компьютер простаивает и лишь напрасно потребляет электроэнергию. Поэтому редактирование текста перевода часто удобнее проводить не на дисплее компьютера, а по отпечатанным копиям исходного текста и его иноязычного аналога. Тем более, что в этом случае пользователь не привязан к компьютеру и может выполнять работу в любых подходящих условиях.

Хранение информации о входном и выходном текстах требует определенных затрат дисковой памяти, а вывод на печать сопряжен с расходами на бумагу. Следовательно, практически важно знать, как соотносятся между собой число символов исходного текста и текста его аналога.

Фрагменты на английском языке объемом от 500 до 2000 байт файлов с расширением txt, файлов RЕАDМI, а также фрагменты текстов, относящиеся к компьютерной тематике, ввод которых производился сканером GENIUS ITEUECVSA410, переводились с помощью программ машинного перевода SOCRAT TRANSLATOR 1.0 и STYLUS 2,5. Общий объем переведенных текстов составляет около 40 килобайт.

Какая-либо стилистическая или редакционная правка переводов не вводилась, устранялись лишь орфографические ошибки. Попутно были получены сведения о числе и длине слов во входном и выходном текстах, некоторые другие данные, а также определена избыточность по числу слов английского текста в сравнении с его русским аналогом (переводом).

Основные сравнительные статистические характеристики англоязычных источников и русских аналогов – переводов (программа SOCRAT) приведены в таблице 1, в которой приняты следующие обозначения: m – среднее значение; s – стандартное отклонение; Е – эксцесс; А – коэффициент асимметрии.

Таблица 1

№	Показатели	m	s	Е	А	мин	макс
1	Отношение числа символов русского аналога (перевода) к числу символов англоязычного источника	1,14	0,067	-0,18	-0,23	1,00	1,26
2	Отношение числа слов в русском аналоге (переводе) к чипу предложений англоязычного источника	0,85	0,116	0,71	-0,98	0,58	1,04
3	Длина слова в англоязычном источнике	4,97	0,45	5,20	-1,35	3,34	5,80
4	Длина слова в русском аналоге (переводе) англоязычного источника	6,82	1,106	1,18	0,92	4,59	9,94

При использовании программы STYLUS среднее значение отношения числа символов оказалось равным -1,19. Хотя различие средних согласно критерию Стьюдента статистически достоверно, какого-либо практического значения это обстоятельство не имеет, так как расхождение составляет лишь около 4%.

Почти 20% слов в русском тексте имеют длину более 8 символов. Совершенно иначе обстоит дело с английским текстом. Здесь слов, имеющих свыше 6 символов, не встретилось вовсе.

Соотношение в объемах потребной памяти для выходного и входного текстов, составляя 1,12, не отличается заметно от соотношения числа символов.

Формализованной характеристикой слова как носителя информации, имеющей смысловое значение, является его длина или обратная ей величина – число слов, которые могут быть образованы из некоторого, заданного количества символов.

В таблице 2 приведены данные по распределению числа слов на 1000 символов английских текстов, а в таблице 3 – по русскоязычным аналогам.

Таблица 2

Число слов на 1000 символов	172,49	198,07	223,65	249,23	274,82	300,4
Вероятности, r	0,0333	0,3	0,5666	0,0333	0	0,0333
-log r	4,9083	1,7369	0,8196	4.9083	-	4,9083
-r log r	0,1636	0,5211	0,4644	0,1636	0	0,1636

Таблица 3

Число слов на 1000 символов	103,74	126,58	149,41	172,25	195,08	217,92
Вероятности, r	0,0333	0,1	0,2666	0,5	0,6666	0,0333
-log r	4,9083	3,3219	1,9072	1	3,9083	4,9083
-r log r	0,1636	0,3322	0,5085	0,5	0,2605	0,1636

Согласно данным таблиц 1 и 2 энтропия английского текста по числу слов составляет 1,4763, а русского – 1,9284. Следовательно, коэффициент избыточности англоязычного текста по сравнению с русскоязычным по числу слов равен 0,2344. Для программы STYLUS этот показатель составляет 0,2592.

К избыточным словам относятся в первую очередь артикли, которые игнорируются программами машинного перевода (независимо оттого, введены ли слова английского текста с артиклями или таковые опущены, перевод на русский язык будет одним и тем же). Хотя артикль сам по себе, как известно, не переводится, однако вносит в предложение оттенок, который необходимо учитывать при переводе.

Рассмотрим простейшие примеры. Фраза Take аn арр1е означает по-русски приглашение: Возьмите яблоко (какое-нибудь, любое). Take the арр1е соответствует предложению: Возьмите это яблоко (именно это, конкретное яблоко, а не какое-то иное). Программа STYLUS оба предложения переводит одной и той же фразой: Берите яблоко. SOCRAT TRANSLATOR выдает и в том и в другом случае: Возьмите яблоко.

Первое из них содержит не только предложение выполнить действие, но и некоторую разрешающую интонацию. Глагол «возьмите» – более категоричен. Впрочем, это обстоятельство относится уже к содержанию словарей, которыми укомплектованы программы, что без труда можно нивелировать. Что же касается интонационных параметров фраз, то их можно правильно интерпретировать только по контексту и экстралингвистической ситуации, а это пока не под силу современным программам машинного перевода.

(0, 27 п.л.)