В.В. Бойков, Н.А. Жукова
Тверской институт экономики и менеджмента
ИЗБЫТОЧНОСТЬ ИСХОДНОГО АНГЛИЙСКОГО ТЕКСТА
ПО СРАВНЕНИЮ С ЕГО РУССКИМ АНАЛОГОМ ПРИ МАШИННОМ ПЕРЕВОДЕ
В настоящее время производство компьютеров и программного обеспечения является важнейшей сферой мировой экономики. Ежегодно продаются десятки миллионов компьютеров и сотни миллионов экземпляров их программного обеспечения. Стремительно нарастают темпы использования компьютерной техники в России, которая пока еще очень сильно отстает в этой области от развитых стран.
Персональный компьютер способен не только оказать помощь в трудовой деятельности человека и упростить подъем по ступеням карьеры, но и в целом облегчить его повседневную жизнь и даже сделать ее более увлекательной и приятной. Поэтому не удивительно, что ежедневно за компьютерами оказываются сотни, если не тысячи, новых пользователей.
Особенно активно осваивает компьютерную технику молодежь, но даже люди среднего и старшего поколения постепенно преодолевают психологический барьер страха перед компьютером. Однако многих при первых же попытках общения с компьютером ожидает разочарование. Дело в том, что подавляющее большинство «новобранцев» не в ладах с английским языком, обучение которому издавна в нашем государстве поставлено, за редкими исключениями, из рук вон плохо, а во многих классах общеобразовательных школ вообще не ведется.
Между тем подавляющее большинство компьютерных программ и приложений имеют англоязычный интерфейс, да и инструкции по эксплуатации компьютера и периферийных устройств также пока еще печатаются на английском языке. Поэтому нередко случается так, что, поглотив немалую сумму, компьютер надолго превращается в дорогое, но бесполезное украшение из-за того, что пользователь плохо, либо совсем не владеет языком. В этой ситуации большую помощь не только начинающим, но и пользователям со стажем, могут оказать системы и программы машинного перевода.
Хотя все они многообещающе провозглашают, что способны синтезировать выходной текст на грамматически правильном языке с учетом морфологических, синтаксических и семантических связей, в действительности же перевод в подавляющем большинстве случаев весьма далек от совершенства и требует редакционной правки.
Пока пользователь размышляет, пытаясь вникнуть в смысл выданного программой перевода, а на это уходит немало времени, компьютер простаивает и лишь напрасно потребляет электроэнергию. Поэтому редактирование текста перевода часто удобнее проводить не на дисплее компьютера, а по отпечатанным копиям исходного текста и его иноязычного аналога. Тем более, что в этом случае пользователь не привязан к компьютеру и может выполнять работу в любых подходящих условиях.
Хранение информации о входном и выходном текстах требует определенных затрат дисковой памяти, а вывод на печать сопряжен с расходами на бумагу. Следовательно, практически важно знать, как соотносятся между собой число символов исходного текста и текста его аналога.
Фрагменты на английском языке объемом от 500 до 2000 байт файлов с расширением txt, файлов RЕАDМI, а также фрагменты текстов, относящиеся к компьютерной тематике, ввод которых производился сканером GENIUS ITEUECVSA410, переводились с помощью программ машинного перевода SOCRAT TRANSLATOR 1.0 и STYLUS 2,5. Общий объем переведенных текстов составляет около 40 килобайт.
Какая-либо стилистическая или редакционная правка переводов не вводилась, устранялись лишь орфографические ошибки. Попутно были получены сведения о числе и длине слов во входном и выходном текстах, некоторые другие данные, а также определена избыточность по числу слов английского текста в сравнении с его русским аналогом (переводом).
Основные сравнительные статистические характеристики англоязычных источников и русских аналогов – переводов (программа SOCRAT) приведены в таблице 1, в которой приняты следующие обозначения: m – среднее значение; s – стандартное отклонение; Е – эксцесс; А – коэффициент асимметрии.
Таблица 1
№ |
Показатели |
m |
s |
Е |
А |
мин |
макс |
1 |
Отношение числа символов русского аналога (перевода) к числу символов англоязычного источника |
1,14
|
0,067 |
-0,18 |
-0,23 |
1,00 |
1,26 |
2 |
Отношение числа слов в русском аналоге (переводе) к чипу предложений англоязычного источника |
0,85 |
0,116 |
0,71 |
-0,98 |
0,58 |
1,04 |
3 |
Длина слова в англоязычном источнике |
4,97 |
0,45 |
5,20 |
-1,35 |
3,34 |
5,80 |
4 |
Длина слова в русском аналоге (переводе) англоязычного источника |
6,82 |
1,106 |
1,18 |
0,92 |
4,59 |
9,94 |
При использовании программы STYLUS среднее значение отношения числа символов оказалось равным -1,19. Хотя различие средних согласно критерию Стьюдента статистически достоверно, какого-либо практического значения это обстоятельство не имеет, так как расхождение составляет лишь около 4%.
Почти 20% слов в русском тексте имеют длину более 8 символов. Совершенно иначе обстоит дело с английским текстом. Здесь слов, имеющих свыше 6 символов, не встретилось вовсе.
Соотношение в объемах потребной памяти для выходного и входного текстов, составляя 1,12, не отличается заметно от соотношения числа символов.
Формализованной характеристикой слова как носителя информации, имеющей смысловое значение, является его длина или обратная ей величина – число слов, которые могут быть образованы из некоторого, заданного количества символов.
В таблице 2 приведены данные по распределению числа слов на 1000 символов английских текстов, а в таблице 3 – по русскоязычным аналогам.
Таблица 2
Число слов на 1000 символов |
172,49 |
198,07 |
223,65 |
249,23 |
274,82 |
300,4 |
Вероятности, r |
0,0333 |
0,3 |
0,5666 |
0,0333 |
0 |
0,0333 |
-log r |
4,9083 |
1,7369 |
0,8196 |
4.9083 |
- |
4,9083 |
-r log r |
0,1636 |
0,5211 |
0,4644 |
0,1636 |
0 |
0,1636 |
Таблица 3
Число слов на 1000 символов |
103,74 |
126,58 |
149,41 |
172,25 |
195,08 |
217,92 |
Вероятности, r |
0,0333 |
0,1 |
0,2666 |
0,5 |
0,6666 |
0,0333 |
-log r |
4,9083 |
3,3219 |
1,9072 |
1 |
3,9083 |
4,9083 |
-r log r |
0,1636 |
0,3322 |
0,5085 |
0,5 |
0,2605 |
0,1636 |
Согласно данным таблиц 1 и 2 энтропия английского текста по числу слов составляет 1,4763, а русского – 1,9284. Следовательно, коэффициент избыточности англоязычного текста по сравнению с русскоязычным по числу слов равен 0,2344. Для программы STYLUS этот показатель составляет 0,2592.
К избыточным словам относятся в первую очередь артикли, которые игнорируются программами машинного перевода (независимо оттого, введены ли слова английского текста с артиклями или таковые опущены, перевод на русский язык будет одним и тем же). Хотя артикль сам по себе, как известно, не переводится, однако вносит в предложение оттенок, который необходимо учитывать при переводе.
Рассмотрим простейшие примеры. Фраза Take аn арр1е означает по-русски приглашение: Возьмите яблоко (какое-нибудь, любое). Take the арр1е соответствует предложению: Возьмите это яблоко (именно это, конкретное яблоко, а не какое-то иное). Программа STYLUS оба предложения переводит одной и той же фразой: Берите яблоко. SOCRAT TRANSLATOR выдает и в том и в другом случае: Возьмите яблоко.
Первое из них содержит не только предложение выполнить действие, но и некоторую разрешающую интонацию. Глагол «возьмите» – более категоричен. Впрочем, это обстоятельство относится уже к содержанию словарей, которыми укомплектованы программы, что без труда можно нивелировать. Что же касается интонационных параметров фраз, то их можно правильно интерпретировать только по контексту и экстралингвистической ситуации, а это пока не под силу современным программам машинного перевода.
(0, 27 п.л.)