В.В. Бойков, Н.А. Жукова, Л.А. Романова

Тверской  институт экономики и менеджмента,

Тверская государственная сельскохозяйственная академия

 

Распределение длины слов в русских, английских и немецких текстах

 

Одной из формальных характеристик языка является вероятность (частота), с которой в тексте или в устной речи появляется слово той или иной длины. Принято считать, что английские слова в среднем короче слов немецкого и русского языков. Однако каковы закономерности распределения длины слов в том или ином языке неизвестно. Если английские слова действительно в среднем короче немецких и русских слов, то возникает вопрос – насколько именно. Неясно также как соотносится средняя длина слов русского языка со средней длиной слов немецкого и английского языков.

Для того чтобы в какой-то мере восполнить указанный пробел в русских, английских и немецких текстах художественных литературных произведений (см.: список использованных электронных версий литературных произведений после статьи), скопированных с различных сайтов интернета), подсчитывалась количество слов разной длины. Общий объем около 10 млн. буквенных символов. Полученные данные подвергались статистической обработке.

На рис. 1 в графической форме приведены результаты анализа русскоязычных текстов.

На рисунке 1, как и на последующих, точками обозначены результаты по каждому из произведений, входящих в совокупность текстов (русскую, английскую или немецкую), а сплошной линией показано усредненное значение частот.

 

Рис. 1 Полигон распределения длины слов в русских текстах

 

Для  совокупности русских текстов  на графике прослеживается тенденция  незначительного роста частоты в области длин слов 1-3 буквы. Для трехбуквенных слов имеет место четко выраженный относительный минимум, после которого вновь наблюдается некоторый рост частоты, а, начиная со слов, состоящих из 6 букв, кривая монотонно и плавно стремиться к нулю.

 

  

      Рис. 2 Полигон распределения длины слов в английских текстах

 

График распределения частот длин английских слов существенно отличается от графика для русскоязычных текстов. Во-первых, он имеет только две характерные области. До длины слова в 3 символа кривая монотонно возрастает, а затем монотонно убывает.

             

 Рис. 3 Полигон распределения длины слов  в немецких текстах

 

Для немецких текстов характерен более высокий максимум частоты, чем в предыдущем случае. Частота слов длиной 4 и 5 букв практически одна и та же (около 15%). Между словами длиной 6 и 7 букв имеет место довольно резкий перепад частот, после чего кривая плавно приближается к нулю.

Частота трехбуквенных слов в немецких текстах составляет около 30%, то есть заметно выше, чем в английских текстах, а тем более, чем в текстах на русском языке. Впрочем, если исключить из рассмотрения определенные артикли, то максимумы для немецких и английских текстов станут практически равными.

Как следует из рис. 1-3, выборочные данные плотно концентрируются около средних значений, что свидетельствует о тесной статистической связи между текстами  произведений  различных авторов (переводчиков). Для количественной оценки взаимосвязи наборов данных использовался корреляционный анализ. Установлено, что даже для самого неблагоприятного случая коэффициент корреляции между рядом средних значений частот появления той или иной длины слов и рядами этого же параметра для различных текстов русской, английской или немецкой совокупностей, имеет весьма высокое значение равное 0,994. Иными словами статистически достоверно, что для каждого из языков рассмотренные литературные произведения относятся к одной генеральной совокупности и, следовательно, распределение длины слов не зависит, по крайней мере, для художественной литературы, от того, кто является автором (переводчиком) произведения.

Как и следовало ожидать, полигоны распределения имеют четко выраженную асимметрию в направлении более длинных слов. Необходимо отметить, что самое длинное слово, которое встретилось в русских текстах, состояло из 23 букв. В английских же текстах не было слов длиннее, чем 18 букв. В немецких текстах самое длинное слово включало 30 букв. Среднее значение длины слова для немецких текстов составляет 5,07 буквенных символа, английских – 4,24 (по сравнению с немецкими текстами на 19,6% меньше), а для русских – 5,13, что на 21% больше, чем в английских текстах.

Практический интерес имеет представление полигонов распределения длины слов в интегральной форме, когда по оси ординат откладывается накопленная частота. С помощью такого графика очень просто ответить на два важных вопроса. Во-первых, какой процент слов содержится в тексте в некотором интервале длин слов и, во-вторых, как часто встречаются слова, длина которых равна или больше (меньше), чем некоторое заданное значение. В качестве примера на рис. 4 показан полигон распределения в интегральной форме для немецкоязычных текстов.   

  

     Рис. 4 Интегральная форма полигона распределения длины слов (немецкий язык)

Используя интегральное представление полигонов распределения длины слов, можно определить, что вероятность встретить, например, в немецком тексте слово из 6 и более букв равна 23% (для английских текстов эта величина составляет 16%, а для русских – 31%).  

 

Список использованных электронных версий

литературных произведений

 

1.          Скотт В.  Айвенго.

2.          Набоков В.В. Лолита.

3.          Толстой Л.Н.  Анна Каренина.

4.          Дефо Д. Робинзон Крузо.

5.          Диккенс Ч. Приключения Оливера Твиста.

6.          Scott W.   Ivanhoe. A  Romance  

7.          Nabokov V. Lolita.

8.          Twain M. A Connecticut Yankee in King Arthur’s Court.

9.          Defoe D. Robinson Crusoe.

10.      Dickens Ch.  Oliver Twist.

11.      Goethe J.W. Die Leiden des jungen Werthers.

12.      Goethe J.W. Wilhelm Maisters Lehrjahre.

13.       Fontane T. Der Stehlin.

14.       Rilke R.M. Die Aufreichnungen des Malte Laurids Drigge.

15.       Dickens  Ch.  Oliver Twist. 

16.       Kafka F. Der Prozess.