Статистические характеристики текста романа
Л.Н. Толстого «Война и мир»
Роману «Война и мир», занимающему в художественном наследии Л.Н. Толстого центральное место, посвящено бесчисленное множество статей и монографий, в которых это произведение подробно рассмотрено в самых разных аспектах.
В данной работе изложены результаты определения основных статистических характеристик текста этого произведения. В табл. 1 приведены общие данные о файле (формат WORD 2000) с текстом романа.
Таблица 1
Мегабайт |
Страниц |
Слов |
Знаков (без пробелов) |
6,14 |
748 |
478458 |
2521613 |
Результаты подсчета числа русских, французских и немецких слов, которые содержаться в романе, за вычетом слов сносок, приведены в табл. 2.
Таблица 2
Язык |
Русский |
Французский |
Немецкий |
Число слов |
437699 |
15040 |
682 |
Выделив в отдельный файл только русский текст, подсчитывали частоту, с которой встречаются в тексте слова той или иной длины. Результаты в виде полигона частот распределения длины слов показаны на рис. 1. Обращает на себя внимание большая доля слов, имеющих длину 6 и менее букв. Таких слов в тексте романа почти 70 процентов. Характерной особенностью полигона является относительный минимум при длине слова 4 буквенных знака. Слова, состоящие из 14 и более букв встречаются в тексте очень редко. Самое длинное слова состоит из 24 букв. Это специфический термин – обращение той эпохи: «высокопревосходительство».
Рис. 1 Полигон распределения длины слов
Анализ, подобный изложенному, для французских и немецких слов не проводился, так как они составляют незначительную часть текста романа (менее 3 процентов).
На рис. 2 показан полигон распределения длины предложений по числу входящих в них букв, а на рис. 3 – по числу входящих в предложения слов.
Рис. 2 График распределения длин предложений (букв)
Рис. 3 График распределения длины предложений (слов)
При подсчетах числа предложений той или иной длины ни французские, ни немецкие слова не исключались, в тех случаях когда они входят в состав предложений, состоящих преимущественно из русских слов.
Общее число предложений в романе составляет 31566, включая предложения целиком состоящие из французских или немецких слов.
Результаты статистической обработки выборок слов и предложений приведены в табл. 3, в которой приняты следующие обозначения: xср – среднее значение, D – дисперсия, E – эксцесс, A – асимметрия.
Таблица 3
|
xср |
D |
E |
A |
Длина слова (букв) |
5,11 |
8,78 |
-0,17 |
0,56 |
Длина предложения (букв) |
69,1 |
2760 |
1,1 |
0,74 |
Длина предложения (слов) |
13,6 |
103 |
1,1 |
1,17 |
Частотный словарь романа содержит 48033 русскоязычных словоформы, распределение которых по числу вхождений приведено в табл. 4.
Таблица 4
Число вхождений |
>100 |
11 - 100 |
3 -10 |
2 - 3 |
1 |
Число словоформ |
509 |
3772 |
7147 |
11308 |
25207 |
Как следует из приведенных в табл. 4 данных, более 75 процентов словоформ имеют вхождение 1-3 раза.
В табл. 5 приведены 40 наиболее часто встречающихся в тексте романа слов, которые в основном являются местоимениями и предлогами.
Слова, имеющие 1000 и более вхождений, применены в тексте романа 136772 раза (почти третья часть всех слов), а имеющие более 200 вхождений – 219142 раза (около половины всех слов романа).
Таблица 5
и |
21391 |
к |
3465 |
с |
1901 |
бы |
1507 |
в |
11101 |
я |
3105 |
из |
1886 |
Пьер |
1400 |
не |
8734 |
но |
2775 |
а |
1858 |
князь |
1353 |
что |
8351 |
она |
2746 |
все |
1858 |
для |
1324 |
он |
7473 |
это |
3564 |
же |
1819 |
у |
1288 |
на |
6790 |
было |
2519 |
от |
1773 |
еще |
1157 |
с |
5945 |
так |
2028 |
ему |
1765 |
когда |
1145 |
как |
4134 |
сказал |
3023 |
ее |
1696 |
вы |
1097 |
его |
3956 |
по |
1968 |
только |
1620 |
чтобы |
998 |
то |
3724 |
за |
1950 |
был |
1583 |
они |
981 |
(0,17 п.л.)