на эсперанто здесь

УДК 410:51 + 414.7 + 800.892

ИНФОРМАТИКА

        

Академик АН   Республики  Таджикистан  3.Д. Усманов,

Ф. Шукуров,  C. Ёкубзода

 

ЧАСТОТНЫЙ СЛОВАРЬ ЯЗЫКА ЭСПЕРАНТО

 

Настоящий частотный словарь является результатом обработки репрезентативной выборки объёма в 1450 000 слов, составленной из написанных на языке эсперанто оригинальных и переводных произведений 32-х авторов, см. Приложение. Построение словаря основывалось на использовании понятия слова, которое в рамках текстовой информации трактовалось как совокупность букв между двумя символами, каковыми могут быть функциональные и служебные знаки компьютерной клавиатуры, в частности пробелы, знаки препинания и т.д.

 

Процесс формирования искомого словаря осуществлялся в два этапа. На первом этапе генерировался промежуточный частотный словарь S, включавший в себя многообразие различных слов с их частотами встречаемости. Элементами такого словаря оказывались не только лексемы, но и все их парадигмы, т.е. помимо слова в начальной форме в словаре участвовали его всевозможные грамматические вариации со своими частотами встречаемости. Например, наряду с глаголом в инфинитивной форме vidi, в словаре в качестве самостоятельных элементов присутствуют vidis, vidas, vidos, vidu, vidus, vidinta, vidanta, vidita, vidata,  vidiĝi, vidiĝis, vidigi  - грамматические формы глагола в прошедшем, настоящем и будущем временах и различных наклонениях, а также существительные vidaĵo , vidaĵoj, образованные из данного корня vid. Здесь не приводятся все слова, которые можно образовать из данного корня с помощью морфем и которые были найдены в текстах произведений, приведенных в Приложении. Аналогично, одновременно с существительным в именительном падеже единственного числа homo  в промежуточный словарь вносились все слова, образованные из данного корня hom,  которые были найдены в обработанных текстах:  homoj, homon, homojn, homaro, hometo, homego, homido, homino, homarano, homaranoj, homiĝi, homigi   и т.д.

 

На втором этапе промежуточный словарь S преобразовывался в  частотный словарь языка эсперанто. Существо преобразования сводилось к следующему. Множество слов промежуточного словаря разбивалось на подмножества Sk элементами которых являлись слова, образованные из одного и того же корня. Придерживаясь гипотезы, что корень слова жестко привязан к вполне определенной части речи, каждому конкретному  подмножеству Sk сопоставлялась лексема, т.е. начальная форма слова из данной части речи. Эта лексема вместе с приписанной ей суммарной частотой встречаемости всех слов из рассматриваемого подмножества Sk включалась в качестве элемента итогового словаря - частотного словаря языка эсперанто.

 

В частности, в приведенных примерах гнезду слов с корнем vid сопоставлена лексема vidi  с суммарной частотой встречаемости 3181 , а гнезду слов с корнем hom  -   лексема homo с частотой 3929.

         Приводимый далее частотный словарь разделен на 3 части. В первой, второй и третьей  частях даются списки слов, осуществляющих соответственно 50% - , 75% - и 80% - е покрытия текстов. В этих списках слова ранжируются в порядке убывания их частот встречаемости, которые приводятся  справа от слов. Напомним, что общее количество обработанных слов -  1 450 000. В конце данной работы дается Приложение, в котором представлен список произведений, использованных для построения данного частотного словаря.

Практическая ценность предлагаемого частотного словаря состоит в том, что он подсказывает, на запоминание каких слов следует сосредоточить первоочередное внимание на начальном этапе освоения языка эсперанто.

ЧАСТОТНЫЙ СЛОВАРЬ ЯЗЫКА ЭСПЕРАНТО

ЧАСТЬ 1.
Список лексем,
осуществляющих 50% -ое покрытие текста.

ЧАСТЬ 2.
Список лексем,
осуществляющих 75% -ое покрытие текста.

ЧАСТЬ 3.
Список лексем,
осуществляющих 80% -ое покрытие текста.

Приложение

Hosted by uCoz

 

 

Hosted by uCoz