![]() |
ПОЛУЧИТЕ ДИСТАНЦИОННО ВТОРОЕ ОБРАЗОВАНИЕ: ЭКСПЕРТИЗA И ОЦЕНКA Дистанционное обучение оценщиков и экспертов по всей России в Московском университете «Синергия» Оценка бизнеса | Оценка недвижимости Судебная оценочная экспертиза |
![]() |
![]() | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]()
| ![]() | СтатьиОставить комментарий | Читать комментарии Количественный анализ Большого русского словаря-справочника синонимов(сокращенный вариант статьи (без таблиц 1, 2 и приложений) напечатан в журнале «Научное обозрение: гуманитарные исследования», №9, 2015 г. стр. 105-111) Куянов Юрий Владимирович Тришин Виталий Николаевич Аннотация. В статье обсуждаются вычисления "в среднем", используемые в частотных словарях русского языка на основании произвольно выбранных текстов "представительного корпуса" русского языка. Доказательства "представительности" выбранных текстов, и что именно под этим термином понимается, фактически отсутствуют в работах этих авторов. В данной работе принят другой подход, а именно, анализируются слова самого большого электронного словаря-справочника русского языка Тришина В.Н. на 565 тыс. слов и словосочетаний. В статье приводится среднее число символов 12 в русском языке на основе словаря-справочника, которое существенно отличается от данных двух известных частотных словарей 5,28 и 5,4 на основе выбранных "представительных корпусов". Приводятся и другие численные характеристики словаря-справочника. Статья тем самым расширяет наше представление о русском языке и возможности его сравнения с другими языками. Статья может представлять интерес для специалистов по компьютерной обработке текстов и поиску информации, для любителей русского языка. Ключевые слова: Большой словарь-справочник синонимов русского языка системы ASIS, частотность, частотный словарь, среднее число символов в слове, компьютерная обработка текстов, поиск информации QUANTITATIVE ANALYSIS OF THE LARGE RUSSIAN REFERENCE DICTIONARY OF SYNONYMS Yury V. Kuyanov Vitaly N. Trishin The article discusses the calculation of an "average" used in frequency dictionaries of Russian on the basis of randomly selected texts of the "representative body" of the Russian language. Evidence of the selected texts being "representative", or the clarificationof what exactly this term conveys, are virtually absen in the works of these authors. In this article, a different approach is adopted, namely, analysisof the world's largest electronic reference dictionary of Russian by V. N. Trishin, containing 565 thousand words and phrases. The article provides an average of 12 characters per word in Russian based on the reference dictionary, which differs substantially from the data of the two well-known frequency dictionaries of 5.28 and 5.4, based on the selected "representative bodies". Other numerical characteristics of the reference dictionary are presented as well. The article thus expands our understanding of the Russian language and the possibility of comparison with other languages. The article may be of interest to computer word processing information retrieval professionals and fans of the Russian language. Keywords: Large Russian reference dictionary of synonyms of the ASIS system, frequency, frequency dictionary, average number of characters in a word, computer word processing, information retrieval. 1. Введение Ответ от Google на комбинацию слов “средняя”+”длина”+”слов”+”языке” насчитывает сотни тысяч ссылок. Среди выбранных страниц фигурирует и описание мифического сражения американцев с японцами, в которых американцы победили, так как средняя длина слова в английском языке (5 букв) якобы существенно короче японского (14 букв, хотя в японском языке используются иероглифы, а не буквы!). Упоминание этого «сражения» (без ссылок на первоисточник, — якобы работу «американских историков») приведено в десятках тысяч интернетовских текстов, в том числе и в интервью писателя, филолога Витковского Е. В. [1], где указывается также средняя длина слова русского языка 7, и говорится о том, что русские неуязвимы в бою, т.к. «в боевой обстановке любой вменяемый командир немедленно переходит на мат. А русский мат короче английского» (а если командир не матерится, то он невменяемый?). При этом ещё и приравниваются средние длины слов в письменных текстах и единиц информации в актах устной речи (где вместо букв языка надо считать фонемы). А как именно считать? Ведь при устной речи, скажем в произносимых телевизионных текстах, большая часть слов из книжных словарей никогда не произносилась! И подобным вышеупомянутому «сражению» «мусором псевдофактов» наполнено информационное пространство. Возникает естественный вопрос, а что же такое «средняя длина слов в языке» (в частности в русском языке), как именно она определяется языковедами-филологами и возможно ли в принципе корректное определение этой «средней длины»? Статистические сведения о лексическом составе современного письменного русского языка приводятся в частотных словарях Штейнфельд Э. А. (1963) [2],Засориной Л. Н. (1977) [3], Ляшевской О. Н. и Шарова С. А. (2009) [4]. Но, как можно понять из описания этих словарей, авторы используют в этих работах слово «статистический» не в точном математическом смысле, а в своём специфическом, гуманитарно-филологическом. Как написано во введении к наиболее современному словарю [4], он «основан на коллекции текстов Национального корпуса русского языка, представляющей современный русский язык периода 1950–2007 годов. Объём выборки, на которой строится большинство разделов словаря, составляет 92 млн. словоупотреблений. <…> Для того чтобы корпус мог предоставить достоверные данные о частоте слов в языке, он должен быть большим по объёму и представительным по охвату материала, т.е. содержать тексты разных жанров и стилей в определённой пропорции. <…>». Анализируемый в словаре корпус русского языка включает в себя подборку современной прозы, политических мемуаров, современных газет, научно-популярной литературы и пр. Но так как «в словаре представлен только срез всего потенциально бесконечного множества текстов, функционирующих в современном русском языке», то не понятно, как можно говорить о частоте слов русского языка, и о какой «определённой пропорции» и представительности идёт речь. Можно продолжить вопросы: как учитывались в проведённых исследованиях тиражи представленных текстов, а сколько читателей эти тексты прочитало, а сколько из них поняло (шутка). 2. О средней длине слова Средняя длина слова на корпусе текстов частотного словаря Ляшевской О. Н. и Шарова С. А. составляет 5,28 символа, а на корпусе частотного словаря Засориной Л. Н. она составляет 5,4 символа, при этом средняя длина слова в самом словаре Засориной Л. Н. составляет 9,3 символа «за счёт первой тысячи самых частых слов, включающей те одно-, двух-, трёхбуквенные лексемы, которые влияют на среднюю длину слова в тексте». Очевидно, что результаты исследований частоты слов существенно зависят от того корпуса текстов, который взят за основу, и если исследовать, например, тексты 10-томногоКурса теоретической физики Ландау Л. Д. и Лифшица Е. М., тосредняя длина слова этого учебника может значительно отличаться от вышеприведённых цифр. Да и разница в вышеприведённых цифрах двух частотных словарей (5,28 и 5,4) вызвана, по-видимому, отличием в обследованных корпусах текстов. Справедливости ради следует сказать, что подобные расширительные трактовки математических (статистических) терминов существуют не только в лингвистике, но и в ряде «неестественных» наук: экономике, социологии, политологии, этнографии и др. Альберт Эйнштейн говорил: «As far as the laws of mathematics refer to reality, they are not certain; and as far as they are certain, they do not refer to reality» («Это не факт, что математические теоремы отражают сущность. Но что касается их достоверности, то они не имеют отношения к действительности») [5]. Но что интересно, часто такие неоднозначные на первый взгляд трактовки, исследования имеют полезные практические приложения. Имея словарную базу Большого словаря-справочника синонимов русского языка [6, 7], содержащего на 4 сентября 2015 года свыше 545 тыс. слов и словосочетаний (фразеологизмов, крылатых выражений, толкований и пр.)[1] и 2,062 млн. синонимических связей выполним далее подсчёты, в том числе и «в среднем» по словарной базе словаря-справочника, что представляется более оправданным, чем делать выводы в целом об языке на основании выбранных для анализа текстов. Так, группируя вместе записи (слова и словосочетания) из словаря с одинаковым числом букв (символов) и подсчитывая число записей в каждой группе, получаем таблицу № 1. Количество букв в записях в таблицах пронумерованы, начиная с единицы и до пятидесяти, и расположены слева направо и далее сверху вниз. В таблицы помещены также результаты нормировки. Это представленные в процентах отношения всех целых чисел в клетках к их сумме. Таким образом, число клеток в таблицах удваивается, а столбцы с данными в абсолютном (числа) и относительном (проценты) виде чередуются. Заметим, что в клетке с N=50 учтены также слова большей длины. В таблице № 1 легко увидеть вершину (максимум) распределения подсчитанного числа слов заданной длины. Это 46404 слов с длиной 11 букв, или 8,58 % всех слов, подсчитанное число которых (внизу таблицы) равно 540777, средняя длина записи (слова или словосочетания) в словаре, равна 13,25±5,90 символов на запись. 3. Измерения по всему составу словаря-справочника синонимов Таблица № 1. Распределение по длине слова (словосочетания)
Всего слов: 545003 Некоторые выводы по всему составу словаря
Далее эта же несложная технология применена для случая «исключения многословия» из словаря, то есть когда исключены словосочетания, содержащие символ «пробел» внутри (более одного слова), то есть мы пренебрегаем относительно небольшим количеством устойчивых словосочетаний, приводимых в орфографических словарях как одно целое, например, «ну и ну», «а вот и нет», «в течение», «невзирая на» и т.д. Результаты в таблице № 2. 4. Измерения с фильтрацией (удалением записей с ‘ё’ и символом ‘пробел’) словаря синонимов Таблица № 2. Распределение по длине слова
Всего слов: 458364 4.1. Некоторые дополнительные выводы по «урезанному» словарю
4.2. Некоторые данные о синонимических связях словаря-справочника (записи с буквой «Ё» удалены)[2] В русском языке, согласно словарю-справочнику, слово (словосочетание) имеет в среднем 3,65 синонимов (синонимических связей) . А синонимические связи (синонимы, квазисинонимы, фразеологизмы, толкования) имеют более 419278 слов и словосочетаний,более 10 синонимов имеют 44771 слов и словосочетаний, более 20 синонимов имеют 18228 слов и словосочетаний, более 30 синонимов имеют 9084 слов и словосочетаний, более 40 синонимов имеют 5052 слов и словосочетаний, более 60 синонимов имеют 1887 слов и словосочетаний, более 100 синонимов имеют 487 слов и словосочетаний, более 200 синонимов имеют 107 слов и словосочетаний, более 400 синонимов имеют 32 слов, более 600 синонимов имеют 21 слов, более 1000 синонимов имеют 11 слов. В словаре-справочнике можно искать нужное слово по обобщённому понятию, например, запрос по слову «рыба» выдаст в алфавитном порядке список из 865 названий различных рыб, по слову «растение» — 4773, «песня» — 166, певец — 112, «музыкант» — 159, «поэт» — 86, «графоман» — 40, «девушка» — 138 (интересно, а сколько всего имеется в английском языке синонимов слова Girl? Поисковый запрос в Яндексе выдаёт 8 английских синонимов), «гриб» — 377, «столица» — 273 названия существующих и бывших столиц, «минерал» — 5655, «взрывчатка» — 234, «фермент» — 576, "частица" - 29, "элементарная частица" – 102, «богиня» — 359, милиционер — 67, «быстро» — 316, «умный» — 119, «глупый» — 239, «хороший» — 297, «плохой» — 320, «избивший» (избить) — 267, «трезвый» — 36, «выпивший» (выпить) — 358, «пьяный»[3] — 348. В словаре-справочнике имеется 300 слов, начинающихся с «нано», а в новом Большом академическом словаре таких слов имеется всего 13. Запрос по фрагменту «вита» (слово «вита» в переводе с латинского означает «жизнь») даст 343 слов и словосочетаний, а по фрагменту «люб» (корень слова «любовь») даст 1288 слов и словосочетаний; запрос по окончанию «метрия» (от греческого слова «метрео» — «измеряю») выдаст список из названий 571 дисциплин, в которых что-то меряют, а по окончанию «логия» (от греческого слова «логос» — слово, учение) выдаст список из названий 1385 научных и квазинаучных дисциплин. Замечу, что в «Советском энциклопедическом словаре» (4-е издание, 1990 года) содержится около 200 статей о науках, направлениях и квазинауках, включающих в название элемент «?логия». 5. Вместо заключения В статье [7] написано, что «мощь, богатство языка определяется, по мнению автора, объёмом его словаря, а также его морфологической и синтаксической гибкостью», что «по количеству слов русский язык относится к наиболее развитым языкам мира, а по масштабу и плотности пространства синонимов (а также рифм, интонаций) ему, по мнению автора, нет равных. Использование синонимии и элементов искусственного интеллекта позволяет существенно улучшить поиск и обработку информации в компьютерных системах». Речь, конечно, идет о близких языках, потому что некорректно сравнивать английский или русский языки, например, с восточными языками с их иероглификой и тоновым произношением. А каким образом соотносится мощь языка со средней длиной слова языка в письменном языке (как она определяется в частотных словарях), либо по всему словарю (как в данной работе)? А эти показатели могут в разных языках значительно отличаться, например, длина слов в письменном языке коренных жителей Гренландии (или современных жителей Исландии) где-то в 3 раза больше, чем у англичан. В первом случае для передачи сложного понятия используется одно слово и, следовательно, слов в языке с длинными словами должно быть много. После того, как человек их выучит, он затрачивает мало усилий на понимание текста. В противоположном случае для этих целей используется последовательность простых и сравнительно коротких слов. Итоговая длина текста остаётся при этом практически прежней, но человеку требуется гораздо больше умственных усилий для восприятия сложных понятий, так как он должен анализировать синтаксические структуры, а не просто обращаться к своей памяти. То есть, особого преимущества языков с малой длиной слов, по-видимому, нет. На наш взгляд, эффективность и развитость языка надо дополнительно оценивать в том числе и по его способности порождать и заимствовать новые слова и понятия. Для этой оценки и можно использовать Большой синонимический словарь-справочник. Литература
Количество слов с 34 символами — 55, с 33 символами — 90, с 32 символами — 160 и т.д. Приложение № 2. Список существительных русского языка с длиной более 30 символов
Количество слов с 30 символами — 23, с 29 символами — 26, с 28 символами — 47 и т.д. Приложение № 3. Список наречий русского языка с длиной не менее чем 20 символов
Количество слов с 19 символами — 39, с 18 символами — 95, с 17 символами — 164 и т.д. [1] Учтено дублирование у 20 тыс. слов и выражений с буквой «Ё», см. [7], а всего в базе словаря-справочника свыше 565 тыс. записей. [2] всего в базе словаря-справочника свыше 2,042 млн. синонимических связей. [3] кстати, известный американский государственный деятель, дипломат, учёный Бенджамин Франклин собрал около 200 синонимов слова «пьяный» (англ. Drunk), а в книге рекордов Гиннесса говорится о том, что издательство «Делакур пресс» (Нью-Йорк) опубликовало словарь, куда вошло 1224 из 2241 синонимов состояния опьянения, собранных Полом Диксоном из Гаррет-Парка (штат Мэриленд), и т.д. Поделиться ссылкой в социальных сетях: Комментарии к материалу: (пока комментариев нет) 5688 | ![]() |
![]()
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Отчеты об оценке | Справочники | Форум | Интервью | Рейтинги | Частный бухгалтер Интервью | Контакты | Оценка собственности | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|