НОВАЯ ФУНДАМЕНТАЛЬНАЯ НАУКА ОРГАНИЗМИКА
Лингвистика
Разделы Организмики
Использование нечетких множеств в задачах контент-анализа текста на примере Велесовой книги
Колесников А.А., март 2010 г.
Необходимость автоматической классификации текста с целью выявления предметной области, значимости, времени создания, соответствия современному состоянию в данной предметной области, возможные намерения автора текста [1], а также принадлежности текста заявленному автору вызвало развитие контент-анализа [2]. Необходимы методики объективной строгой оценки текстов. Одно из определений: «Контент-анализ – это методика выявления частоты появления в тексте определенных интересующих исследователя характеристик, которая позволяет ему делать некоторые выводы относительно намерений создателя этого текста или возможных реакций адресата» [1]. Это определение отражает методики и задачи использования контент-анализа в средствах массовой информации, тогда как область его применения существенно шире и включает, например анализ объектов интеллектуальной собственности.
Классической методикой оценки текстов стали частные методы анализа слов, однако данная методика обладает рядом недостатков, в частности низкой точностью выявления предметной области. В связи с чем, в данной области стали преобладающими методики семантического и морфологического анализа текстов [2], а также использование онтологий. Эти методики позволили анализировать обобщенные характеристики текста: семантические деревья множества понятий предметной области.
Тем не менее, при решении ряда задач, таких как выявление авторства текста, анализа узкоспециального технического текста, такого как формула изобретения, где синтаксические анализаторы не дают корректного результата, и, как правило, неточен узко-профильный словарь предметной области, а также при анализе исторических текстов на редких и вовсе неописанных языках, частотные методы слов и словосочетаний сохраняют свою позицию.
Основной проблемой здесь становиться установление границ применимости статистических методов обработки результатов. Если текст не принадлежит одному автору, частоты появления характеристик в разделах текста априори не принадлежат одной генеральной совокупности и статистические методы для его анализа не применимы. Игнорирование этого факта приводит к ошибкам интерпретации результатов частотного анализа. И в то же время факт неоднородности частот характеристик в тексте может являться критерием оценки авторства. В этом случае анализ целесообразно производить по характеристикам, не приводящим к потере грамматических форм, используемых автором, как это имело бы место при работе с морфологическим анализом.
В случае анализа текста по абзацам или небольшим фрагментам объем этих фрагментов может быть недостаточным для корректного использования статистических методов.
Современной альтернативой методам статистической обработки является использование нечетких множеств [3].
Рассмотрим множество частот исследуемой характеристики текста как нечеткое множество U. Следующим шагом является вычисление расстояния между нечетким множеством U и эталоном U0. При этом возможно использование различных метрик. Наиболее простым и изученным вариантом является метрики евклидово расстояние:
![]()
Дополнительно для нечеткого множества U вычислим значение энтропии:
![]()
где:
d(U) – энтропия нечеткого множества,
S(y) – функция Шеннона:
S(y) = −y ln y − (1 -y) ln(1 − y).
При отсутствии эталона для сравнения и в задачах экспертизы авторства целесообразным является разбиение текста на k фрагментов и их взаимное сравнение.
В общем случае множество U является объединением множеств U'j соответствующих фрагментам текста с разными характеристиками и множества W элементов являющихся ошибочными (опечатки в тексте, ошибки вычисления характеристик и проч.):
Таким образом, возникает задача декомпозиции множества U. Для декомпозиции нечеткого множества U предлагается использовать численный метод вычисления свертки от функции расстояния между нечеткими множествами плотности характеристик для фрагментов текста G на основе алгоритма «скользящего окна».
Кроме того, актуальна задача оценки точности, адекватности и сходимости результатов анализа. Рассмотрим функцию преобразования множества слов текста в частотный словарь y = F(x). Тогда результат преобразования может быть представлен как сумма:
y = F(x) + F(w);
где:
x – множество характеристик исследуемого текста.
w – множество ошибочных характеристик.
Рассмотрим оценку влияния малых приращений Δx и Δw на результат Δy:
Δy = F(Δx) + F(Δw);
Для устойчивости и сходимости алгоритма необходимо выполнение условия:
lim F(Δw) → 0,
при увеличении объема выборки из текста и F(Δx) должна не возрастать. Таким образом, в приближении критерием сходимости может являться монотонное сокращение величины Δy. Проверить выполнимость которого можно аналитически, либо предусмотреть в алгоритме проверку численным методом. В приведенном ниже примере численное моделирование показало устойчивость и сходимость алгоритма.
* * *
В качестве примера разберем анализ текста с большим объемом неопределенности: «Велесову книгу». В самом тексте нет ни имени автора ни даты создания – предположительно 9-й в н.э., либо 19 – начало 20-го в. н.э.; неизвестен язык – подлинный русский язык 9-го в. н.э., либо искусственно созданный в 19-ом – начале 20-го в. н.э.; известна предметная область – русская история и философия 9-го в. н.э. и ранее. Аналогов для сравнительного анализа нет.
Из текста выделены k = 5 фрагментов, объемом около 30 кбайт каждый (простой текст в кодировке UTF-8), кроме того фрагмент текста, отличающийся по форме и содержанию от остального («се бо ящете первiе трiглву покланяшете се яхом a i тму влiкоу слву поящехом…») выделен в отдельный фрагмент.
Вычислено множество частот слов всего текста U и его фрагментов Ui. После чего вычислены расстояния между этими множествами и нормы || U – Ui || поэлементной разности частот.
Множество U содержит n = 7880 элементов, после нормализации грамматической формы оно несколько сократится, минимально возможный объем при этом может быть предварительно оценен от n*0.4 до n*0.7.
Для фрагмента произвольного русского текста научно-популярной статьи того же объема множество Uk содержит m = 1183 элемента.
Ранжированные множества частот слов изучаемого текста и контрольных примеров текста: «повести временных лет», фрагмента современного художественного произведения, научно-популярной статьи и художественного произведения классической литературы в переводе на эсперанто после нормировки являются близкими.
Но контрольный пример текста в стиле художественной литературы на языке «словио» отличается перераспределением преобладающего количества слов в область частот 0.5 от максимума. Контрольный пример текста на сложном техногенном искусственном языке (системная модель предприятия) отличается перераспределением преобладающего количества слов в область максимальных частот. Текст религиозного содержания на церковнославянском языке по структуре частотного словаря оказался близким к техногенному искусственному языку. Этот результат не позволяет говорить об изучаемом тексте как об искусственной семиотической системе, однако, по результатам анализа видно, что частотный словарь этого текста не противоречит показателям художественного произведения.
Значения норм множеств разностей частот между показателями текста в целом и его фрагментами составили:
- для последовательных фрагментов: [0.4225; 0.2773; 0.2579; 0.2560; 0.3275]
- для выделенного фрагмента (стиха): [1.7857].
Числа являются величиной расстояния между нормированными нечеткими множествами 0 – полное совпадение, 1 – граница нечеткого включения, 2 – множества не пересекаются.
Контрольное значение множества нормы разностей частот при сравнении фрагмента изучаемого текста с произвольным русским текстом составило 1.98 в нормированном выражении.
Расстояния между нечеткими множествами при попарном сравнении составляет величину порядка 0.28 для всех комбинаций основных фрагментов и 1.6392; 1.6229; 1.6007; 1.6260; 1.6409 для выделенного фрагмента с основными фрагментами.
Порог значимости при дефаззификации результата еще требует уточнения, но, тем не менее, этот результат предварительно может быть интерпретирован как несовпадение части лексических единиц по главам текста, имеющего некоторое множества слов или грамматических форм локализованных в коротких фрагментах текста. Причем локальные множества лексических единиц не являются взаимопересекающимися. При этом сохранятся и общее множество слов. Наиболее отличающимися являются начало и конец текста. Отличающийся по форме фрагмент текста (стих) по словарному составу принципиально отличается от остального текста (несмотря на внешнее сходство слов). Возможно наличие и других фрагментов с подобными свойствами, оставшихся незамеченными в данном исследовании.
Таким образом, отмечавшаяся ранее в публикациях «архаичность» грамматики, по результатам частотного анализа выглядит как вероятное соединение фрагментов текста принадлежащих разным авторам и возможно, написанных в разное время или на разных диалектах языка. Этот факт говорит о необходимости расширить сроки возможных датировок текста, даже если его не признавать написанным в 9-м в. или ранее. Одновременно заметим, что и в поздний период подобный язык мог сложиться спонтанно, независимо от официальных реформ русского языка, как нарочито народный, не церковнославянский язык.
Для уточнения результатов анализа необходимо перейти от частотных показателей слов к более совершенным методам: анализу словосочетаний, что возможно уже сегодня с использованием алгоритмов нечеткой кластеризации, и анализу семантических единиц, но только после того как будет описана (или построена с помощью интеллектуальных алгоритмов) грамматика языка текста.
В заключение хотелось бы сказать, что Велесова книга де'факто уже заняла свое место в русской литературе как художественное произведение, независимо от того признается ли она в целом или ее фрагменты оригиналом 9-го века в этом случае ее содержание следует считать мифологическим изложением реальной истории или это эпос, созданный в 19-ом столетии, – текст, который с богатейшими нюансами философии, мог быть написан только реальными носителями русской языческой культуры.
Практически все значимые книги мировой культуры являются эпическими произведениями. При этом в религиоведении доказано, что то же христианство является прямым заимствованием из древних религий. Однако люди почему-то все равно «верят» в буквальную историчность библейских персонажей. Такова, вероятно, природа ума человека.
Литература:
- Федотова Л.Н., Анализ содержания – социологический метод изучения средств массовой коммуникации. – М.: Институт социологии РАН, 2001. – 202 с.
- Борисов А.Н., Алексеев А.В., Меркурьева Г.В. и др., Обработка нечеткой информации в системах принятия решений. – М.: Радио и связь, 1989. 304 с.
- Колмогоров А.Н., Теория информации и теория алгоритмов. – М.: Наука, 1987. – 304 с.
О Велесовой книге:
- А.А. Тюняев. О соответствии историческим данным событий Велесовой книги (по выкладкам переводов).
- А.А. Тюняев. К вопросу о достоверности переводов Велесовой книги (разбор четырёх строчек в переводе Н.В. Слатина). - М.: 2006 – 2007, 29.11.2007.
- А.А. Тюняев. К вопросу о методе определения подделок (Заключение на статью Жуковской Л.П. «Поддельная докириллическая рукопись»), «Organizmica», № 3 [11], 2007.
- А.А. Тюняев. Детектив о Велесовой книге // Заключение на статью – «Жуковская Л.П., Поддельная докириллическая рукопись: (К вопросу о методе определения подделок), Вопросы языкознания. 1960. № 2», «Русь Великая», 16.08.2007.
Ссылки по теме:
- А.А. Клёсов, А.А. Тюняев. Происхождение человека по данным археологии, антропологии и ДНК-генеалогии.
- Е.А. Миронова. Слог «АРК» как реликт протоязыка в современных географических названиях мира.
- А.А. Тюняев. Корень праязыка «ЗМ» – «земля».
- А.А. Тюняев. К вопросу о значении корня «ВР» протоязыка.
- А.А. Тюняев. Значение корня «ЗГ» праязыка – «малая часть».
- Е.А. Миронова. Слоги протоязыка «ОК» и «НАВ» в современных топонимах.
- А.А. Тюняев. К вопросу о значении корня «КЛ» протоязыка.
- А.А. Тюняев. Корень праязыка «ПР» – «(на)пор».
- А.А. Тюняев. О значение корня «СТР» праязыка – пространство.
- А.А. Тюняев. Чередование P→0→B→F→V→H первой буквы корня «ПР» как иллюстрация вектора заимствования.
- А.А. Тюняев. Бог Ра, страна его происхождения и значение его имени.
- А.А. Тюняев. К вопросу о месте нахождения рая и этимология этого слова.
- А.А. Тюняев. Этимология имени русской реки Ока и термина «Океан».
- А.А. Тюняев. Чем занимаются русалки.
- А.А. Тюняев. Древнерусский алфавит Раi как Космическое дерево // Книга Ра.