УДК 004.852 МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ М. А. <...> В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. <...> Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. <...> Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. <...> В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. <...> First of all, we analyze a variety of word association measures in order to integrate top-ranked bigrams into topic models. <...> Then we propose a modification of the original algorithm PLSA, which takes into account similar unigrams and bigrams that start with the same beginning. <...> And at the end we present a novel unsupervised iterative algorithm demonstrating how topics can choose the most relevant bigrams. <...> Они определяют, к каким темам относится каждый документ в текстовой коллекции и какие слова образуют каждую такую тему. <...> При этом темы представляются в виде дискретных распределений на множестве слов, а документы – в виде дискретных распределений на множестве тем [1]. <...> Пользова© Нокель М. А., 2014 Работа частично 14-07-00383 поддержана грантом РФФИ телям темы предоставляются, как правило, в виде некоторых списков часто встречающихся рядом друг с другом слов, упорядоченных по убыванию степени принадлежности им. <...> Самыми известными представителями являются латентное размещение Дирихле (LDA) [1], использующее априорное распределение Дирихле, и метод вероятностного латентного семантического анализа (PLSA) [2], не связанный ни с какими параметрическими априорными распределениями. <...> ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, 2014, № 4 89 М. А. Нокель Одним из главных недостатков тематических моделей является использование модели «мешка слов», в которой каждый документ рассматривается как набор встречающихся в нем слов. <...> Данная модель не учитывает порядок <...>