Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634620)
Контекстум
.
0   0
Первый авторНокель
Страниц9
ID511943
АннотацияВ статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный алгоритм без учителя, показывающий, как темы сами могут выбирать себе наиболее подходящие биграммы. В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. Эксперименты показывают значительное улучшение качества тематических моделей по всем целевым метрикам
УДК004.852
Нокель, М.А. МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ / М.А. Нокель // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2014 .— №4 .— С. 86-94 .— URL: https://rucont.ru/efd/511943 (дата обращения: 20.04.2024)

Предпросмотр (выдержки из произведения)

УДК 004.852 МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ М. А. <...> В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. <...> Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. <...> Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. <...> В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. <...> First of all, we analyze a variety of word association measures in order to integrate top-ranked bigrams into topic models. <...> Then we propose a modification of the original algorithm PLSA, which takes into account similar unigrams and bigrams that start with the same beginning. <...> And at the end we present a novel unsupervised iterative algorithm demonstrating how topics can choose the most relevant bigrams. <...> Они определяют, к каким темам относится каждый документ в текстовой коллекции и какие слова образуют каждую такую тему. <...> При этом темы представляются в виде дискретных распределений на множестве слов, а документы – в виде дискретных распределений на множестве тем [1]. <...> Пользова© Нокель М. А., 2014 Работа частично 14-07-00383 поддержана грантом РФФИ телям темы предоставляются, как правило, в виде некоторых списков часто встречающихся рядом друг с другом слов, упорядоченных по убыванию степени принадлежности им. <...> Самыми известными представителями являются латентное размещение Дирихле (LDA) [1], использующее априорное распределение Дирихле, и метод вероятностного латентного семантического анализа (PLSA) [2], не связанный ни с какими параметрическими априорными распределениями. <...> ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, 2014, № 4 89 М. А. Нокель Одним из главных недостатков тематических моделей является использование модели «мешка слов», в которой каждый документ рассматривается как набор встречающихся в нем слов. <...> Данная модель не учитывает порядок <...>