Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии / №4 2014

МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ (90,00 руб.)

Первый автор	Нокель
Страниц	9

90,00р

ID	511943
Аннотация	В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный алгоритм без учителя, показывающий, как темы сами могут выбирать себе наиболее подходящие биграммы. В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. Эксперименты показывают значительное улучшение качества тематических моделей по всем целевым метрикам
УДК	004.852

Нокель, М.А. МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ / М.А. Нокель // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии .— 2014 .— №4 .— С. 86-94 .— URL: https://rucont.ru/efd/511943 (дата обращения: 30.10.2025)

Вы уже смотрели

Штурмовые машины для Сухопутных войск 50,00 руб

Российская газета - Неделя. Сибирь №233(6804) 2015

Российская газета - Неделя. Сибирь №233(... 1,34 руб

Самоподготовка к выполнению нормативов испытаний по силовой гимнастике Всероссийского физкультурно-спортивного комплекса «Готов к труду и обороне» (ГТО)

Самоподготовка к выполнению нормативов и... 190,00 руб

Уравнения динамики лазера 190,00 руб

Российская газета - Неделя. Дальний Восток №223(8574) 2021

Российская газета - Неделя. Дальний Вост... 27,06 руб

Спорт-Экспресс №52 2003 20,00 руб

Предпросмотр (выдержки из произведения)

УДК 004.852 МЕТОД УЧЁТА СТРУКТУРЫ БИГРАММ В ТЕМАТИЧЕСКИХ МОДЕЛЯХ М. А. <...> В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. <...> Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. <...> Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. <...> В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. <...> First of all, we analyze a variety of word association measures in order to integrate top-ranked bigrams into topic models. <...> Then we propose a modification of the original algorithm PLSA, which takes into account similar unigrams and bigrams that start with the same beginning. <...> And at the end we present a novel unsupervised iterative algorithm demonstrating how topics can choose the most relevant bigrams. <...> Они определяют, к каким темам относится каждый документ в текстовой коллекции и какие слова образуют каждую такую тему. <...> При этом темы представляются в виде дискретных распределений на множестве слов, а документы – в виде дискретных распределений на множестве тем [1]. <...> Пользова© Нокель М. А., 2014 Работа частично 14-07-00383 поддержана грантом РФФИ телям темы предоставляются, как правило, в виде некоторых списков часто встречающихся рядом друг с другом слов, упорядоченных по убыванию степени принадлежности им. <...> Самыми известными представителями являются латентное размещение Дирихле (LDA) [1], использующее априорное распределение Дирихле, и метод вероятностного латентного семантического анализа (PLSA) [2], не связанный ни с какими параметрическими априорными распределениями. <...> ВЕСТНИК ВГУ, СЕРИЯ: СИСТЕМНЫЙ АНАЛИЗ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, 2014, № 4 89 М. А. Нокель Одним из главных недостатков тематических моделей является использование модели «мешка слов», в которой каждый документ рассматривается как набор встречающихся в нем слов. <...> Данная модель не учитывает порядок <...>

Облако ключевых слов *

* - вычисляется автоматически


	Для выхода нажмите Esc или