Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 634699)
Контекстум
.
Информационно-управляющие системы  / №6 2016

ТЕМАТИЧЕСКАЯ МОДЕЛЬ С БЕСКОНЕЧНЫМ СЛОВАРЕМ (160,00 руб.)

0   0
Первый авторКарпович С. Н.
Страниц7
ID559814
АннотацияПостановка проблемы: в связи с постоянным ростом Интернета, увеличением количества новостей, сообщений в электронной почте, постов в блогах растет потребность в алгоритмах для автоматического анализа текстовых данных. Одним из перспективных направлений машинного обучения и анализа текстов на естественном языке являются алгоритмы тематического моделирования. Большинство методов тематического моделирования рассматривают данные в статичном виде, с конечным словарем, но на практике необходимы методы, позволяющие работать с пополняемым словарем. Каждый год появляются новые слова, какие-то слова выходят из обихода, поэтому вопрос пополнения словаря особенно актуален для онлайн тематических моделей. Цель: разработка подхода определения тематического вектора нового слова с использованием произведения Адамара тематических векторов документов, где это слово встретилось, который будет альтернативным подходу с использованием распределения Дирихле или процесса Дирихле. Результаты: исследования показали, что сумма векторов тем документов, где встретилось новое слово, дает неверное представление о тематической принадлежности нового слова. При этом для определения тематики нового слова по тематикам документов, где это слово встретилось, эффективнее использовать произведение Адамара. В результате перемножения векторов тем документов получаем тематический вектор нового слова с наибольшими значениями вероятностей у нескольких тематик, значение слабо выраженных тематик либо стремится к нулю, либо обнуляется. Практическая значимость: использование предложенного алгоритма позволяет бесконечно увеличивать словарь онлайн тематической модели, а следовательно, учитывать новые и старые слова.
Карпович, С.Н. ТЕМАТИЧЕСКАЯ МОДЕЛЬ С БЕСКОНЕЧНЫМ СЛОВАРЕМ / С.Н. Карпович // Информационно-управляющие системы .— 2016 .— №6 .— URL: https://rucont.ru/efd/559814 (дата обращения: 25.04.2024)

Предпросмотр (выдержки из произведения)

Карповича, 1, руководитель направления поисковой оптимизации аRambler&Co интернет холдинг, Москва, РФ в электронной почте, постов в блогах растет потребность в алгоритмах для автоматического анализа текстовых данных. <...> Одним из перспективных направлений машинного обучения и анализа текстов на естественном языке являются алгоритмы тематического моделирования. <...> Большинство методов тематического моделирования рассматривают данные в статичном виде, с конечным словарем, но на практике необходимы методы, позволяющие работать с пополняемым словарем. <...> Каждый год появляются новые слова, какие-то слова выходят из обихода, поэтому вопрос пополнения словаря особенно актуален для онлайн тематических моделей. <...> Цель: разработка подхода определения тематического вектора нового слова с использованием произведения Адамара тематических векторов документов, где это слово встретилось, который будет альтернативным подходу с использованием распределения Дирихле или процесса Дирихле. <...> Результаты: исследования показали, что сумма векторов тем документов, где встретилось новое слово, дает неверное представление о тематической принадлежности нового слова. <...> При этом для определения тематики нового слова по тематикам документов, где это слово встретилось, эффективнее использовать произведение Адамара. <...> В результате перемножения векторов тем документов получаем тематический вектор нового слова с наибольшими значениями вероятностей у нескольких тематик, значение слабо выраженных тематик либо стремится к нулю, либо обнуляется. <...> Практическая значимость: использование предложенного алгоритма позволяет бесконечно увеличивать словарь онлайн тематической модели, а следовательно, учитывать новые и старые слова. <...> Ключевые слова — тематическое моделирование, обработка текста на естественном языке, машинное обучение. <...> Введение Тематическое моделирование — одно из современных направлений машинного обучения при анализе <...>