Аспирант и соискатель, № 1, 2017 Маслова Е.Ю., преподаватель Бойко Е.Г. (филиал Кубанского государственного университета в г. Новороссийске) ПРИМЕНЕНИЕ N-ГРАММ И ЦЕПЕЙ МАРКОВА В ПОСТРОЕНИИ ПОИСКОВЫХ СИСТЕМ Обзор используемых в поисковых системах поисковых моделей. <...> Цель работы Анализ используемых в поисковых системах моделей поиска вероятностей. <...> Поисковыми системами ежедневно пользуются миллионы людей (например, на главную страницу поисковой системы «Яндекс» ежедневно заходят 28 млн российский пользователей), ведь «поисковики» значительно упрощают доступ к необходимым ресурсам и предоставляют массу информации, исходя из запроса пользователя. <...> Но что позволяет поисковым системам давать максимально точные ответы на запросы пользователей и быстро ориентироваться в поражающем воображение объеме информации? <...> Языковые модели Так как вся информация в интернете содержит текст (или описание) на каком-то естественном языке, в основе работы поисковых систем используется языковая модель и методы подсчета вероятностей языковых событий. <...> Языковая модель – модель, которая на основе данных о языке приписывает вероятность фрагменту текста на этом языке, то есть иными словами максимизирует вероятность реальных текстов и минимизирует вероятность текстов нереальных. <...> В случае омонимии выбирает более вероятный вариант. <...> Работает языковая модель за счет подсчета вероятностей языковых событий (в лингвистике события считаются в корпусе), то есть частоты употребления того или иного словосочетания. <...> Пример: допустим в корпусе 80000 слов, но языковая модель должна найти вероятность того, выбранным словом будет «языковые» или «лингвистика». <...> Модель находит количество этих слов в корпусе, допустим 20, и делит на вес всего корпуса, получается 0,00025. <...> В качестве более сложного примера, стоит привести стохастическую языковую модель, которая применима при определении поисковиком языка запроса. <...> Для этого модель находит <...>