Чувилин, аспирант Московского физико-технического института Гибридный алгоритм сравнения документов в формате LaTeX Многие научные конференции и издательства принимают материалы от авторов в формате, поддерживаемом редакционно-издательской системой LaTeX. <...> Зачастую тексты, присылаемые авторами, содержат значительное количество (десятки на страницу) таких ошибок, исправление которых, в случае приема материала к опубликованию, производится редакционными корректорами вручную, причем обработка одной страницы может занять до двух часов времени. <...> Корректор работает с системой, которая сама определяет в исходном тексте возможные места исправлений и предлагает вариант замены. <...> Файлы формата LaTeX обладают естественной древовидной структурой (синтаксическое дерево), исследуя которую, можно получить всю необходимую информацию для описания корректорской правки. <...> Выделяются следующие типы 56 Инструментальные средства Эффективные алгоритмы традиционным редакционноиздательским требованиям относятся такие аспекты подготовки материала, токенов1: тело окружения LaTeX, команда LaTeX, окружение LaTeX, метка, линейный размер, число, разделитель абзацев, путь к файлу, пробел, символ, параметры таблицы, слово, не распознаваемая последовательность символов (например, для окружения verbatim). <...> Синтаксическое дерево взаимно однозначно определяет документ LaTeX, поэтому правила замены, которые использует система автоматической коррекции, удобно формулировать именно для деревьев. <...> Правила замены можно задавать вручную, непосредственно на основе практического опыта корректоров. <...> Документы, не прошедшие корректуру, будем называть черновиками, прошедшие — чистовиками, а соответствующие синтаксические деревья — чистовыми и черновыми. <...> Однако практический 1 Документы в формате LaTeX представляют собой текстовые файлы с дополнительной разметкой, которая позволяет логически структурировать и форматировать текст и делается <...>