Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 558901)
Консорциум Контекстум Информационная технология сбора цифрового контента
Уважаемые СТУДЕНТЫ и СОТРУДНИКИ ВУЗов, использующие нашу ЭБС. Рекомендуем использовать новую версию сайта.

Моделирование в корпусной лингвистике: специализированные корпусы русского языка (300,00 руб.)

0   0
АвторыЗахаров Виктор Павлович, Азарова Ирина Владимировна, Митрофанова Ольга Александровна, Попов Андрей Михайлович, Хохлова Мария Владимировна, Захаров В. П.
ИздательствоСПб.: Изд-во С.‑Петерб. ун-та
Страниц208
ID715459
АннотацияМонография содержит описание средств и методов, принципов и процедур создания корпусов языков для специальных целей, в том числе для исследования языка и решения практических лексикографических, учебных и других задач. В книге рассмотрены основные параметры специальных корпусов текста, возможности их варьирования и взаимосвязь с типами лингвистических задач. Проведен анализ существующих стандартов корпусной лингвистики, разработаны программные средства морфологической разметки.
Кому рекомендованоКнига предназначена для специалистов по корпусной лингвистике, а также для лингвистов, использующих корпусы в своей работе. Может стать подспорьем в преподавании дисциплин, относящихся к автоматизированной обработке текста.
ISBN978-5-288-05902-5
УДК81'33
ББК81.1
Моделирование в корпусной лингвистике: специализированные корпусы русского языка [Электронный ресурс] : [монография] / В.П. Захаров, И.В. Азарова, О.А. Митрофанова, А.М. Попов, М.В. Хохлова, ред.: В.П. Захаров .— СПб. : Изд-во С.‑Петерб. ун-та, 2019 .— 208 с. — Библиогр.: с. 141-147 .— ISBN 978-5-288-05902-5 .— Режим доступа: https://rucont.ru/efd/715459

Предпросмотр (выдержки из произведения)

Моделирование__в__корпусной__лингвистике__специализированные__корпусы__русского__языка.pdf
ББКУДК 81-33 81.1 М74 Рецензен т ы: д-р филол. наук C. А. Кузнецов, (С.-Петерб. гос. ун-т); д-р техн. наук А. А. Карпов (С.-Петерб. ин-т информат. и автоматиз. РАН) Санкт-Петербургского государственного университета Рекомендовано к публикации научной комиссией в области наук о языках и литературе М74 р Моделирование в корпусной лингвистике: специализиованные корпусы русского языка / В. П. Захаров, И. В. Азарова, О. А. Митрофанова, А. М. Попов, М. В. Хохлова; отв. ред. В. П. Захаров. — СПб.: Изд-во С.-Петерб. ун-та, 2019. — 208 с. ISBN 978-5-288-05902-5 Монография содержит описание средств и методов, принципов и проицедур создания корпусов языков для специальных целей, в том числе для гих задач. В книге рассмотрены основные параметры специальпных корпусов текста, возможности их варьирования и взаимосвязь с тичорпусной лингвистики, разработаны программные средства морфологиеской разметки. Книга предназначена для специалистов по корпусной лингвистике, ованной обработке текста. с а также для лингвистов, использующих корпусы в своей работе. Может ртать подспорьем в преподавании дисциплин, относящихся к автоматизиУДК 81-33 ББК 81.1 русского языка» в рамках мероприятия «Проведение фундаментальных научных исследований по приоритетным направлениям Программы развития СПбГУ» кРабота выполнена по проекту «Модель программно-лингвистического омплекса для создания и использования специализированных корпусов ных и друсследования языка и решения практических лексикографических, учебками лингвистических задач. Проведен анализ существующих стандартов ISBN 978-5-288-05902-5 © Санкт-Петербургский государственный университет, 2019 © Авторы, 2019
Стр.2
ОГЛАВЛЕНИЕ Предисловие ................................................................................................... Введение ......................................................................................................... Глава 1. КОРПУСЫ СПЕЦИАЛЬНЫХ ТЕКСТОВ ............................ 1.1. Понятие «язык для специальных целей» и «специальный текст» .......................................................... 1.2. Создание специальных корпусов как многокритериальная теоретическая задача ............. 1.3. Варьирование объема и баланс корпуса .......................... 1.4. Варьирование тематических и жанровых характеристик корпуса.......................................................... 1.5. Структура и текстовые единицы корпуса ........................ 1.6. Специальная обработка текстов корпуса ......................... 1.7. Разметка текстов корпуса ..................................................... Глава 2. СЕРВИС КОРПУСНОГО МЕНЕДЖЕРА ............................ 2.1. Функции корпусных менеджеров....................................... 2.2. Выбор корпусного менеджера ............................................. Глава 3. ВАРЬИРОВАНИЕ ОСНОВНЫХ ПАРАМЕТРОВ ПРИМЕНИТЕЛЬНО К РАЗЛИЧНЫМ ТИПАМ СПЕЦИАЛЬНЫХ КОРПУСОВ ............................ 3.1. Корпус терминологических текстов ................................. 3.2. Корпус современных текстов для использования в качестве фонового .............................................................. 7 9 11 11 12 12 15 15 16 18 19 19 23 28 28 31 3
Стр.3
Оглавление Глава 4. РАЗМЕТКА КОРПУСОВ .......................................................... 4.1. Стандартизация в корпусной лингвистике ..................... 4.2. Международные стандарты корпусной лингвистики ... 4.3. Разработка наборов метаданных ........................................ 4.4. Рекомендации проекта Text Encoding Initiative .............. 4.5. Структура текста TEI............................................................. 4.6. Рекомендации TEI по созданию языковых корпусов .... Глава 5. ФОРМАТЫ ЛИНГВИСТИЧЕСКОЙ РАЗМЕТКИ ............. 5.1. Лингвистическая разметка .................................................. 5.2. Форматные средства разметки ............................................ 5.3. Металингвистичеcкое наполнение форматов ................. Глава 6. ОПТИМИЗАЦИЯ ПАРАМЕТРОВ МОРФОСИНТАКСИЧЕСКОЙ АННОТАЦИИ ................ 6.1. Система грамматических классов и подклассов слов в русском языке ................................... 6.2. Оптимизация синтаксической аннотации в корпусах текстов ....................................................................................... 6.3. Соотношение значений параметров морфологической и синтаксической аннотации .............................................. Глава 7. ПРОГРАММНЫЕ СРЕДСТВА МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ ................................... 7.1. Принцип работы систем морфологического анализа, основанных на правилах ...................................................... 7.2. Реализация компьютерной морфологии для русского языка ................................................................. 7.3. Разработка конверторов форматов .................................... 33 33 34 35 36 37 38 48 48 48 62 76 76 82 84 86 86 87 89 Глава 8. СОЗДАНИЕ СПЕЦИАЛЬНЫХ КОРПУСОВ ТЕКСТОВ ..................................................................................... 100 8.1. Проектирование и технологический процесс создания корпуса ...................................................................................... 100 8.2. Установка системы NoSketch Engine .................................. 102 8.3. Загрузка корпусов в систему NoSketch Engine ................ 105 4
Стр.4
Оглавление 8.4. Выбор тематических подобластей и отбор текстов ....... 107 8.5. Подготовка данных для корпусов специальных текстов ....................................................................................... 109 8.6. Альтернативные способы создания корпусов ................ 111 Глава 9. СОЗДАНИЕ ФОРМАЛЬНОЙ МОДЕЛИ ВЫДЕЛЕНИЯ ТЕРМИНОВ И ТЕРМИНОЛОГИЧЕСКИХ СЛОВОСОЧЕТАНИЙ ИЗ КОРПУСОВ ............................... 113 9.1. Термины и специальные тексты ......................................... 113 9.2. Методы выделения прототипов терминов в корпусах специальных текстов ............................................................. 114 Глава 10. АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ СЛОВ И СЛОВОСОЧЕТАНИЙ В КОРПУСАХ СПЕЦИАЛЬНЫХ ТЕКСТОВ .................................................. 119 10.1. Постановка задачи ................................................................. 119 10.2. Основные результаты автоматической обработки корпусов специальных текстов ........................................... 120 Глава 11. ЭКСПЕРИМЕНТЫ ПО АВТОМАТИЧЕСКОМУ ВЫЯВЛЕНИЮ ТЕРМИНОЛОГИЧЕСКИХ СЛОВОСОЧЕТАНИЙ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКИХ МЕТОДОВ И СРАВНИТЕЛЬНОГО КОРПУСА....................................... 124 11.1. Терминологическая грамматика в Sketch Engine ............ 125 11.2. Эксперименты и их оценка ................................................. 129 Глава 12. СОЗДАНИЕ ПОДКОРПУСА С СЕМАНТИЧЕСКОЙ РАЗМЕТКОЙ НА БАЗЕ ДАННЫХ НКРЯ ДЛЯ ПРОВЕДЕНИЯ ПРОЦЕДУРЫ АВТОМАТИЧЕСКОГО ВЫДЕЛЕНИЯ КОНСТРУКЦИЙ ........................................... 135 Заключение ...................................................................................................... 139 Литература ....................................................................................................... 141 References ......................................................................................................... 148 Приложение 1. Глоссарий............................................................................. 156 Приложение 2. Список словосочетаний по теме «терроризм», выделенных по текстам сайтов северокавказских сепаратистов ................................................................................ 167 5
Стр.5
Оглавление Приложение 3. Список словосочетаний по теме «терроризм», выделенных по текстам официальной печати ..................... 175 Приложение 4. Корпус по энергетике в вертикальном формате (фрагмент) .................................................................................... 184 Приложение 5. Грамматика лексико-синтаксических шаблонов для русского языка ..................................................................... 192 Приложение 6. Термины и терминологические сочетания, выделенные автоматически из корпуса по энергетике ............................................................................... 197 6
Стр.6
CONTENT Foreword ......................................................................................................... Introduction ...................................................................................................... Chapter 1. SPECIAL CORPORA .............................................................. 1.1. Special texts and their specific language ................................ 1.2. Construction of special corpora as theoretical challenge ... 1.3. The corpus balance and variability of the corpus size .......... 1.4. Versatility of thematic and stylistic characteristics .............. 1.5. Structural and textual components of a corpus .................... 1.6. Processing pipeline of corpus texts......................................... 1.7. Annotation of corpus texts ...................................................... Chapter 2. CORPUS MANAGER ............................................................. 2.1. Functions of a corpus manager ............................................... 2.2. The choice of a particular corpus manager ........................... Chapter 3. VARIATION OF BASIC PARAMETERS WITH REGARD TO DIFFERENT TYPES OF CORPUS MANAGER FOR SPECIAL CORPORA ............................................................... 3.1. Terminological corpus ............................................................. 3.2. The corpus of modern Russian text used as a statistic background ................................................................................ Chapter 4. ANNOTATION OF CORPUS TEXTS .................................. 4.1. Standards of corpus linguistics ............................................... 4.2. International standards of corpus linguistics ........................ 7 9 11 11 12 12 15 15 16 18 19 19 23 28 28 31 33 33 34 205
Стр.205
Content 4.3. Development of metadata ........................................................ 4.4. Text Encoding Initiative recommendations .......................... 4.5. The text structure in TEI .......................................................... 4.6. TEI recommendations for corpus construction ................... Chapter 5. LINGUISTIC ANNOTATION FORMATS ......................... 5.1. Linguistic annotation ............................................................... 5.2. Formal annotation technique .................................................. 5.3. Metalinguistic content of formats ........................................... Chapter 6. OPTIMIZATION OF MORPHOSYNTACTIC ANNOTATION PARAMETERS ........................................... 6.1. The structure of Russian grammatical classes and subclasses ............................................................................ 6.2. Optimization of syntactic annotation in corpora ................. 6.3. The balance of values in morphologic and syntactic annotation parameters ............................................................. Chapter 7. THE SOFTWARE FOR MORPHOLOGIC ANNOTATION ......................................................................... 7.1. Operation principles of a rule-based morphological analyser ...................................................................................... 7.2. Implementation of Russian computer morphology ............. 7.3. Development of formats convertors ....................................... 35 36 37 38 48 48 48 62 76 76 82 84 86 86 87 89 Chapter 8. SPECIAL CORPORA CREATION ........................................ 100 8.1. Project design and corpus creation procedures .................... 100 8.2. Installation of the NoSketch Engine system .......................... 102 8.3. Loading corpus data in the NoSketch Engine system .......... 105 8.4. The choice of topic domains and text selection .................... 107 8.5. Special corpora preparation .................................................... 109 8.6. Alternative techniques for corpus construction ................... 111 206
Стр.206
Content Chapter 9. FORMALIZED MODEL FOR TERM AND TERM-LIKE ELEMENTS EXTRACTION FROM CORPORA .............. 113 9.1. Terms and special texts ........................................................... 113 9.2. The technique for extraction of term candidates from special corpus texts .................................................................. 114 Chapter 10. AUTOMATIC EXTRACTION OF KEYWORDS FROM SPECIAL CORPUS TEXTS ................................................... 119 10.1. Problem statement ................................................................... 119 10.2. Main findings of automatic processing of special corpora 120 Chapter 11. EXPERIMENTS ON AUTOMATIC EXTRACTION OF TERMINOLOGICAL COLLOCATIONS BY STATISTICAL METHODS FROM A COMPARABLE CORPUS ................................................................................... 124 11.1. The terminological grammar in the Sketch Engine ............ 125 11.2. Extraction experiments and their evaluation ...................... 129 Chapter 12. SEMANTICALLY ANNOTATED SUBCORPUS CREATION ON THE BASE OF THE RUSSIAN NATIONAL CORPUS FOR AUTOMATIC EXTRACTION OF CONSTRUCTIONS ............................ 135 Conclusion ........................................................................................................ 139 References ......................................................................................................... 141 Appendix 1. Glossary .................................................................................... 156 Appendix 2. The list of collocations connected with a topic “terrorism” extracted from texts of the North Caucasian separatist group sites ................................................................................. 167 Appendix 3. The list of collocations connected with a topic “terrorism” extracted from texts of official press sites ............................. 175 Appendix 4. The corpus on energetics in a vertical format (the fragment) .......................................................................... 184 Appendix 5. The grammar of Russian lexico-syntactic patterns ............. 192 Appendix 6. Terms and term collocations automatically extracted from the corpus on energetics ............................................... 198 207
Стр.207

Облако ключевых слов *


* - вычисляется автоматически