Сельскохозяйственная биология / №1 2017

РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM (150,00 руб.)

Первый автор	Сайк
Авторы	Деменков П.С., Иванисенко Т.В., Колчанов Н.А., Иванисенко В.А.
Страниц	12

150,00р

ID	579618
Аннотация	В настоящее время в мире существуют сотни научных журналов, публикующих результаты исследований в различных областях биологии растений и агробиологии. Сотни тысяч международных патентов содержат сведения по агробиотехнологии. Число статей и патентов со временем растет в экспоненциальной прогрессии. Например, изучению важнейшей сельскохозяйственной культуры Solanum tuberosum L. посвящено более 1,5 млн публикаций. Анализ такого огромного количества экспериментальных фактов, представленных в текстовых источниках (научных публикациях и патентах), требует применения автоматизированных методов извлечения знаний (text-mining). Интеллектуальные методы автоматического анализа текстов уже широко применяются в биологии и медицине для извлечения информации о свойствах и функции молекулярногенетических объектов. Основанные на таких методах системы осуществляют экстракцию представленных в документах знаний, их интеграцию и представление в формализованном виде в соответствии с онтологией предметной области, и это отличает их от таких систем, как Google, Яндекс и др., где для поиска документов используются ключевые слова. Среди известных систем интеллектуального извлечения знаний из научных публикаций можно выделить STRING, LMMA, ConReg, GeneMania и др. Ранее впервые в России нами была разработана система интеллектуального извлечения знаний в области биомедицины ANDSystem, которая содержит более 10 млн фактов о молекулярно-генетических взаимодействиях для человека и животных из более чем 25 млн научных публикаций. Для извлечения знаний в ANDSystem используются специальные семантико-лингвистические правила, позволяющие распознавать в естественноязыковых текстах взаимодействия между соответствующими объектами — белками, генами, метаболитами, лекарства, микроРНК, биологическими процессами, заболеваниями и др. Однако задача автоматизации извлечения знаний из текстов по биологии растений, агробиологии и агробиотехнологиям до сих пор не решена, несмотря на ее актуальность. Целью настоящей работы была адаптация методов, представленных в системе ANDSystem, для автоматического извлечения знаний по растениеводству и создание на этой основе базы знаний SOLANUM TUBEROSUM, содержащей информацию по генетике, маркерам, селекции, семеноводству, диагностике возбудителей заболеваний, средствам защиты и технологиям хранения картофеля. Онтология базы знаний включает данные словарей более чем по 20 типам объектов (молекулярно-генетические объекты — белки, гены, метаболиты, микроРНК, биологические процессы, биомаркеры и др.; сорта картофеля и их фенотипические признаки; болезни и вредители картофеля; биотические и абиотические факторы окружающей среды; агробиотехнологии возделывания, биотехнологии переработки и хранения картофеля и др.). Описание отношений между этими объектами, включая молекулярные, регуляторные и ассоциативные взаимодействия, содержит более 25 типов связей. Для извлечения информации о взаимодействиях в сумме создано более 5 тыс. семантических шаблонов. Значения точности и полноты извлечения знаний с помощью разработанных правил, оценка которых осуществлялась с привлечением экспертного ручного анализа выборок текстов, составили соответственно более 65 % и 70 %. На основе разработанных подходов предполагается создание полномасштабной версии базы знаний SOLANUM TUBEROSUM.
УДК	633.491:004.65:[631.5+632.9

РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM / О.В. Сайк [и др.] // Сельскохозяйственная биология .— 2017 .— №1 .— С. 65-76 .— URL: https://rucont.ru/efd/579618 (дата обращения: 20.09.2025)

Вы уже смотрели

Журнал медико-биологических исследований 16164,00 руб

Геология и геофизика №4 2022 1710,00 руб

Современные гуманитарные исследования 47460,00 руб

Предпросмотр (выдержки из произведения)

63-74 УДК 633.491:004.65:[631.5+632.9 РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM О.В. <...> ИВАНИСЕНКО1 В настоящее время в мире существуют сотни научных журналов, публикующих результаты исследований в различных областях биологии растений и агробиологии. <...> Сотни тысяч международных патентов содержат сведения по агробиотехнологии. <...> Число статей и патентов со временем растет в экспоненциальной прогрессии. <...> Например, изучению важнейшей сельскохозяйственной культуры Solanum tuberosum L. посвящено более 1,5 млн публикаций. <...> Анализ такого огромного количества экспериментальных фактов, представленных в текстовых источниках (научных публикациях и патентах), требует применения автоматизированных методов извлечения знаний (text-mining). <...> Интеллектуальные методы автоматического анализа текстов уже широко применяются в биологии и медицине для извлечения информации о свойствах и функции молекулярногенетических объектов. <...> Основанные на таких методах системы осуществляют экстракцию представленных в документах знаний, их интеграцию и представление в формализованном виде в соответствии с онтологией предметной области, и это отличает их от таких систем, как Google, Яндекс и др., где для поиска документов используются ключевые слова. <...> Среди известных систем интеллектуального извлечения знаний из научных публикаций можно выделить STRING, LMMA, ConReg, GeneMania и др. <...> Ранее впервые в России нами была разработана система интеллектуального извлечения знаний в области биомедицины ANDSystem, которая содержит более 10 млн фактов о молекулярно-генетических взаимодействиях для человека и животных из более чем 25 млн научных публикаций. <...> Для извлечения знаний в ANDSystem используются специальные семантико-лингвистические правила, позволяющие распознавать в естественноязыковых текстах взаимодействия между соответствующими объектами — белками, генами, метаболитами, лекарства, микроРНК <...>

Облако ключевых слов *

* - вычисляется автоматически


	Для выхода нажмите Esc или