Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека (ЭБС) на базе технологии Контекстум (всего произведений: 635043)
Контекстум
Руконтекст антиплагиат система
Сельскохозяйственная биология  / №1 2017

РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM (150,00 руб.)

0   0
Первый авторСайк
АвторыДеменков П.С., Иванисенко Т.В., Колчанов Н.А., Иванисенко В.А.
Страниц12
ID579618
АннотацияВ настоящее время в мире существуют сотни научных журналов, публикующих результаты исследований в различных областях биологии растений и агробиологии. Сотни тысяч международных патентов содержат сведения по агробиотехнологии. Число статей и патентов со временем растет в экспоненциальной прогрессии. Например, изучению важнейшей сельскохозяйственной культуры Solanum tuberosum L. посвящено более 1,5 млн публикаций. Анализ такого огромного количества экспериментальных фактов, представленных в текстовых источниках (научных публикациях и патентах), требует применения автоматизированных методов извлечения знаний (text-mining). Интеллектуальные методы автоматического анализа текстов уже широко применяются в биологии и медицине для извлечения информации о свойствах и функции молекулярногенетических объектов. Основанные на таких методах системы осуществляют экстракцию представленных в документах знаний, их интеграцию и представление в формализованном виде в соответствии с онтологией предметной области, и это отличает их от таких систем, как Google, Яндекс и др., где для поиска документов используются ключевые слова. Среди известных систем интеллектуального извлечения знаний из научных публикаций можно выделить STRING, LMMA, ConReg, GeneMania и др. Ранее впервые в России нами была разработана система интеллектуального извлечения знаний в области биомедицины ANDSystem, которая содержит более 10 млн фактов о молекулярно-генетических взаимодействиях для человека и животных из более чем 25 млн научных публикаций. Для извлечения знаний в ANDSystem используются специальные семантико-лингвистические правила, позволяющие распознавать в естественноязыковых текстах взаимодействия между соответствующими объектами — белками, генами, метаболитами, лекарства, микроРНК, биологическими процессами, заболеваниями и др. Однако задача автоматизации извлечения знаний из текстов по биологии растений, агробиологии и агробиотехнологиям до сих пор не решена, несмотря на ее актуальность. Целью настоящей работы была адаптация методов, представленных в системе ANDSystem, для автоматического извлечения знаний по растениеводству и создание на этой основе базы знаний SOLANUM TUBEROSUM, содержащей информацию по генетике, маркерам, селекции, семеноводству, диагностике возбудителей заболеваний, средствам защиты и технологиям хранения картофеля. Онтология базы знаний включает данные словарей более чем по 20 типам объектов (молекулярно-генетические объекты — белки, гены, метаболиты, микроРНК, биологические процессы, биомаркеры и др.; сорта картофеля и их фенотипические признаки; болезни и вредители картофеля; биотические и абиотические факторы окружающей среды; агробиотехнологии возделывания, биотехнологии переработки и хранения картофеля и др.). Описание отношений между этими объектами, включая молекулярные, регуляторные и ассоциативные взаимодействия, содержит более 25 типов связей. Для извлечения информации о взаимодействиях в сумме создано более 5 тыс. семантических шаблонов. Значения точности и полноты извлечения знаний с помощью разработанных правил, оценка которых осуществлялась с привлечением экспертного ручного анализа выборок текстов, составили соответственно более 65 % и 70 %. На основе разработанных подходов предполагается создание полномасштабной версии базы знаний SOLANUM TUBEROSUM.
УДК633.491:004.65:[631.5+632.9
РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM / О.В. Сайк [и др.] // Сельскохозяйственная биология .— 2017 .— №1 .— С. 65-76 .— URL: https://rucont.ru/efd/579618 (дата обращения: 04.05.2024)

Предпросмотр (выдержки из произведения)

63-74 УДК 633.491:004.65:[631.5+632.9 РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM О.В. <...> ИВАНИСЕНКО1 В настоящее время в мире существуют сотни научных журналов, публикующих результаты исследований в различных областях биологии растений и агробиологии. <...> Сотни тысяч международных патентов содержат сведения по агробиотехнологии. <...> Число статей и патентов со временем растет в экспоненциальной прогрессии. <...> Например, изучению важнейшей сельскохозяйственной культуры Solanum tuberosum L. посвящено более 1,5 млн публикаций. <...> Анализ такого огромного количества экспериментальных фактов, представленных в текстовых источниках (научных публикациях и патентах), требует применения автоматизированных методов извлечения знаний (text-mining). <...> Интеллектуальные методы автоматического анализа текстов уже широко применяются в биологии и медицине для извлечения информации о свойствах и функции молекулярногенетических объектов. <...> Основанные на таких методах системы осуществляют экстракцию представленных в документах знаний, их интеграцию и представление в формализованном виде в соответствии с онтологией предметной области, и это отличает их от таких систем, как Google, Яндекс и др., где для поиска документов используются ключевые слова. <...> Среди известных систем интеллектуального извлечения знаний из научных публикаций можно выделить STRING, LMMA, ConReg, GeneMania и др. <...> Ранее впервые в России нами была разработана система интеллектуального извлечения знаний в области биомедицины ANDSystem, которая содержит более 10 млн фактов о молекулярно-генетических взаимодействиях для человека и животных из более чем 25 млн научных публикаций. <...> Для извлечения знаний в ANDSystem используются специальные семантико-лингвистические правила, позволяющие распознавать в естественноязыковых текстах взаимодействия между соответствующими объектами — белками, генами, метаболитами, лекарства, микроРНК <...>