63-74 УДК 633.491:004.65:[631.5+632.9 РАЗРАБОТКА МЕТОДОВ АВТОМАТИЧЕСКОГО ИЗВЛЕЧЕНИЯ ЗНАНИЙ ИЗ ТЕКСТОВ НАУЧНЫХ ПУБЛИКАЦИЙ ДЛЯ СОЗДАНИЯ БАЗЫ ЗНАНИЙ SOLANUM TUBEROSUM О.В. <...> ИВАНИСЕНКО1 В настоящее время в мире существуют сотни научных журналов, публикующих результаты исследований в различных областях биологии растений и агробиологии. <...> Сотни тысяч международных патентов содержат сведения по агробиотехнологии. <...> Число статей и патентов со временем растет в экспоненциальной прогрессии. <...> Например, изучению важнейшей сельскохозяйственной культуры Solanum tuberosum L. посвящено более 1,5 млн публикаций. <...> Анализ такого огромного количества экспериментальных фактов, представленных в текстовых источниках (научных публикациях и патентах), требует применения автоматизированных методов извлечения знаний (text-mining). <...> Интеллектуальные методы автоматического анализа текстов уже широко применяются в биологии и медицине для извлечения информации о свойствах и функции молекулярногенетических объектов. <...> Основанные на таких методах системы осуществляют экстракцию представленных в документах знаний, их интеграцию и представление в формализованном виде в соответствии с онтологией предметной области, и это отличает их от таких систем, как Google, Яндекс и др., где для поиска документов используются ключевые слова. <...> Среди известных систем интеллектуального извлечения знаний из научных публикаций можно выделить STRING, LMMA, ConReg, GeneMania и др. <...> Ранее впервые в России нами была разработана система интеллектуального извлечения знаний в области биомедицины ANDSystem, которая содержит более 10 млн фактов о молекулярно-генетических взаимодействиях для человека и животных из более чем 25 млн научных публикаций. <...> Для извлечения знаний в ANDSystem используются специальные семантико-лингвистические правила, позволяющие распознавать в естественноязыковых текстах взаимодействия между соответствующими объектами — белками, генами, метаболитами, лекарства, микроРНК <...>