М.А.Шкроб На уроках литературы этот вопрос не раз ставил в тупик юных любителей точных наук. <...> И если разумному существу не всегда под силу уловить смысл текста, то как нелегко, должно быть, обучить этому машину. <...> А между тем непостижимое количество сведений хранится именно в текстовой форме: от научных статей до больничных карт, от патентов до записей в блогах, — погребенная в бумажной и цифровой форме информация ждет своего автоматического читателя. <...> Совершенно очевидно, что всех книг не прочитать, всех языков не выучить, всех фактов не узнать. <...> Одних только статей биологического и медицинского профиля опубликовано свыше 24 миллионов, мы же не ждем, что ученые их все прочитают? <...> Но представим теперь такую ситуацию: во время испытаний нового лекарства для похудения пациенты впадают в мрачнейшее отчаяние, несколько человек пытаются покончить жизнь самоубийством, кто-то, увы, успешно. <...> Когда речь идет о человеческих жизнях, мы уже не просто хотим, мы требуем, чтобы все такие показания были найдены, прочитаны и приняты к сведению! <...> Сократить этот разрыв, помочь выжать максимум из биологических данных, будь то числа, изображения или текст, — одна из задач биоинформатики. <...> Направление, которое в качестве данных использует текст, называется компьютерной обработкой естественного языка. <...> Так, многие компьютерные лингвисты оттачивают свои подходы на сообщениях в Twitter — социальной сети, которая не позволяет писать сообщения длиннее 140 символов. <...> Но мы обратимся именно к текстам биологической и медицинской тематики. <...> 34 Язык естественный научный Говорить о компьютерной обработке естественного языка применительно к биологическим и медицинским текстам можно только с долей иронии: естественным такой язык назвать сложно. <...> Вот типичные примеры текстов, которые пишут биологи и медики: — научные статьи (стиль наукообразный); — патенты (нарочито неестественный язык); — больничные карты пациентов (вообще не нуждается <...>