24—27 Тема номера 2841 Как укротить Большие Данные в банке Андрей Пивоваров Руководитель группы перспективных технологий предпроектного консалтинга Oracle СНГ очень популярна тема Больших Дан ных. <...> Проводятся конференции, пуб ликуются статьи и книги, где расска зывается, почему Большие Данные важны и как их можно было бы ис пользовать. <...> При этом реальных при меров использования Big Data в российских банках пока немного. <...> П Не так давно в одном из крупней ших российских банков столкнулись с типичной проблемой из области Больших Данных — обработкой большого объема полуструктуриро ванных данных. <...> Суть задачи была следующей: у банка есть некий «чер ный ящик», который постоянно гене рирует файлы объемом до несколь оследние несколько лет ких сотен мегабайт каждый. <...> Это тек стовые файлы без единого переноса строки (поля, разделенные по фик сированному смещению). <...> В среднем приблизительно 700 полей на одну запись. <...> Слово «приблизительно» по явилось не случайно: так как формат данных постоянно меняется, колонка может быть разделена на две, может добавиться новая (как в конец, так и в середину). <...> Из этих 700 метрик есть около 30 самых важных, которые ре шено было загружать в реляционную СУБД для обеспечения к ним посто янного доступа и анализа. <...> Но факт, что 30 колонок — самые важные, не означает, что остальные несколько сотен никому не нужны. <...> Более того, доступ к ним может понадобиться в совершенное произвольное время и даже спустя несколько лет. <...> Объемы данных, постоянно меня ющаяся структура и необходимость иметь информацию в постоянном доступе для анализа приводят к то му, что использование здесь тради ционных СУБД с жесткой структурой данных существенно затруднено. <...> И действительно, сначала заказчик начал проект, используя «стандарт ные» технологии и ежедневно стал киваясь с все новыми и новыми про блемами. <...> Отдель ной проблемой была их масштаби руемость при обработке больших объемов <...>