Oracle для анализа и исследования Больших Данных © Ольга Горчинская, главный консультант по аналитическим технологиям Корпорация Oracle Москва olga.gorchinskaya@oracle.com Discovery. Аннотация Продукт Endeca Information Discovery Доклад посвящается инструментальной среде представляет собой платформу для исследования Oracle для совместного анализа и исследования структурированных, слабоструктурированных и структурированной, слабоструктурированной и неструктурированных данных из различных неструктурированной информации. меняющихся источников в условиях нечетких Стремительно развивающееся направление критериев поиска. Средства семантического анализа Больших Данных меняет концепцию аналитики – позволяют выявлять в неструктурированном тексте огромные объемы разнообразной, чаще всего понятия, связи, факты и другие релевантные неструктурированной информации требуют новых данные. Система может быть дополнена как подходов и технологий для эффективного ее собственными дополнительными модулями, использования. расширяющими функционал решения, так и Традиционный подход к бизнес-анализу данных, модулями сторонних производителей, основанный на идеях хранилища данных как обеспечивающих, например, улучшенную «единого источника истины», предполагает работу морфологическую поддержку и/или поддержку в рамках четко фиксированной модели данных, различных дополнительных иностранных языков. В гарантирует качество и непротиворечивость результате система предоставляет средства информации. В этом случае заранее известно, какие расширенного агрегирования и поиска информации, структуры данных содержатся в хранилище, и в сочетании с мощной аналитикой. анализ в основном сводится к выполнению В состав Endeca Information Discovery входят вычислительных процедур по агрегированию, следующие компоненты: детализации, фильтрации данных и визуализации результатов. Специфика Больших Данных связана не только с огромными объемами, но и с огромным разнообразием и изменчивостью, и это не позволяет ориентироваться на какую-либо заранее разработанную модель данных. В этом случае анализ данных должен сопровождаться многочисленными поисковыми операциями, в результате которых уточняется запрос на необходимую информацию. Такой подход к аналитике, при котором собственно аналитические операции интенсивно интегрируются с поисковыми, и нет модели данных в традиционном понимании, лежит в основе нового направления – Information Discovery или Исследование данных. Компания Oracle предлагает технологическую платформу для Oracle Endeca Server. Основой платформы исследования данных – Endeca Information является гибридная поисково- аналитическая база данных. В этой базе данных собирается информация из Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и различных структурированных и технологии, электронные коллекции» — RCDL-2012, неструктурированных источников и Переславль-Залесский, Россия, 15-18 октября 2012 г. хранится в виде универсальной фасетной модели, которая обеспечивает 65 максимальную гибкость при работе с  Oracle Endeca Content Management System изменяющимися источниками, не требует Connectors. Этот add-on модуль предварительной разработки семантической поддерживает интеграцию данных из модели и поддерживает эффективные различных систем управления контентом. средства поиска информации. Для Среди поддерживаемых хранилищ обеспечения высокой производительности документов -- EMC Documentum, EMC на аналитических запросах, в отличие от Documentum eRoom, FileNet P8, FileNet традиционных подходов реляционных баз Document & Image Services, Interwoven данных, используется колоночное хранение TeamSite, LotusNotes/Domino, Microsoft и высокоэффективная при таком способе SharePoint, OpenText LiveLink. хранения колоночная компрессия. MDEX хранит каждую колонку информации на  Oracle Endeca Text Enrichment. Модуль диске и в оперативной памяти с поддерживает возможности использованием двух индексов -- по полнотекстового поиска и анализа, включая значению и по ключу. Кроме того, каждая выявление сущностей – физических лиц, колонка имеет B-Tree индекс, который организаций, адресной информации, кэшируются в оперативной памяти. Такой автоматическое формирование аннотаций и подход обеспечивает высокую др. производительность, необходимую при работе в условиях изменяющихся нечетких  Oracle Endeca Text Enrichment with критериев поиска в сочетании с Sentiment Analysis. Этот add-on module аналитическими вычислениями. включает средства обогащения текстовых данных, а также предоставляет методы  Studio. Интерактивная, компонентно- углубленого анализа текста для извлечения ориентированная среда для быстрой эмоциональной окраски или оттенков. итеративной разработки и разворачивания Оттенки представляются в виде числовых приложений для исследования данных. В значений и могут относиться как ко всему рамках таких приложений пользователи тексту в целом, так и к конкретным получают удобные средства поиска и сущностям. Впоследствии эти значения исследования информации, используются в рамках фасетного поиска, ориентированные на решение конкретных объединяясь с другими данными. прикладных задач. В докладе обсуждаются возможности платформы  Integration Suite. Инструментальный Endeca Information Discovery, рассказывается об комплекс для загрузки структурированных, особенностях разработки на ее основе прикладных слабоструктурированных и систем исследования данных, а также обсуждаются неструктурированных данных в базу примеры использования этого продукта для данных Endeca Server. Инструмент решения практических задач. содержит (1) Content Acquisition System для сбора информации из файловых систем, систем управления контентом и веб-сайтов, Oracle Tools for Big data Analysis (2) Integrator, содержащий готовые ETL инструменты для интеграции и обогащения © Olga Gorchinskaya, Master Principal Sales данных и (3) открытый Web Services API Consultant, Business Analytics для задач прямой интеграции с другими Oracle Corporation средствами такими, как Oracle Data Integrator, Informatica PowerCenter и Hadoop. 66