=Paper= {{Paper |id=None |storemode=property |title=Oracle для анализа и исследования Больших Данных (Oracle Technologies for Analysis and Study of Big Data) |pdfUrl=https://ceur-ws.org/Vol-934/paper11.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/Gorchinskaja12 }} ==Oracle для анализа и исследования Больших Данных (Oracle Technologies for Analysis and Study of Big Data) == https://ceur-ws.org/Vol-934/paper11.pdf
                    Oracle для анализа и исследования
                             Больших Данных

         © Ольга Горчинская, главный консультант по аналитическим технологиям
                                    Корпорация Oracle
                                         Москва
                              olga.gorchinskaya@oracle.com

                                                           Discovery.
                  Аннотация
                                                               Продукт     Endeca    Information    Discovery
   Доклад посвящается инструментальной среде               представляет собой платформу для исследования
Oracle для совместного анализа и исследования              структурированных, слабоструктурированных и
структурированной, слабоструктурированной и                неструктурированных данных из различных
неструктурированной информации.                            меняющихся источников в условиях нечетких
   Стремительно     развивающееся     направление          критериев поиска. Средства семантического анализа
Больших Данных меняет концепцию аналитики –                позволяют выявлять в неструктурированном тексте
огромные объемы разнообразной, чаще всего                  понятия, связи, факты и другие релевантные
неструктурированной информации требуют новых               данные. Система может быть дополнена как
подходов и технологий для эффективного ее                  собственными      дополнительными       модулями,
использования.                                             расширяющими функционал решения, так и
   Традиционный подход к бизнес-анализу данных,            модулями         сторонних         производителей,
основанный на идеях хранилища данных как                   обеспечивающих,        например,      улучшенную
«единого источника истины», предполагает работу            морфологическую поддержку и/или поддержку
в рамках четко фиксированной модели данных,                различных дополнительных иностранных языков. В
гарантирует качество и непротиворечивость                  результате    система    предоставляет    средства
информации. В этом случае заранее известно, какие          расширенного агрегирования и поиска информации,
структуры данных содержатся в хранилище, и                 в сочетании с мощной аналитикой.
анализ в основном сводится к выполнению                        В состав Endeca Information Discovery входят
вычислительных процедур по агрегированию,                  следующие компоненты:
детализации, фильтрации данных и визуализации
результатов. Специфика Больших Данных связана
не только с огромными объемами, но и с огромным
разнообразием и изменчивостью, и это не позволяет
ориентироваться     на     какую-либо     заранее
разработанную модель данных. В этом случае
анализ     данных      должен      сопровождаться
многочисленными поисковыми операциями, в
результате которых       уточняется запрос на
необходимую информацию. Такой подход к
аналитике, при котором собственно аналитические
операции интенсивно интегрируются с поисковыми,
и нет модели данных в традиционном понимании,
лежит в основе нового направления – Information
Discovery или Исследование данных. Компания
Oracle предлагает технологическую платформу для               Oracle Endeca Server. Основой платформы
исследования данных – Endeca Information                         является       гибридная        поисково-
                                                                 аналитическая база данных. В этой базе
                                                                 данных    собирается    информация     из
Труды 14-й Всероссийской научной конференции
«Электронные библиотеки: перспективные методы и                  различных       структурированных       и
технологии, электронные коллекции» — RCDL-2012,                  неструктурированных      источников     и
Переславль-Залесский, Россия, 15-18 октября 2012 г.              хранится в виде универсальной фасетной
                                                                 модели,       которая        обеспечивает




                                                      65
    максимальную гибкость при работе с                       Oracle Endeca Content Management System
    изменяющимися источниками, не требует                      Connectors.     Этот     add-on   модуль
    предварительной разработки семантической                   поддерживает интеграцию данных из
    модели и поддерживает эффективные                          различных систем управления контентом.
    средства    поиска    информации.    Для                   Среди       поддерживаемых      хранилищ
    обеспечения высокой производительности                     документов -- EMC Documentum, EMC
    на аналитических запросах, в отличие от                    Documentum eRoom, FileNet P8, FileNet
    традиционных подходов реляционных баз                      Document & Image Services, Interwoven
    данных, используется колоночное хранение                   TeamSite, LotusNotes/Domino, Microsoft
    и высокоэффективная при таком способе                      SharePoint, OpenText LiveLink.
    хранения колоночная компрессия. MDEX
    хранит каждую колонку информации на                      Oracle Endeca Text Enrichment. Модуль
    диске и в оперативной памяти с                             поддерживает                 возможности
    использованием двух индексов -- по                         полнотекстового поиска и анализа, включая
    значению и по ключу. Кроме того, каждая                    выявление сущностей – физических лиц,
    колонка имеет B-Tree индекс, который                       организаций,    адресной     информации,
    кэшируются в оперативной памяти. Такой                     автоматическое формирование аннотаций и
    подход        обеспечивает       высокую                   др.
    производительность, необходимую при
    работе в условиях изменяющихся нечетких                  Oracle Endeca Text Enrichment with
    критериев    поиска    в   сочетании   с                   Sentiment Analysis. Этот add-on module
    аналитическими вычислениями.                               включает средства обогащения текстовых
                                                               данных, а также предоставляет методы
 Studio.    Интерактивная,    компонентно-                    углубленого анализа текста для извлечения
    ориентированная среда для быстрой                          эмоциональной окраски или оттенков.
    итеративной разработки и разворачивания                    Оттенки представляются в виде числовых
    приложений для исследования данных. В                      значений и могут относиться как ко всему
    рамках таких приложений пользователи                       тексту в целом, так и к конкретным
    получают удобные средства поиска и                         сущностям. Впоследствии эти значения
    исследования                информации,                    используются в рамках фасетного поиска,
    ориентированные на решение конкретных                      объединяясь с другими данными.
    прикладных задач.
                                                            В докладе обсуждаются возможности платформы
 Integration       Suite.     Инструментальный          Endeca Information Discovery, рассказывается об
    комплекс для загрузки структурированных,             особенностях разработки на ее основе прикладных
    слабоструктурированных                      и        систем исследования данных, а также обсуждаются
    неструктурированных данных в базу                    примеры использования этого продукта для
    данных       Endeca     Server.  Инструмент          решения практических задач.
    содержит (1) Content Acquisition System для
    сбора информации из файловых систем,
    систем управления контентом и веб-сайтов,               Oracle Tools for Big data Analysis
    (2) Integrator, содержащий готовые ETL
    инструменты для интеграции и обогащения              © Olga Gorchinskaya, Master Principal Sales
    данных и (3) открытый Web Services API                     Consultant, Business Analytics
    для задач прямой интеграции с другими
                                                                    Oracle Corporation
    средствами такими, как Oracle Data
    Integrator, Informatica PowerCenter и Hadoop.




                                                    66