Опыт создания и поддержки полнотекстовых баз данных неопубликованных документов © Авдеева Н.В. Российская государственная библиотека avdeeva@rsl.ru Аннотация существующие на правах рукописи: отчеты о научно- исследовательских работах, диссертации, описания Статья посвящена вопросам создания и алгоритмов и программ, проекты, сметы, не рассчи- поддержки российских полнотекстовых баз танные на широкое распространение. К неопубли- данных неопубликованных документов, а кованным документам относятся депонированные также предоставления доступа к ним. рукописи. Определены основные типы неопубликован- Непубликуемые документы – рукописные материа- ных документов. Рассмотрены правовые и лы сугубо личного характера (письма, дневники и др.), технологические аспекты создания и не предназначенные для публикации, которые со развития полнотекстовых баз данных по временем могут быть опубликованы [2,9]. таким типам неопубликованных докумен- В связи с научной потребностью в различных тов, как диссертации, депонированные российских организациях стали формироваться рукописи и научно-исследовательские, полнотекстовые базы данных неопубликованных опытно-конструкторские и технологические документов. Но до сих пор решены не все организаци- работы (НИОКР). онные и правовые задачи создания, обработки и использования полнотекстовых баз данных неопубли- кованных документов, что привело к необходимости Важнейшим источником научной информации обобщить накопленный опыт, упорядочить исполь- является документ (от латинского слова documentum – зование основных терминов документоведения в свидетельство) – информация, зафиксированная данной сфере деятельности, а также обозначить специальным образом на материальном носителе, принципиальные правовые и технологические снабженная реквизитами, позволяющими идентифи- аспекты подобных проектов. Ниже приведен обзор цировать документ в процессе его обработки, поиска, крупнейших российских полнотекстовых баз данных использования и хранения. В широком смысле неопубликованных документов. документ служит средством закрепления и передачи информации, знаний, духовных и материальных Диссертации достижений человеческого общества. Документ Диссертация – (от лат. dissertatio – рассуждение, является результатом и предметом духовной и исследование) – квалификационная работа на материальной культуры. присуждение учёной степени. В России различают По социальному статусу документы подразделя- диссертации на соискание учёной степени канди- ются на опубликованные, неопубликованные и дата наук и доктора наук. Требования к содержанию непубликуемые документы. диссертации различаются в зависимости от учёной Опубликованные документы – это документы, степени, на которую претендует соискатель, и от прошедшие редакционно-издательскую обработку: научного направления. Общими требованиями книги, брошюры, монографии, сборники, тезисы являются оригинальность, научная новизна и докладов, периодические и продолжающиеся издания, практическая значимость работы. [12]. патенты и авторские свидетельства, препринты, Российская государственная библиотека (РГБ) стандарты, нормативно-технические документы, располагает уникальным фондом подлинников кан- прейскуранты, каталоги, авторефераты диссертаций, дидатских и докторских диссертаций, защищенных рекламные издания. Они предназначены для широкого в стране по всем специальностям, кроме медицины распространения и тиражируются типографским или и фармации (национальным хранилищем диссер- каким-либо иным способом. таций по этим направлениям является Центральная Неопубликованные документы – это документы, не научная медицинская библиотека Первого МГМУ прошедшие редакционно-издательскую обработку и 239 им. И.М. Сеченова (ЦНМБ) Министерства здраво- ные читальные залы РГБ (ВЧЗ РГБ), на территории охранения и социального развития Российской которых доступ к текстам работ возможен с Федерации). В соответствии с приказом Всесоюз- использованием специализированного программ- ного комитета по делам Высшей школы СНК СССР ного обеспечения, созданного во исполнение Части все авторы диссертаций должны были сдавать четвертой Гражданского кодекса Российской обязательную копию своих диссертации и авторефе- Федерации, вступившей в силу с 1 января 2008 года, рата в фонд РГБ. В настоящее время фонд где указано: «В случае, когда библиотека предо- диссертационных работ находится в филиале РГБ в ставляет экземпляры произведений, правомерно отделе диссертаций г. Химки и составляет более введенные в гражданский оборот, во временное миллиона томов. безвозмездное пользование, такое пользование Для решения основных проблем: сохранения допускается без согласия автора или иного право- такого огромного фонда, а главное – обеспечения обладателя и без выплаты вознаграждения. При доступа к нему одновременно большого количества этом выраженные в цифровой форме экземпляры читателей, – с 2001 года РГБ было принято решение произведений, предоставляемые библиотеками во о создании Электронной библиотеки диссертаций временное безвозмездное пользование, в том числе Российской государственной библиотеки (ЭБД РГБ) в порядке взаимного использования библиотечных на основе современных информационных ресурсов, могут предоставляться только в помеще- технологий. В 2003 году был оцифрован стартовый ниях библиотек при условии исключения возмож- пакет диссертаций по наиболее востребованным ности создать копии этих произведений в цифровой специальностям: экономические, юридические, форме» [1]. Высшие учебные заведения и другие педагогические, психологические и философские организации, имеющие в своем составе библиотеку, науки (всего около 28 000 полных текстов). Начиная могут заключить договор с РГБ на создание ВЧЗ с 2004 года, состав ЭБД РГБ пополнялся объемом РГБ, по условиям которого каждый читатель ВЧЗ диссертаций по всем специальностям (кроме РГБ после регистрации может получить свободный медицины и фармации), что составляет около 30 000 (бесплатный) доступ ко всем полным текстам – включая 20 000 кандидатских и 10 000 докторских диссертаций и авторефератов через защищенную – диссертаций в год. В рамках проекта программу просмотра, поддерживающую возмож- ретроконверсии в 2006 году были оцифрованы все ность полнотекстового поиска внутри каждой диссертации за 1985 год. А с 2007 года в ЭБД РГБ работы. На сегодняшний день создано более 500 поступают диссертации по всем дисциплинам, Виртуальных читальных залов РГБ почти во всех включая работы по медицине и фармации. регионах России и в 10 странах СНГ (Азербайджан, Электронная библиотека диссертаций Российской Армения, Беларусь Грузия, Казахстан, Кыргызстан, государственной библиотеки (http://diss.rsl.ru) содер- Молдова, Таджикистан, Украина, Узбекистан), а жит более 725 000 полных текстов диссертаций, также за рубежом в Республике Иран [5,15]. защищенных в Российской Федерации и на пост- Одной из составляющих Электронной библиоте- советском пространстве, по всем специальностям ки диссертаций РГБ является Открытая электронная Высшей аттестационной комиссии Министерства библиотека диссертаций (ОЭБД), которая, по сути, образования и науки Российской Федерации (ВАК), стала предшественником ЭБД РГБ. Разработка а также авторефераты к ним. [3,11]. проекта ОЭБД велась в несколько этапов. На первом Каталог ЭБД РГБ находится в свободном этапе (2002-2003 год) был проведен социологичес- доступе для всех пользователей сети Интернет. кий опрос среди читателей Российской государ- Полные тексты диссертаций и авторефератов ственной библиотеки на предмет того, готовы ли представлены в формате PDF (аббревиатура от авторы диссертаций к передаче своей работы для Portable Document Format) – формат электронных размещения на сайте РГБ в свободном доступе. Как документов, разработанный компанией Adobe показала статистика, практически все опрошенные Systems. Кроссплатформенность формата создает читатели дали свое согласие и признали удобные условия для организации электронного необходимость деятельности в данном направлении. документооборота. Документ в формате PDF может На втором этапе велась работа по гранту содержать шрифты, графику, мультимедийные «Электронная библиотека диссертаций в теледос- элементы, что гарантирует правильное отображение тупе» (при поддержке Российского фонда фунда- независимо от операционной системы, программ- ментальных исследований (РФФИ), проект ного обеспечения и пользовательских настроек № 01-07-90310). Третий этап осуществлялся с конкретного компьютера. 2004 г. по гранту «Интегрированная библиотека Для организации доступа к ЭБД РГБ в электронных диссертаций» при поддержке библиотеках организаций открываются Виртуаль- Российского фонда фундаментальных исследований 240 (РФФИ, проект № 04-07-90154). Работы на этом Система защищенного просмотра документов этапе включали создание отдельного сайта и DefView (Defence Viewer – защищенная программа каталога, а также использование новой технологии – просмотра) является лицензионным программным расширенного языка разметки XML (eXtensible продуктом, который устанавливается на каждое Markup Language) [4,10]. рабочее место, где осуществляется доступ к полным Все диссертации и авторефераты были текстам произведений ЭБД РГБ. Система DefView представлены на сайте Открытой Российской используется для доступа к текстам ЭБД РГБ в зале Электронной Библиотеки http://orel.rsl.ru в свобод- Отдела диссертаций (г. Химки) и во всех виртуаль- ном доступе. Однако в марте 2009 года этот сайт ных читальных залах РГБ. был расформирован. В результате проведенных Система DVS (Documents View System – система работ руководством РГБ было принято решение о просмотра документов) является web-приложением размещении ОЭБД на сайте Электронной библио- и не требует установки. Доступ к полным текстам теки диссертаций Российской государственной произведений ЭБД РГБ с использованием системы библиотеки http://diss.rsl.ru и о ведении единого DVS осуществляется через сайт https://dvs.rsl.ru. Для каталога. Это можно считать четвертым этапом, входа в систему каждый пользователь вводит продолжающимся и по настоящее время. В состав данные своей учетной записи [5]. ОЭБД входят полные тексты диссертаций и Сегодня Электронная библиотека диссертаций авторефератов, предоставленные авторами для РГБ дает уникальный шанс для тысяч ученых по- размещения в свободном доступе на сайте новому реализовать возможности свои и коллек- Российской государственной библиотеки в формате тива, снизить стоимость научных исследований, PDF. Каждый ученый, защитивший диссертацию в сформировать свои научные взгляды с учетом России (до 1991 г. – СССР), может передать свою знаний, наработанных десятилетиями. работу для размещения на сайте РГБ, заключив лицензионный договор. Работу можно передать по Депонированные рукописи электронной почте или на электронных носителях В России депонированием рукописей занимается (CD, DVD, флешкарте и т.д.). Если диссертация или Институт научной информации по общественным автореферат уже имеются в наличии в каталоге ЭБД наукам Российской академии наук (ИНИОН РАН), РГБ, то автор может не передавать полный текст, а который был создан в 1969 году на основе Фунда- обозначить в договоре перевод его работы в ментальной библиотеки общественных наук АН СССР. открытый доступ. Поиск диссертаций и авторе- Он приобрел широкую известность благодаря системе фератов осуществляется в общем каталоге ЭБД РГБ научно-информационных изданий (библиографи- по всем доступным поисковым признакам простого ческих, реферативных и аналитических), научным и расширенного поиска: по ключевым словам и исследованиям в различных областях социального и словосочетаниям, по автору, по специальности ВАК гуманитарного знания, Фундаментальной библиотеке, и т.д. Каждая диссертация и автореферат имеют насчитывающей более 14 млн. единиц хранения, признак доступности: для всех диссертаций в Автоматизированной информационной системе по открытом доступе (ОЭБД) ссылка на электронный общественным наукам. ресурс зеленого цвета. На данный момент ОЭБД Общие положения депонирования научных работ: содержит более 3 000 полных текстов диссертаций и 1. Депонирование (передача на хранение) – особая авторефератов, размещенных в открытом доступе. система публикации научных работ (отдельных статей, Подробную информацию о проекте можно обзоров, монографий, сборников научных трудов, посмотреть на сайте ЭБД РГБ по ссылке материалов научных конференций, симпозиумов, http://diss.rsl.ru/?menu=about/31/&lang=ru [3,4,11,15]. съездов, семинаров) узкоспециального профиля, Открытие полных текстов документов из ЭБД разрешенных в установленном порядке к открытому РГБ возможно при использовании одного из видов опубликованию, которые нецелесообразно издавать программного обеспечения – а именно: web- полиграфическим способом печати, а также работ интерфейса для on-line просмотра, программы широкого профиля, срочная информация о которых Acrobat Reader, систем DefView или DVS. Web- необходима для утверждения их приоритета. интерфейс и Acrobat Reader применяются только 2. Депонирование предусматривает прием, учет, для произведений, находящихся в свободном досту- регистрацию, хранение научных работ и обязательное пе, а системы DefView и DVS позволяют открывать размещение информации о них в специальных любые документы из ЭБД РГБ, независимо от информационных изданиях. наложенных ограничений на доступ к полному 3. Депонирование научных работ осуществляется тексту произведения. при наличии согласия автора(ов) и решения ученого, научно-технического советов, а также редакционно- 241 издательских советов издательств и редакционных сортировки и вывода информации, обеспечивая коллегий научных журналов и сборников. гибкость и эффективность технологий информа- 4. Авторы депонированных работ сохраняют права ционного поиска. Более подробная информация о согласно законодательству о защите авторского права, системе представлена на сайте ИНИОН РАН но не могут претендовать на выплату гонорара. http://www.inion.ru/search-help-rus2.html 5. Депонированные научные работы приравни- #O_poiskovoj_systeme [1,13]. ваются к опубликованным печатным изданиям. 6. По результатам депонирования по запросу автора в его адрес направляется справка о депонировании Научно-исследовательские, опытно- научной работы. конструкторские и технологические 7. ИНИОН РАН депонирует научные работы по работы (НИОКР) социальным и гуманитарным наукам. Информация о Научно-исследовательские, опытно- депонированных в ИНИОН РАН научных работах конструкторские и технологические работы (НИОКР) – публикуется в библиографическом указателе совокупность работ, направленных на получение новых «Депонированные научные работы» (база данных знаний и их практическое применение при создании «Депонированные рукописи» расположена по ссылке нового изделия или технологии. http://83.149.253.12/scripts/Rweb.exe?DBNAME=dep&D НИОКР (в английском языке используется термин CNFN=7221&SYSLANG=RU). «Research & Development» (R&D)) включает в себя: Научные работы представляются на депонирование  Научно-исследовательские работы (НИР) – в двух экземплярах на русском языке в печатном виде. работы поискового, теоретического и экспери- На сайте http://inion.isras.ru/index.php?page_id=180 ментального характера, выполняемые с целью ИНИОН РАН подробно описаны все условия определения технической возможности созда- предоставления научных работ; данная услуга для ния новой техники в определенные сроки. НИР авторов является платной, но научные работы, подразделяются на фундаментальные (получе- направленные Учеными советами учреждений РАН, ние новых знаний) и прикладные (применение депонируются бесплатно [13]. новых знаний для решения конкретных задач) Фонд депонированных рукописей ИНИОН РАН исследования. составляет на сегодняшний день более 60 000 единиц.  Опытно-конструкторские работы (ОКР) и Ранее ежегодно поступало до 3 000 рукописей на Технологические работы (ТР) – комплекс работ депонирование в год. К сожалению, их количество по разработке конструкторской и техноло- сейчас значительно сократилось (до 250-300 в год). гической документации на опытный образец Продолжается работа по наполнению библиогра- изделия, изготовлению и испытаниям опытного фической базы данных депонированных рукописей, в образца изделия, выполняемых по техническому которой сейчас содержатся описания 15 000 рукописей, заданию [12]. поступивших в фонд, начиная с 1994 года. С 2002 года В соответствии с поручением Президента авторам депонированных работ было предложено Российской Федерации от 4 января 2010 года № Пр-22, присылать дополнительно к печатным версиям пункт 1 «Ж», Министерство образования и науки рукописей их электронные копии. Если рукопись Российской Федерации ведет работы по формированию поступала в электронном виде, то она включалась в Единой федеральной базы данных, включающей полнотекстовую базу данных неопубликованных результаты научно-исследовательских, опытно- рукописей. На сегодняшний день полнотекстовый конструкторских и технологических работ граждан- архив депонированных рукописей содержит около ского назначения, выполняемых за счет средств 5 000 документов, но в связи с вступлением в силу федерального бюджета, и проектов внедрения новых Части четвертой Гражданского кодекса Российской информационных технологий, выполняемых с Федерации доступ к этому архиву закрыт с 1 января использованием государственной поддержки (ЕФБД 2008 года. При этом библиографическая база данных НИОКР). депонированных рукописей по-прежнему находится в Такая база данных собирается и ведется в Центре открытом доступе на сайте ИНИОН РАН. информационных технологий и систем органов Все представление баз данных ИНИОН РАН (на CD исполнительной власти (ЦИТиС), который как и в Интернете) было реализовано на WebIRBIS™. федеральный информационный центр осуществляет Поисковая система WebIRBIS™ предназначена для формирование и поддержку национального библио- многоцелевой обработки больших, в том числе течно-информационного фонда Российской Федерации полнотекстовых баз данных, содержащих разнородные в части открытых неопубликованных источников документы неограниченной длины с нерегулярной структурой. Система имеет развитые средства поиска, 242 Таблица 1 Объем фонда ЦИТиС Статистика федерального фонда (1982-2012 гг.) Всего 2009 2010 2011 2012 Информационные карты диссертаций 671 835 28 260 24 700 24 800 4 000 Информационные карты НИР и ОКР 1 307 811 12 590 15 300 19 600 3 500 Регистрационные карты НИР и ОКР 1 156 862 23 283 21 100 31 000 1 800 Информационные карты алгоритмов и программ (c 17 079 1 242 2 020 1 101 260 1996 г.) Объекты учета РНТД (c 2007 г.) 10 656 1 650 1 289 3 844 1 034 научной и технической информации – отчётов о хранилище полнотекстовых отчётов и диссертаций НИОКР, кандидатских и докторских диссертаций, объем которого представлен в таблице 1, с реализацией описаний алгоритмов и программ. (Постановление организации онлайнового доступа пользователей через Правительства Российской Федерации от 31 марта 2009 сеть Интернет к ресурсам электронного хранилища. г. № 279. Ранее эти функции выполнял Всероссийский В настоящее время в ЦИТиС разработана система научно-технический информационный центр электронного документооборота научно-технической (ВНТИЦ)). В настоящее время фонд ЦИТиС насчитывает более информации, включающая как технологию и средства 7 млн. документов. Ежегодные поступления в ЦИТиС приема, так и обработку, хранение и распространение составляют около 100 000 различных документов, реферативной информации. отражающих контент научно-технической информа- Прием документов в электронном виде ции. Обработка такого количества документов требует (регистрационных, информационных карт НИОКР, значительных финансовых и временных затрат. информационных карт диссертаций) реализован с Поставщиками информации в ЕФБД НИОКР использованием технологии ASP.NET. Доступ к являются организации науки и высшей школы, системе осуществляется через сайт ЦИТиС промышленные предприятия – исполнители НИОКР, www.citis.ru (ранее был сайт www.vntic.org.ru). Далее диссертационные советы и авторы диссертаций, а принятые документы поступают в технологическую также бюджетополучатели – министерства и ведомства, базу, обрабатываются и загружаются в электронное выступающие государственными заказчиками НИОКР. автоматизированное хранилище ЦИТиС. Первоис- Система электронного документооборота научно- точники – диссертации, тексты НИР и ОКР – технической информации в федеральном информаци- сканируются и также поступают в электронное онном центре имеет ряд принципиальных особен- хранилище [6,14]. ностей. Прежде всего, это система, рассчитанная на Полные тексты документов и библиографи- прием, обработку, хранение и распространение ческие записи к ним можно посмотреть на больших объемом информации – несколько сотен безвозмездной основе только в читальном зале тысяч документов в год. При этом объем документов ЦИТиС (без возможности создания электронной колеблется от 3 Кб до 250 Мб. Информация, копии) и заказать на печать фрагменты, не превыша- представленная в документах, не структурирована либо ющие 20% от объема текста. Удаленный доступ к слабо структурирована, документы относятся к базам данных предоставляется на платной основе на различным областям знаний, т.е. фонд политематичен. условиях подписки, подробная информация пред- Традиционно документы, представляемые во ставлена (http://www.rntd.citis.ru/rntd/online.php) на ВНТИЦ, поступали только на бумаге и, пройдя сайте ЦИТиС. определенные стадии обработки, трансформировались Литература в электронный вид. По мере развития компьютерных [1] Гражданский кодекс Российской Федерации технологий и внедрения их в технологический процесс (ЧАСТЬ ЧЕТВЕРТАЯ) формирования федерального фонда по непубликуемым [2] Федеральный закон об обязательном экземп- источникам информации, различные операции по ляре от 26.11.1994 (Глава I. ОБЩИЕ ПОЛОЖЕ- обработке, хранению и распространению информации НИЯ Статья 1, Основные понятия) автоматизировались и модернизировались, создавая [3] Авдеева Н.В. Электронная библиотека диссер- основу для системы электронного документооборота. таций Российской государственной библиоте- Было создано интегральное электронное автома- ки: история создания и перспективы развития // тизированное хранилище ВНТИЦ, включающее банк Информационные ресурсы России. – 2009. - №5 данных государственных контрактов на НИОКР, – С. 17-21 политематические ретроспективные реферативно- [4] Авдеева Н.В., Лавренова О.А. Интегрированная библиографические базы данных по государственной библиотека электронных диссертаций // регистрации и учёту НИОКР и диссертаций, а также Информационные технологии, компьютерные 243 системы и издательская продукция для технологии, электронные коллекции: Труды библиотек: Доклады и тезисы докладов. – М.: седьмой всероссийской научной конференции ГПНТБ России, 2004. – С. 110-117 ("LIBCOM- RCDL'2005, Ярославль, Россия, 2005. 2004") http://rcdl.ru/doc/2005/sek4_2_paper.pdf [5] Авдеева Н.В., Чемоданова О.В. Разработка и [11] Avdeeva N. INNOVATIVE SERVICES FOR поддержка программного обеспечения для LIBRARIES THROUGH THE VIRTUAL Электронной библиотеки РГБ // Материалы READING ROOMS OF THE DIGITAL Восемнадцатой Международной Конференции DISSERTATION LIBRARY, RUSSIAN STATE "Крым 2011": "Библиотеки и информационные LIBRARY // IFLA Journal – 2010 – Vol. 36, Issue ресурсы в современном мире науки, культуры, no. 2, p. 138-144 образования и бизнеса" – ГПНТБ России, [12] Сайт Википедии Ассоциация «ЭБНИТ», 2011. http://ru.wikipedia.org/ http://www.gpntb.ru/win/inter- [13] Сайт Института научной информации по events/crimea2011/disk/139.pdf общественным наукам (ИНИОН РАН) [6] Голосов Ю.И., Брагина Г.А., Пржиялковская www.inion.ru М.Н. Электронные документы научно-техни- [14] Сайт Центра информационных технологий и ческой информации в системе ВНТИЦ // Элек- систем органов исполнительной власти тронные библиотеки; перспективные методы и (ЦИТиС) технологии, электронные коллекции: Труды www.citis.ru десятой всероссийской научной конференции [15] Сайт Электронной библиотеки диссертаций RCDL'2008, Дубна, Россия, 2008. Российской государственной библиотеки (ЭБД http://rcdl.ru/doc/2008/343_344_paper41.pdf РГБ) [7] Гончаров М.В. Современное состояние и пер- http://diss.rsl.ru спективы развития библиотечных Интер- нет/Интранет технологий: диссертация на Experience of development and support of соискание ученой степени кандидата full-text databases of unpublished технических наук: 05.25.05. – М., 2002. – 142 с. documents [8] Земсков А.И., Шрайберг Я.Л. Электронные библиотеки: Учебник для студентов вузов Nina Avdeeva культуры и искусств и др. высших учеб. заведений/ А.И. Земсков, Л.Я. Шрайберг. – М.: The article is devoted to the issues of development and Либерия, 2003. – 352 с. support of the Russian full-text databases of unpublished documents, and also to the issues of [9] Золотарева В.И. Основы информационной providing access to them. It distinguishes main types of культуры [Электронный ресурс]: учебно- unpublished documents. It presents legal and методическое пособие/ В.И. Золотарева [и др.]. technological aspects of development of full-text – М.: МИФИ, 2005. databases on such document types as dissertations, http://library.mephi.ru/icb2/book.html deposited manuscripts and R&D publications. [10] Лавренова О.А. Новый взгляд на проект элек- тронной библиотеки диссертаций // Электрон- ные библиотеки; перспективные методы и 244