Литмир - Электронная Библиотека
A
A

1. Падение города.

2. Возвращение героя.

3. Поиск.

4. Самопожертвование бога.

Нетрудно заметить, что наиболее часто встречается как в литературе, так и в реальности третья тема – поиск, ибо четвертая тема выходит за рамки обычного человеческого опыта, а две первые проявляются лишь в «минуты мира роковые».

Любой производственный или научный процесс порождает огромные объемы данных, и работать с ними по мере увеличения объемов становится все сложнее. Количество данных когда-нибудь превысит способность человека их обрабатывать, поэтому необходимы новые инструментальные средства и алгоритмы для анализа. Вместе с тем предъявляются серьезные требования к обеспечению прозрачного доступа и долговременной сохранности информации. В результате вопросы «что хранить?», «как хранить?» и «как найти?» остаются самыми существенными: без ответа на них все остальные теряют актуальность (10).

Взаимодействие человека с информацией, существующей в машиночитаемом виде (данными), осуществляется при помощи специализированных программных комплексов – информационных систем (ИС), предназначенных для:

• организации хранения информации (организация хранилищ, поддержка систем хранения данных)‏;

• управления информацией (добавление, модернизация, изменение данных)‏;

• управления доступом к информации (контроль исполнения правил регламентации доступа к данным), идентификация данных;

• поиска информации;

• извлечения информации и предоставления ее пользователю (приложению) в необходимом ему виде;

• визуализации (представления) информации в соответствии с требованиями пользователя (4; 7).

Исходя из тенденций развития систем коммуникаций и практики организации локальных хранилищ данных современная ИС должна удовлетворять некоторым общим требованиям, а именно:

• она должна быть распределенной – РИС13;

• РИС должна обеспечивать контролируемый доступ к различным информационным ресурсам для пользователей и администраторов различных уровней;

• РИС должна обеспечивать сквозной поиск, в том числе полнотекстовый, по различным критериям;

• РИС должна предоставлять информацию в требуемом пользователем виде;

• внутренние технологии РИС должны быть скрыты от пользователей;

• внешние интерфейсы должны быть стандартизованы (6).

При попытках разработки РИС, удовлетворяющих перечисленным требованиям, возникают проблемы, связанные с различными аспектами их функционирования. Эти проблемы можно сгруппировать в следующие классы (2; 6):

• модели и стандарты представления информации и метаинформации.

К сожалению, следование рекомендациям международного сообщества о стандартизации схем данных не является характерной чертой подавляющего большинства разрабатываемых и функционирующих информационных систем14;

• автоматическая классификация информации.

Разработчики ИС не используют модели классификации хранимой информации, затрудняя тем самым включение механизмов, в том числе внешних, для ее автоматической классификации;

• доступ к распределенным и разнородным коллекциям (интероперабельность, масштабируемость, обнаружение релевантной информации, интеграция метаинформации).

Интероперабельность создаваемых информационных систем не выдерживает даже минимальной критики (2);

• интерфейсы пользователей, визуализация и анализ данных.

К сожалению, подавляющее количество существующих ИС оперирует только с графическими веб-интерфейсами доступа к данным. При этом возможность доступа к данным вне графических интерфейсов, как правило, не реализуется. Это исключает возможность интеграции разрабатываемых ИС в крупные информационные системы (4);

• вопросы интеллектуальной собственности.

Это вечная проблема информационных ресурсов, тиражирование которых не связано с материальными затратами;

• анализ и обработка естественного языка, изображений, видео- и аудиоданных.

Обработка контента требует специальных подходов к каждому типу данных. В частности, необходима реализация поиска по фрагментам (фрагмент текста, фрагмент изображения и т.п.) с использованием шаблонов (шаблон текста, шаблон изображения и т.д.). Реализация специфических шаблонов для такого поиска представляет собой отдельную проблему;

• многоязыковый доступ к данным и обслуживание данных на нескольких языках.

Доступ такого рода требует многовариантности индексирования данных и реализации динамического преобразования данных;

• мобильные технологии и агенты.

Речь идет о реализации интерфейсов доступа к информации, ориентированных на возможности клиентских устройств;

• методы и средства поиска, каталогизация, индексирование, поддержка целостности и непротиворечивости коллекций, безопасность и защита информации.

Это вечные проблемы, от способа решения которых зависит общая функциональность ИС.

Решение сформулированных проблем предполагает создание развитой инфраструктуры для представления и обмена метаданными (данными о ресурсах), без которой невозможно формирование единого информационного пространства (9). Это можно рассматривать как первый шаг к интеграции и интероперабельности информационных систем. Под интероперабельностью любой ИС, в том числе и электронной библиотеки, понимается степень ее способности взаимодействовать с другими ИС, в том числе и с человеком. Но если в последнем случае основная нагрузка на обеспечение взаимопонимания ложится на человека, который в состоянии обработать даже очень плохо организованную информацию, то для обеспечения эффективного взаимодействия между автоматическими ИС требуются специальные технологические методы и общие соглашения (5).

В основе интеграции РИС лежит интеграция метаданных, основанная на стандартах формата для представления метаданных, одновременно с унификацией нормативно-справочной информации (профиля информационных систем) (7).

Под интеграцией данных с точки зрения пользователя следует понимать:

• возможность свободно группировать любые имеющиеся разнородные данные по любому признаку в произвольные реальные и / или виртуальные коллекции;

• возможность организовывать по всем массивам данных прозрачный для конечного потребителя сквозной поиск информации.

Реализация механизмов интеграции данных немыслима без их стандартизации: данные одного типа должны описываться и предоставляться единым образом в соответствии с нормативными документами. В частности, в стандартизованном виде должны предоставляться следующие типы информационных ресурсов:

• географические информационные ресурсы (картографические материалы, спутниковые снимки, данные полевых наблюдений и т.п.), а также соответствующие базы метаданных;

• фактографические базы данных и метаданных;

• библиографические базы данных и электронные каталоги;

• полнотекстовые базы данных и электронные библиотеки;

• авторитетные базы данных (описывающие субъекты информационного взаимодействия: персоны, организации и т.п.);

• другие ресурсы (аудио- и видеозаписи, электронные презентации и др.), снабженные стандартизованными метаданными.

Исходя из вышеперечисленных особенностей, на наш взгляд, РИС должна содержать следующие отдельные функциональные компоненты (5):

• систему идентификации информационных ресурсов;

• систему идентификации, аутентификации и авторизации пользователей;

• систему управления метаданными;

• систему управления информационными ресурсами, в том числе полнотекстовыми;

• систему сбора статистики;

• систему мониторинга доступности сервисов и ресурсов.

Реализация этих подсистем должна основываться на открытых спецификациях, связанных с международными стандартами. В распределенной среде должны быть задействованы механизмы синхронизации данных, например на основе репликаций. При этом в качестве протоколов сетевого взаимодействия должны выступать стандартные протоколы, например OAI, Z39.50, SRW/SRU, LDAP и др. (1; 3; 4; 8) (см. рис. 1).

вернуться

13

РИС – распределенная информационная система.

вернуться

14

Сами рекомендации тоже являются весьма противоречивыми. К примеру, можно сравнить концептуальные модели DELOS и FRBR.

5
{"b":"629032","o":1}