Статья посвящена опыту национальных библиотек зарубежных стран по сбору и архивированию сетевых информационных ресурсов. Приводится краткое описание технологий сбора и сохранения ресурсов Интернета и правовых проблем, связанных с этими процессами.


Скачать 243.92 Kb.
НазваниеСтатья посвящена опыту национальных библиотек зарубежных стран по сбору и архивированию сетевых информационных ресурсов. Приводится краткое описание технологий сбора и сохранения ресурсов Интернета и правовых проблем, связанных с этими процессами.
страница1/4
Дата23.11.2012
Размер243.92 Kb.
ТипСтатья
  1   2   3   4
Надежда Викторовна Браккер, главный специалист

Центр по проблемам информатизации сферы культуры (Центра ПИК).

Адрес дом: Москва, 117208, Сумской пр. д. 6, корп. 2, кв. 6

Тел. раб.: 8 495 276 22 84

Тел. дом.: 8 499 723 36 24

Тел. моб. 8 926 520 02 80

E-mail: NBrakker@gmail.com


Леонид Абрамович Куйбышев, генеральный директор

Центр по проблемам информатизации сферы культуры (Центра ПИК)

Заслуженный работник культуры.

Адрес дом.: 119331, г. Москва, ул. Марии Ульяновой, д.21, корп. 2, кв. 58

Тел. раб.: 8 495 276 22 84

Тел. дом.: 8 499 138 79 30

Тел. моб. 8 916 173 52 43

E-mail: leonid12007@gmail.com


Сбор и архивирование сетевых ресурсов.

Опыт национальных библиотек зарубежных стран


Аннотация

Статья посвящена опыту национальных библиотек зарубежных стран по сбору и архивированию сетевых информационных ресурсов. Приводится краткое описание технологий сбора и сохранения ресурсов Интернета и правовых проблем, связанных с этими процессами. Обзор включает в себя опыт национальных библиотек Австрии, Германии, Дании, Китая, Литвы, Нидерландов, Новой Зеландии, Норвегии, Португалии, Соединенного Королевства, США, Финляндии, Франции, Чехии и Швеции.


Ключевые слова

долговременное сохранение, архивирование Интернета, национальные библиотеки, технологии сбора и архивирования сетевых ресурсов, правовые проблемы

1.Технологии сбора и архивирования сетевых ресурсов



Сбор ресурсов Интернета для целей долговременного сохранения и предоставления доступа к ним может осуществляться автоматически с помощью программ-роботов или путем выборочного отбора, глубокого сбора и архивирования сайтов.

Результатом автоматического сбора сетевых ресурсов, или веб-харвестинга (Web-harvesting1), являются все материалы определенного сегмента сети в момент сбора данных. Веб-харвестинг осуществляют программы-роботы, или веб-кроулеры (Web-crawler2), основанные на тех же принципах, что и поисковые машины. В начале процесса выполняется ручная настройка параметров сбора информации, при которой определяется, из каких доменов собираются материалы для хранения (например, национальный домен или материалы по определенной тематике). После окончания работы кроулера необходимы верификация и архивирование собранной информации, что требует некоторого участия человека.

Как правило, процедура веб-харвестинга выполняется регулярно через определенные достаточно большие промежутки времени (например, раз в полгода). Изменения, произошедшие в сети за этот период, не архивируются и полностью утрачиваются.

Качество и полнота результатов веб-харвестинга зависят от используемых роботов, которые постоянно совершенствуются. Но пока что кроулеры могут собирать только поверхностную информацию, а глубинные материалы остаются неохваченными. Результат работы кроулера – статические представления интернет-страниц, как правило, первого и второго уровня.

Тем не менее, в результате веб-харвестинга образуются огромные объемы информации для хранения. Эта информация не может быть каталогизирована обычным способом, поэтому для автоматического аннотирования и структурирования разрабатываются и используются специальные программы, основанные на методах семантического веба. Недостатком харвестинга является дублирование, так как архивируются зеркала сайтов, т.е. один и тот же материал собирается несколько раз.

Данный метод недостаточно эффективен для сбора и сохранения таких интернет-ресурсов, как газеты, потоковые видео и аудио ресурсы, результаты работы веб-камер, интерактивные документы, цифровые материалы различных типов, хранящиеся в базах данных. Требуют особого подхода и интернет-ресурсы с коротким жизненным циклом.

Необходим выборочный тематический отбор с глубоким (многоуровневым) сбором и архивированием таких материалов, который реализуется на основе закона об обязательном экземпляре или на основе договоров с издателями и дает более качественный результат на небольшом сегменте сети. Сотрудничество с издателями дает возможность каталогизировать собранные ресурсы. Обычно используется сочетание обоих методов – полный автоматических сбор сетевых материалов каких-то сегментов сети через определенные периоды времени и глубокое выборочное тематическое архивирование наиболее ценных ресурсов Интернета.
  1   2   3   4

Добавить документ в свой блог или на сайт

Похожие:

Разместите кнопку на своём сайте:
cat.convdocs.org


База данных защищена авторским правом ©cat.convdocs.org 2012
обратиться к администрации
cat.convdocs.org
Главная страница