Nickolay.info. Наука. Интернет-ресурсы. Часть 2

2. Основные системы сбора информации в глобальных компьютерных сетях

В настоящее время эффективность использования глобальных информационных ресурсов в образовательных и исследовательских целях напрямую зависит от знаний, умений и навыков пользователей в области организации и проведения поиска информации в сети.

Не обсуждая более ограничений, порожденных техническими аспектами функционирования Интернет, остановимся на проблематике, связанной с использованием Интернет как источника специализированной информации.

Концепция "информационного взрыва" и связанного с ним "информационного коллапса", активно обсуждаемая аналитиками с середины XX века, в последние годы приобрела качественно иное звучание.

Так, согласно оценкам компании IDC, в 2006 году в мире был произведен 161 миллиард гигабайт (161 экзабайт) данных [21]. Для сравнения приведем тот факт, что в 2003 году специалисты Университета Беркли (Калифорния, США) оценили объем произведенных за год данных в 5 экзабайт, причем, в расчет принималась вся информация в целом, включая бумажные носители. Общие объемы архивов данных, хранящихся на сегодня в мире IDC оценивает в 185 экзабайт (185 млрд гигабайт).

Обращает на себя внимание как достаточно высокая степень дублирования информации - объемы уникальной информации, произведенной в 2006 году, оценивается в 40 экзабайт, так и тот факт, что около половины всей хранимой информации на компьютерах всего мира либо вообще не используется, либо используется однократно.

Тем не менее, даже если исключить дублируемую информацию, 40 экзабайт данных составляют примерно 300 000 объемов крупнейшей в мире Библиотеки Конгресса США.

Кроме того, впервые в истории наблюдений темпы роста объемов хранимой информации в процентном отношении превысили темпы роста объемов производимых носителей информации, таких, как DVD‑диски и жесткие диски.

Для сравнения приведем оценки количества Web‑сайтов в конце 2006 года (100 млн. сайтов, половина из них обновляется) и 10 лет назад (18 тысяч сайтов).

Столь взрывной рост объема данных обусловлен множеством факторов, главными из которых могут быть названы следующие:

· популяризация цифрового контента, в особенности видеоконтента, произошедшее повсеместное открытие в Интернет пользовательских видеоархивов. Объем неструктурированных данных растет особенно быстрыми темпами. Уже сейчас цифровые изображения, голосовые пакеты и музыкальные записи составляют 95% всей информации. Но такую информацию очень трудно искать. IDC полагает, что эту проблему можно решить тремя способами: добавлением метаданных, применением средств автоматической классификации (например, распознавания лиц) и разработкой систем доступа, переводящих неструктурированные данные в структурированную форму;

· стремительный рост покупок с помощью электронных карт и их аналогов, бурное развитие "цифровой" экономики. "Полагаем, что особенно напряженной ситуация с хранением данных будет в банках, так как большую часть розничных покупок в мире к 2010 году будет производиться с помощью пластиковых карт, и объемы банковских архивов будут колоссальными", - прогнозирует отчет IDC;

· законодательные требования некоторых стран, обязавшие телекоммуникационных и Интернет‑провайдеров хранить данные и журналы активности Интернет‑пользователей;

· опережающие темпы развития Интернет в большинстве стран мира, лишь в немногих развитых странах они близки к насыщению.

В будущем аналитики видят такую картину: к 2010 году объемы хранящихся архивов достигнут 601 экзабайта, а объем информации, произведенной в 2010 году достигнет 988 экзабайт (почти 1 зеттабайт).

Единственным положительным моментов в тенденции роста объемов данных видится тенденция снижения стоимости хранения данных, а также снижение стоимости систем хранения данных в целом.

Можно прогнозировать также появление в ближайшее время принципиально нового класса программ, которые будут изучать данные и на основе алгоритмов, заданных пользователями или администраторами уничтожать лишние данные и сжимать необходимые, экономя место на жестких дисках.

Фактически, можно говорить о том, что экстраполяция нынешнего развития Сети приводит ее к "информационному коллапсу", определяемому как "гипотетическое состояние сетевого информационного пространства, угрожающее его стабильности и нормальному функционированию. Характеризуется резким снижением пропускной способности каналов связи. Возникает при ситуации, когда существующие технологии не в состоянии передать нарастающие объемы трафика". [22]

С точки зрения внешних нетехнических факторов можно охарактеризовать информационный коллапс следующими основными характеристиками:

· стоимость поиска нужных сведений в Интернет возрастает непропорционально быстро по отношению к стоимости повторных исследований с целью их получения;

· объем информации, доступной посредством Интернет возрастает существенно быстрее развития возможностей ИПС;

· достоверность информации существенно снижается, в связи как с наличием большого количества "версий" одного и того же документа, лишь незначительно отличающихся друг от друга, так и все более характерных тенденциях "вброса" в Сеть заведомо ошибочной или ложной информации.

С точки зрения "внутренних" технически обусловленных угроз можно выделить следующие основные характеристики:

· резкое снижение пропускной способности из‑за перегруженности систем;

· атаки хакеров с целью уничтожения или искажения информации, блокирования узлов и "обходных маршрутов" трафика;

· случайные или преднамеренные аварии коммуникационных каналов;

· несовершенство информационно‑поисковых систем;

· "моральное" старение протоколов.

По мнению аналитиков, на сегодняшний день примерно 75% цифровой информации создают и копируют индивидуальные пользователи, а 25% - организации, но к 2010‑му году доля последних увеличится до 30%, поскольку компьютеры все шире используются на предприятиях малого и среднего бизнеса, требования регулирующих органов ужесточаются (то есть информацию нужно долго хранить), расширяется применение отраслевых приложений (например, средств электронной коммерции, обслуживания клиентов, камер наружного наблюдения и т. д.). При этом растет не только объем информации, но и число контейнеров для ее хранения, т. е., файлов, пакетов и цифровых изображений.

И хотя основной вклад в информационный бум вносят индивидуальные пользователи, за хранение и защиту 85% данных отвечают организации (предприятия, агентства, госучреждения, ассоциации). Это налагает на них серьезные требования с точки зрения управления огромными объемами данных и их защиты.

Уже сейчас организации напрасно тратят массу времени при работе с данными. Так, по оценке IDC, предприятие с тысячей сотрудников в среднем ежегодно теряет 5,7 млн. долл. из‑за необходимости переформатировать информацию и 5,3 млн. долл. - из‑за невозможности ее найти.

Даваемые аналитиками рекомендации носят, по преимуществу, общий характер. Так, по мнению IDC, организациям следует применить комплексный и упорядоченный подход к хранению информации. В частности, стоит обратить внимание на технологию управления жизненным циклом информации (Information Lifecycle Management, ILM). Важное значение имеют и новые технологии виртуализации и сервисно‑ориентированного программирования, которые повышают гибкость связей между компьютерами, запоминающими устройствами и приложениями. Такой подход позволяет объединить изолированные информационные островки в единый пул и отделить данные от инфраструктуры их хранения. Но для реализации такой архитектуры предприятия должны по‑новому взглянуть на свою ИТ‑инфраструктуру, повысить ее динамичность и больше внимания уделить вопросам управления информацией.

В связи с вышеизложенным, развитие систем сбора информации в глобальных сетях приобретает особое значение. В данной главе существующие системы сбора информации в Интернет и пути их совершенствования будут рассмотрены более подробно.

2.1 Существующие системы сбора информации в Интернет и их недостатки

Как уже указывалось, на сегодняшний день можно выделить два взаимодополняющих подхода к поиску информации в Интернет - поисковые системы и каталоги ресурсов.

Работа поисковой системы основывается на формировании запроса, по которому происходит отбор нужных документов из распределенной базы данных, хранящейся на серверах в Интернете. Запрос формируется с помощью ключевых слов (одного или нескольких). Результаты поиска выдаются пользователю в виде списка адресов (гиперссылок) и кратких аннотаций к ним. Очевидны достоинства такого подхода:

· индексирование ресурсов Интернет происходит автоматически, без участия конечного пользователя;

· качество отбора информации можно повысить, используя имеющиеся в развитых поисковых системах средства повторного поиска в найденном и базовые возможности языка запросов, такие, как использование логических операцией И/ИЛИ, поиск устойчивых словосочетаний, поиск конкретных словоформ, поиск в различных элементах Web‑страниц (заголовках, гиперссылках, изображениях).

Однако, в целом уровень поиска и обработки ресурсов в Интернет зачастую неудовлетворителен. Это обусловлено следующими причинами:

· в результатах поиска, как правило, не учитываются технические аспекты работы в Интернет (быстродействие поиска и обработки), временные ограничения доступа к Интернет и т.п.;

· как правило, степень релевантности найденных документов крайне низка, а первые позиции в результатах поиска занимают ресурсы рекламно‑спамерского характера;

· зачастую представлены ссылки на неработающие или несуществующие ресурсы, что обусловлено большими временными задержками между первичным и повторным индексированием сайта;

· неинформативное аннотирование ссылок в перечне найденных ресурсов;

· включение в перечень найденных ресурсов "вторичных" ссылок, полученных из результатов поиска других поисковых систем;

· отсутствие стандартного синтаксиса языка запросов.

Не всякий запрос можно четко сформулировать с помощью небольшого числа ключевых слов. Поэтому, кроме индексирования, используются и другие механизмы поиска и хранения информации в сети, прежде всего, это каталоги ресурсов, называемые также иерархическими поисковыми системами.

Каталоги представляют собой тематически подобранные сетевые адреса, которые сопровождаются краткими комментариями (аннотациями). База данных службы организована в виде иерархий каталогов аналогично структуре каталогов файловой системы. Иерархии каталогов обеспечивают систематизацию хранящихся в них объектов путем их распределения по каталогам в соответствии с какими‑либо признаками.

Очевидно, что "ручной" отбор ресурсов, добавляемых в каталоги, позволяет повысить релевантность результатов запроса, однако, он же является одним из недостатков каталогизации - поддержание большого по объему каталога весьма трудоемко и требует целого штата квалифицированных администраторов, оценивающих те или иные ресурсы [24]. В случае же автоматизации добавления ресурсов в каталог теряется его основное преимущество - отбор качественных документов.

К другим недостаткам каталогов ресурсов можно отнести:

· несовершенство рубрикации и отсутствие стандартной рубрикации;

· не всегда эффективное распределение ресурсов по рубрикам - как правило, один ресурс может быть отнесен лишь к одной‑двум предустановленным категориям;

· низкая оперативность каталогизации, связанная с "ручной" обработкой информации.

Указанные выше недостатки поиска и каталогизации определяются не только несовершенством технических средств поиска и отбора информации, а также качеством представления и организации информации в современной сети Интернет.

Можно выделить следующие основные недостатки организации web‑сайтов:

· тезисный и рекламный характер представляемой информации;

· недостаточные или явно избыточные, многократно дублируемые средства управления и навигации по сайту; отсутствие четкой структуры сайта, сложные перекрестные ссылки, отсутствие карты сайта;

· отсутствие обновления на протяжении длительного времени, отсутствие информации об актуальности представленного содержимого и сроках его обновления;

· применение различных стандартов представления информации в Интернет, без учета типа браузера и возможности просмотра ее на локальной машине;

· использование автоматических программ обновления содержимого, не учитывающих тип и настройки браузера пользователя;

· неиспользование или использование не по назначению мета‑тегов, таких как "title" и "description";

· разработка громоздких начальных страниц, с применением фреймов, flash‑технологий, "тяжелой" графики и т.д.;

· наличие ссылок на несуществующие ресурсы, как в рамках сайта, так и за его пределами;

· отсутствие услуг "downloads";

· отсутствие демонстрационных версий программного обеспечения представленного на сайте;

· отсутствие модерирования и фильтрации информации в средствах интерактивного общения (гостевые книги, форумы).

В следующих разделах монографии мы рассмотрим проблематику, связанную с работой и развитием глобальных информационных ресурсов, более подробно.

2.2. Поисковые системы

Общий объем информации, доступной посредством Интернет, чрезвычайно велик. В связи с быстрым ростом числа информационных ресурсов, каких‑либо достоверных методик определения "объема Интернет" не существует, например, все приводимые в начале главы оценки - экспертные. Мощные поисковые системы (ПС) являются сложными техническими комплексами, содержащими десятки быстродействующих компьютеров, обслуживание которых ведут сотни специалистов.

Рассмотрим общие принципы функционирования и обслуживания ПС, а также связанную с данной предметной областью терминологию.

ПС иначе называют: поисковыми средствами, поисковыми машинами, автоматическими индексами. Соответствующими иноязычными терминами являются: английский "Search Engines", немецкий - "Suchmaschinen", французский -"Le systeme de prospection". Работа ПС основывается на формировании запроса, по которому производится выборка соответствующих запросу документов из распределенной базы данных, хранящейся на сервере или серверах в Интернет. Запрос формируется с помощью ключевых слов (одного или нескольких). Результаты поиска выдаются пользователю в виде списка адресов (гиперссылок) и кратких аннотаций к ним.

Ключевое слово - это лексическая единица, являющаяся существительным, прилагательным, глаголом, числительным, наречием или местоимением естественного языка, которая в наибольшей степени отражает содержание всего искомого документа. При формировании запроса могут использоваться не только отдельные ключевые слова, но и словосочетания, состоящие из нескольких ключевых слов.

Запрос - это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и выборку необходимых документов.

Различают простые (simple) и сложные или расширенные (advanced, power) запросы. Простые запросы состоят из отдельных ключевых слов или словосочетаний. Сложные запросы, кроме ключевых слов, содержат логические и иные операторы. Общепринятого языка запроса до сих пор не существует, а масштабные международные проекты стандартизации и унификации языка поисковых машин [23] так и не вышли из фазы начального развития.

Как правило, развитый информационно‑поисковый язык позволяет сформулировать запрос в простой и наглядной форме. При обработке запроса его содержимое разбивается на лексемы, из которых удаляются запрещенные и стоп‑слова. Иногда производится нормализация лексики, а затем все слова связываются указанными пользователем либо действующими по умолчанию логическими операциями.

Кроме обычного набора логических операций AND, OR, NOT, развитые ПС позволяет использовать еще и операцию NEAR, обеспечивающую контекстный поиск. В запросе можно указать также части документа для поиска: ссылка, заглавие, аннотация и т.п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.

Утверждающимся стандартом в русскоязычном сегменте Интернет можно считать языка запросов ИПС Яndex, имеющий на данный момент следующие основные возможности:

"L₁: L_N" - заданный порядок следования лексем;

L₁&:& L_N_-лексемы в одном предложении;

L₁&&:&& L_N_-лексемы в одном документе;

L₁<< L_2 -неранжирующее "И", L2 влияет на попадание лексемы в результаты поиска, но не влияет на ранжирование;

L₁ /N L₂ - максимально допустимое расстояние между лексемами, выраженное в словах;

L₁ /+N L₂ или L₁ /‑N L_2 -лексемы следуют в определенном порядке на нужном расстоянии, выраженном в словах;

L₁ /(N,M) L₂ - лексемы находятся на расстоянии от N до M слов включительно;

L₁|:| L_N_-ищется любая из лексем;

~~L - лексема L исключается из поиска;

!L - отключение морфологии при поиске данной лексемы;

!!L - указание нормальной формы слова для лексемы;

Здесь L_i везде обозначает лексему независимо от языковой формы, N,M - целочисленные значения. Применять унарные операции к нескольким лексемам можно с помощью круглых скобок: L₁ && (L₂ | L₃ | L₄). Существуют также операторы для поиска в отдельных элементах страницы или в связанной с ней информации, поиска по определенным типам файлов, указанным языкам, доменам, диапазону дат обновления документа, темам каталога, возможно назначение весов лексемам [25].

Очевидно, что использование развитых поисковых языков, в сочетании с обучением пользователей их применению, способно существенно повысить качество поиска и отбора информации.

Поиск - это процедура отбора нужных документов, хранящихся на серверах Интернет и доступных для индексирования поисковой машиной. Поиск с помощью ключевых слов сводится к их вводу (формированию запроса) в текстовое поле ввода "Поиск" и последующему нажатию кнопки "Найти". Кнопка "Найти" в разных ПС может называться Search, Find, Go, Go Get it, Suchen.

Индексация - это процедура автоматического создания базы данных, в которой хранятся ключевые слова, аннотации документов и доменные адреса, по которым размещены эти документы. В базе данных каждому документу ставится в соответствие свой набор ключевых слов и доменных адресов.

Когда идет обслуживание конкретного запроса на поиск нужной информации, то ПС сравнивает ключевые слова, введенные пользователем, с ключевыми словами, полученными в процессе индексации и хранящимися в базе данных ПС. При совпадении этих слов пользователю выдается доменный адрес данного документа. Индексация документов, размещенных на различных серверах, производится поисковыми системами автоматически с помощью набора специальных программ:

Spider ("паук") - браузероподобная программа, которая скачивает веб‑страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т.д.), паук же не имеет никаких визуальных компонент и работает напрямую с html‑текстом страницы..

Crawler (краулер, робот) - программа, которая автоматически проходит по всем ссылкам, найденным на странице. Crawler. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (индексатор) - программа, которая анализирует веб‑страницы, закачанные "пауками". Индексатор разбирает страницу на составные части и анализирует их. Выделяются и анализируются различные элементы страницы, такие как текст, заголовки, структурные и стилевые особенности, специальные служебные html‑теги и т.д.

Database (база данных) - хранилище скачанных и обработанных страниц. Иногда базу данных называют индексом поисковой системы.

Search engine results engine (система выдачи результатов) - извлекает результаты поиска из базы данных. Система выдачи результатов занимается ранжированием страниц. Она решает, какие страницы удовлетворяют запросу пользователя, и в каком порядке они должны быть отсортированы. Это происходит согласно алгоритмам ранжирования ПС, базовые из которых описаны в предыдущем разделе.

Именно от этого компонента поисковой системы наиболее зависят результаты поиска, поэтому в дальнейшем мы более подробно рассмотрим факторы, влияющие на ранжирование результатов.

Web server (веб‑сервер) - веб‑сервер, который осуществляет взаимодействие между пользователем и остальными компонентами поисковой системы. Как правило, на сервере присутствует html‑страница с полем ввода, в котором пользователь может задать интересующий его поисковый термин. Веб‑сервер также отвечает за выдачу результатов пользователю в виде html‑страницы.

Детальная реализация поисковых механизмов может отличаться друг от друга (например, связка Spider+Crawler+Indexer может быть выполнена в виде единой программы, которая скачивает известные веб‑страницы, анализирует их и ищет по ссылкам новые ресурсы), однако всем поисковым системам присущи описанные общие черты.

На практике число найденных по высокочастотным запросам документов может оказаться весьма велико, так что пользователь просматривает лишь несколько первых страниц выдачи ИПС (по статистике, лишь 10% пользователей просматривают более 2 страниц выдачи). Поэтому определяющим фактором успешности поиска оказывается ранжирование найденных web‑страниц системой выдачи результатов. Из этих соображений следует отдельно остановиться на факторах, влияющих на положение найденных документов в выдаче ИПС.

Факторы, влияющие на положение сайта в выдаче ПС, можно разбить на внешние и внутренние. К внутренним относят факторы, находящиеся под контролем владельца web‑сайта (текст, оформление и т.д.). Перечислим и кратко охарактеризуем их.

Объем текста на странице и текстовое оформление: в общем случае следует стремиться к увеличению текстового наполнения сайта. Оптимальными следует считать страницы, содержащие 500‑3000 слов или 2‑20 Кб текста (от 2 до 20 тыс. символов). Большее количество текста на странице увеличивает ее видимость в поисковых системах за счет редких или случайных поисковых фраз.

Число ключевых слов на странице: ключевые слова (фразы) должны встречаться в тексте как минимум 3‑4 раза. Верхняя граница зависит от общего объема страницы. Наилучшие результаты наблюдаются, если ключевая фраза встречается в тексте несколько раз, а кроме того, слова из фразы встречаются несколько раз поодиночке.

Плотность ключевых слов: показывает относительную частоту содержания ключевых слов в тексте, измеряется в процентах. Слишком низкая плотность приведет к тому, что поисковая система не придаст должного значения этому слову. Слишком высокая плотность способна включить спам‑фильтр поисковой системы (то есть, релевантность страницы будет искусственно понижена из‑за чрезмерно частого употребления ключевой фразы). Оптимальной считается плотность ключевого текста 3‑7%. В случае фраз, состоящих из нескольких слов, следует посчитать суммарную плотность всех ключевых слов, составляющих фразу и убедиться, что она укладывается в указанные пределы.

Расположение ключевых слов на странице: основное правило очень просто - чем ближе ключевое слово или фраза к началу документа, тем больший вес они получают при оценке страницы поисковой системой.

Стилистическое оформление текста: рекомендуются к использованию заголовочные таги <h>, физическое (<b>) и логическое (<strong>) выделение ключевых слов, использование ключевых слов в теге <title>. Тег <title> должен не только содержать ключевые слова, но быть информативным и привлекательным. Как правило, в выдачу поисковой системы попадает 50‑80 символов из тега <title>, поэтому размер заголовка желательно ограничить этой длиной.

Ключевые слова в тексте ссылок: использование ключевых слов в тексте исходящих ссылок позволяет добавить преимущество при ранжировании.

Атрибуты alt изображений: корректное задание атрибутов "альтернативного текста", который отображается в случае, если скачать изображение не удалось или показ изображений заблокирован в браузере, позволяет поисковой системе запомнить значение тега при индексации.

Мета‑тег Desciption: этот тег специально предназначен для задания описания страницы. Многие ИПС отображают информацию этого тега в результатах поиска, если он присутствует на странице и его содержимое соответствует содержимому страницы.

Мета‑тег Keywords: этот тег изначально предназначался для указания ключевых слов данной страницы. Использование его современными ИПС ограничено.

Независимо от конкретного способа организации web‑сайта, могут быть даны следующие рекомендации относительно его структуры и наполнения содержимым:

Увеличение числа страниц сайта: как правило, с увеличением количества страниц на сайте улучшается его видимость в поисковых системах. Кроме того, постепенное добавление новых материалов на сайт может дать дополнительные преимущества при ранжировании.

Информативные меню: использование ключевых слов в ссылках меню позволяет придать дополнительный вес тем страницам, на которые ведет ссылка.

"Неглубокая" каталожная структура: следует, по возможности, избегать в структуре сайта вложений каталогов глубиной более двух‑трех; все важные страницы должны находиться в корневой папке сайта.

Тематическая и поисковая оптимизация страниц: в идеале каждая страница четко определена тематически и оптимизирована под одну‑две собственных ключевых фразы.

Главная страница сайта: более трети входящего поискового трафика, как правило, приходится на главную страницу сайта, отсюда следует необходимость особенно тщательной и продуманной ее оптимизации под наиболее важные ключевые фразы предметной области.

К распространенным ошибкам создания структуры сайта следует отнести графические заголовки и меню, не индексируемые ИПС, навигацию через скрипты и редиректы, не позволяющую поисковым системам получить статические адреса страниц, не всегда оправданное использование идентификаторов сессии в URL страницы. Также желательно избегать "недозволенных" приемов, таких как наполнение страницы скрытым текстом.

Из сказанного следует, что факторы, влияющие на ранжирование, находятся под контролем разработчика страницы. Это означает, что для поисковой системы становится невозможным отличить действительно релевантный документ от страницы, созданной специально под заданную поисковую фразу или сгенерированной автоматически. Так, в настоящее время бурно развиваются так называемые технологии поисковой оптимизации сайта (Search Engines Optimizations, SEO) [26, 27]. Единственным фактором ранжирования, непосредственно не контролируемым разработчиком сайта, является количество и качество внешних ссылок на оцениваемую страницу.

Таким образом, помимо описанных выше внутренних факторов ранжирования по релевантности, основным внешним фактором является количество и качество внешних ссылок на сайт. Данный фактор также называют ссылочной цитируемостью, ссылочной популярностью или индексом цитирования.

Разумеется, простой подсчет количества внешних ссылок не дает достаточной информации для оценки цитируемости сайта. Очевидно, что ссылка с сайта крупной компании должна иметь больший вес, чем ссылка с домашней страницы, расположенной на бесплатном хостинге. Для "взвешенной" оценки цитируемости с учетом качества внешних ссылок на сайт поисковые системы вводят понятие индекса цитирования (ИЦ).

Термин ИЦ представляет собой общее обозначение численных показателей, оценивающих популярность ресурса, то есть, некоторое абсолютное значение важности страницы. Каждая поисковая система использует собственные алгоритмы для подсчета ИЦ, как правило, детали их являются конфиденциальной информацией и не публикуются.

Помимо обыкновенного ИЦ, представляющего собой абсолютный показатель, вводится понятие взвешенного индекса цитирования (ВИЦ), который является относительным значением и показывает популярность данной страницы относительно популярности остальных страниц, доступных поисковой машине. Термин ВИЦ в России обычно употребляют в отношении поисковой системы Яndex.

Рассмотрим факторы, влияющие на индекс цитирования, более подробно.

Текст ссылки (или ссылочный текст) - текст, стоящий непосредственно в теге <A>:</A>, по которому можно щелкнуть указателем "мыши" для перехода к новому URL‑адресу. Если текст ссылки содержит релевантные ключевые слова, поисковая система воспринимает всю страницу как более релевантную.

Релевантность ссылающихся страниц: кроме ссылочного текста учитывается также общее информационное содержимое ссылающейся страницы. Так, ссылки с тематически близких ресурсов оцениваются поисковой системой как более релевантные.

Классическим считается алгоритм учета внешних ссылок PageRank, запатентованный компанией Google [28, 9]. PageRank рассчитывается для каждой web‑страницы отдельно, и определяется PageRank (цитируемостью) ссылающихся на нее страниц. Критерием, выражающим значимость страницы, в PageRank является ее теоретическая посещаемость. Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. По ссылкам он переходит на другие страницы. При этом существует вероятность того, что посетитель покинет сайт и вновь начнет просмотр документов со случайной страницы - в алгоритме PageRank она принята 0.15 на каждом шаге. Соответственно, с вероятностью 0.85 пользователь переходит по одной из доступных на текущей странице ссылок. Все ссылки при этом предполагаются изначально равноправными. При большом числе переходов пользователь побывает на популярных страницах много раз, а на малоизвестных - меньше. Таким образом, PageRank web‑страницы определяется как вероятность нахождения пользователя на ней; при этом сумма вероятностей по всем web -страницам Интернет равна единице. В [28] приводится следующая формула определения веса PageRank для страницы:

PR(A) = (1‑d) + d * [PR(T₁)/C(T₁) + ... + PR(T_n)/C(T_n)],

где PR(A) - это вес PageRank страницы A, d - значение коэффициента затухания, PR(T_i) - вес PageRank i страницы, указывающей на страницу A, C(T_i) - число ссылок с этой страницы.

После масштабирования с PageRank можно работать в виде конкретных чисел. Так, в настраиваемой панели инструментов Google ToolBar каждая страница имеет PageRank от 0 до 10.

Таким образом, алгоритм ранжирования построен на следующих принципах:

· каждая web‑страница, даже если на нее нет внешних ссылок, изначально имеет малое ненулевое значение PageRank;

· каждая страница, имеющая исходящие ссылки, передает часть своего PageRank страницам, на которые ссылается. При этом переданный PageRank обратно пропорционален числу ссылок на странице - чем ссылок больше, тем меньший PageRank передается по каждой из них;

· PageRank передается не полностью, на каждом шаге происходит "затухание", принятое как вероятность того, что пользователь начнет просмотр с новой случайно выбранной страницы.

Таким образом, после того, как поисковая система, используя текстовые критерии, отобрала релевантные документы, они могут быть отсортированы согласно PageRank. В предположении, что документ, имеющий большее число качественных внешних ссылок, содержит более ценную информацию. PageRank выделяет в поиске те документы, которые наиболее популярны.

PageRank не используется непосредственно в алгоритме Google или других поисковых машин. Основная причина этого в том, что данный алгоритм характеризует лишь количество и качество внешних ссылок на сайт, не учитывая ссылочный текст и информационное содержимое ссылающихся страниц, меж тем как именно эти факторы должны быть наиболее весомы при ранжировании. Предполагается, что для ранжирования Google использует модифицированный "тематический PageRank", учитывающий только ссылки с тематически связанных страниц, однако детали этого алгоритма в настоящее время известны лишь разработчикам Google.

Значение PageRank для конкретной web‑страницы может быть оценено с помощью панели инструментов Google ToolBar, показывающей значение PageRank как номер диапазона от 0 до 10 (PR), при этом PR определяется по логарифмической шкале.

На практике PR может быть использован в двух целях:

· быстрая оценка уровня популярности сайта. Для сайтов среднего объема и популярности наиболее типично значение PR от 2 до 5. Значения PR от 8 и выше встречаются только у сайтов крупных компаний;

· косвенная оценка уровня конкуренции по поисковому запросу. Так, если в первой десятке выдачи поисковой системы находятся сайты со значением PR 6‑7, то сайт с PR=4 по данному запросу практически неконкурентен.

Отечественными аналогами PR являются алгоритмы тематического (ТИЦ) и взвешенного (ВИЦ) индексов цитирования, применяемые поисковой системой Яndex. Значения ТИЦ показываются в плагине Яndex.Bar, ТИЦ рассчитывается для сайта в целом. В силу наибольшего охвата русскоязычных ресурсов Интернет ПС Яndex, значение ТИЦ наиболее подходит для оценки русскоязычных сайтов.

Распространенным способом увеличения ссылочной популярности сайта является добавление его в каталоги ресурсов. Среди огромного множества существующих каталогов ценность представляют лишь те, которые размещают прямую ссылку на сайт, используя стандартную конструкцию формата HTML (тег <A>). Как правило, поисковые системы учитывают лишь прямые ссылки. Также имеет значение способ регистрации - только регистрация, проходящая под контролем человека, дает удовлетворительные результаты. Каталоги "free for all" (FFA), автоматически размещающие ссылки любой тематики, всегда нерелевантны и чаще всего находятся в "черном списке" поисковых систем.

Крупнейшими каталогами Интернет, имеющими большое число серверов‑"зеркал", являются проекты DMOZ или Open Directory Project (www.dmoz.org) и Yahoo (www.yahoo.com). В России наиболее известны каталоги компаний Яndex, list.mail.ru, а также top100.rambler.ru, www.refer.ru.

Эффективным для увеличения ссылочной популярности может оказаться и обмен прямыми ссылками с другими сайтами. Однако, неквалифицированное использование этого способа может дать обратный ожидаемому результат. Следует также помнить, что поисковые системы в общем "не приветствуют" обмен ссылками, в большинстве случаев имеющий целью изменить выдачу поисковой системы и не несущий ничего полезного пользователям. На основании анализа имеющегося опыта, можно сформулировать следующие правила:

· есть смысл меняться ссылками только с тематически связанными ресурсами, нетематический обмен, как правило, малоэффективен;

· страница, где размещается Ваша ссылка, должна быть качественной, то есть, иметь PageRank не менее 2, она должна быть доступна для индексации поисковыми системами, размещаемая ссылка должна быть только прямой, общее число ссылок на странице не должно превышать 40‑60 и т.д.;

· без особой необходимости не следует создавать собственных каталогов ссылок. Во‑первых, это препятствует "удерживанию веса PageRank" внутри сайта, во‑вторых, создание действительно полноценного каталога ссылок для средних и даже крупных сайтов в настоящее время нереально по трудоемкости, в третьих, многие поисковые системы сегодня искусственно занижают веса ссылок из каталогов. Имеет смысл сосредоточить все внешние ссылки на одной или нескольких страницах, имеющих ненулевой PageRank, ограничить число внешних ссылок, запретить индексацию ссылочных страниц тегом <noindex>, с помощью директив файла robots.txt [29], либо использованием JavaScript‑ссылок, не индексируемых поисковыми машинами. Как правило, поисковые системы отслеживают взаимные ссылки, и прямой обмен по принципу "сайт на сайт" неэффективен, следует использовать для размещения ответных ссылок другой домен/сайт, отличный от продвигаемого. Например, схема "сайт A ссылается на сайт B, сайт B на C, а C на A" повышает PR более эффективно;

· ссылочный текст должен быть разнообразен, одинаковые внешние ссылки на сайт могут быть интерпретированы поисковыми системами как попытка спама.

Независимо от способа регистрации web‑страницы поисковой системой, при проектировании сайта следует учесть следующие факторы, делающие его "дружественным" для поисковых роботов:

· "правило трех кликов" - любые страницы сайта должны быть доступны по ссылкам с главной страницы не более, чем за 3 перехода. Если структура сайта этого не допускает, указанное правило позволяет выполнить "карта сайта", содержащая ссылки на все основные подразделы и страницы;

· "правило статического URL" - идентификаторы сессий и другие динамические элементы URL затрудняют индексацию страницы, поэтому использовать их следует только там, где без них нельзя обойтись. Это же относится к навигации через скрипты;

· "правило объема" - базы данных ИПС велики, но не беспредельны; разработчиками всегда предусмотрены ограничения на объем информации, индексируемой по одному URL. Верхняя оценка допустимого объема текста на одной странице - 100‑200 Кб.

Таким образом, можно выделить следующие принципы разработки оптимизированного под ИПС тематического контента, обеспечивающие приемлемую "видимость" сайта в популярных поисковых машинах без привлечения специальных SEO‑технологий:

· сайт должен содержать большое количество страниц с текстовым контентом, при этом, размер каждой страницы должен быть "умеренным";

· контент, по возможности, должен быть уникальным;

· при поддержке сайта должна соблюдаться иерархическая древовидная структура размещения контента, должны присутствовать "сквозные" ссылки с каждой страницы с содержимым на главную страницу сайта и находящиеся выше уровнем страницы разделов или подразделов. Сайт должен обеспечивать прямую HTML‑навигацию без скриптов или редиректов, со статическими адресами каждой страницы с содержимым, а также продуманную иерархию разделов и подразделов глубиной не более 3‑4 уровней вложения;

· отсутствие избыточного количества внешних ссылок с сайта, их сгруппированность по специально выделенным страницам, использование внешних ссылок, если они не носят характера цитирования, только в тематически близком контексте, желательно, на уже "авторитетные" (имеющие высокий ТИЦ) в данной предметной области ресурсы;

· сайт должен развиваться и регулярно обновляться, что обеспечивает более частую его переиндексацию, он должен быть расположен на качественном хостинге. Так, многими ИПС "предпочтение" отдается сайтам, расположенным в доменных зонах .edu, .mil, .gov и т.п., поскольку подобные домены могут зарегистрировать только соответствующие организации.

Рассмотрим классификацию поисковых систем более детально.

Исторически первым способом организации ссылок на ресурсы Интернет стало создание тематических каталогов ресурсов, в которых ссылки группировались согласно тематике. Первым подобным проектом стал Yahoo, открывшийся в 1994 году. Когда количество сайтов в каталоге существенно увеличилось, к нему была добавлена локальная поисковая машина для отбора ссылок по набору ключевых слов, входящих в описания. Подобным же образом развивались и другие крупные каталоги. Первой полноценной ИПС стал проект WebCrawler появившийся в конце 1994 года. В 1995 году открылись поисковые службы Lycos и AltaVista. Последняя в течение нескольких лет была лидером в области поиска информации в Интернет. В 1997 году Сергей Брин и Лоренс Пейдж создали ИПС Google в рамках исследовательского проекта в Стэнфордском университете. В настоящий момент Google - самая популярная поисковая система в мире. 23 сентября 1997 года была официально анонсирована поисковая система Яndex, наиболее популярная в русскоязычном сегменте Интернет. К другим популярным ИПС по русскоязычным ресурсам относятся Rambler, Google, Aport, Mail.ru и KM.ru.

В настоящее время к крупнейшим международным поисковым системам, имеющим собственные базы данных и алгоритмы поиска, относятся ИПС Google, Yahoo и MSN Search,. Большинство остальных ИПС используют в том или ином виде результаты трех перечисленных. Так, ИПС AOL (search.aol.com) и Mail.ru в течение долгого времени использовали базу данных Google, а AltaVista, Nestcape, Lycos и AllTheWeb - базу данных Yahoo.

Принято различать три основных типа ИПС [30].

Классификационные ИПС используют иерархическую организацию информации, описываемую с помощью рубрикатора (классификатора). Разделы классификатора называются рубриками. Классификатор разрабатывается и совершенствуется коллективом авторов. Затем его использует коллектив специалистов, называемых систематизаторами, которые, зная классификатор, читают документы и приписывают им классификационные индексы, указывающие, каким разделам классификатора эти документы соответствуют. Наиболее яркий пример классификационной ИПС - Yahoo, в которой одновременно работает более 100 систематизаторов, а также Excite, Look Smart.

Классификационные ИПС обладают рядом специфических недостатков. Разработка классификатора связана с оценкой относительной важности различных областей человеческой деятельности. Любая оценка является как социально обусловленным, так и весьма субъективным действием - она связана с обществом, культурой, социальной группой, к которой принадлежит производящий оценку человек. Поэтому классификаторы созданные разными коллективами в разных странах существенно различаются. Кроме того, у систематизаторов возникают сложности с интерпретацией материалов, написанных на иностранных языках.

Поскольку абсолютно неизбежно существуют документы, которые можно отнести к нескольким разделам классификатора, в подобных случаях применяются два приема:

· отсылка (в Yahoo она обозначается знаком @) помещается в тех разделах классификатора, в которые не попал данный документ - в ней указывается, к какой рубрике он отнесен систематизатором;

· ссылка на раздел используется в тех случаях, когда аналогичная информация может находиться в других разделах классификатора.

Словарные ИПС используют базу данных, ИПЯ и ранжирование результатов поиска. К этому классу относятся такие ИПС, как AltaVista, Rambler, Яндекс, Апорт.

В предметных ИПС с поисковым образом связаны списки ресурсов Сети, содержащих нужную информацию и ссылки на близкие по тематике сайты. В подобных ИПС создаются кольцевые ссылочные структуры. Так, сервер www.webring.org содержит несколько десятков тысяч тематических колец (средний размер кольца - около 12 серверов, но существуют и кольца‑гиганты, в состав которых входят тысячи серверов). Пока кольца были небольшими, поиск информации трудностей не представлял. Для облегчения поиска на указанном сервере используются собственные классификационная и словарная ИПС. С помощью предметных ИПС можно искать вполне определенные информационные объекты, список которых включает термины, данные, библиографию, адреса, материалы конференций.

С развитием поисковых систем естественным путем образовались комбинированные (гибридные) ПС, позволяющие вести поиск как с помощью ключевых слов ИПЯ, так и с помощью каталога. Поисковые системы, позволяющие вести комбинированный поиск по ключевым словам и с помощью каталогов, а также содержащие документы различных тематических направлений, называют портальными.

Большинство крупных современных ИПС являются комбинированными, однако, результаты поиска с помощью различных ПС по‑прежнему могут существенно отличаться друг от друга. Это связано с тем, что в каждой ПС проиндексировано различное число документов и множества этих документов могут существенно расходиться. Кроме того, как показано выше, алгоритмы индексации на каждой ПС имеют свои особенности. Так, национальные ПС в первую очередь обрабатывают информацию, составленную на родном языке, например русскоязычные ПС Яndex и Rambler. Периодичность обновления информации с помощью роботов также различна, и она определяется как быстродействием конкретной ПС, так и частотой индексирования ей сайтов в том или ином домене.

Метапоисковая система позволяет вести автоматический поиск по сделанному запросу с использованием сразу нескольких поисковых машин. Как правило, роль метапоисковой ИПС сводится к пересылке запроса нескольким ИПС и обработке результатов поиска от каждой из них, возможно также ранжирование найденных документов по собственным критериям релевантности. Пример популярной метапоисковой системы - MetaCrawler (www.metacrawler.com).

Кроме ИПС общего назначения существуют специализированные ПС, которые могут быть предназначены для поиска музыкальных файлов (www.midi.ru), рисунков (www.graphsearch.com), книг (bukinist.agava.ru), кулинарных рецептов (www.cooking.ru/search.html) и т. д. Специализированные ПС для поиска файлов ограничивают круг индексации доступными ресурсами ftp‑серверов. Они позволяют осуществлять поиск по фрагменту имени или типу файла, а также по его атрибутам.

При выборе круга ИПС, с помощью которых целесообразно решать специализированную поисковую задачу, как правило, сравниваются два основных показателя: пространственный масштаб, в котором работает ИПС, и ее специализация.

Локальная ИПС при формировании информационного массива следит за обновлением наперед заданного набора документов, каталогов или конечного числа узлов, отобранных по какому‑либо принципу.

Построение локальных (как и специализированных) ПС предполагает активную не‑автоматизированную фильтрацию информации, добавляемой в индекс.

Простота организации локальной по web‑узлу поисковой машины делает ее необходимым атрибутом тематически специализированного сайта. Если сравнить содержимое индекса локальной системы с информацией о том же узле из индекса глобальной ПС, локальная система, как правило, превосходит глобальную по полноте данных и частоте их обновления. Благодаря этому наиболее эффективный путь от запроса на глобальной ИПС к конечному блоку информации лежит через промежуточное звено - локальный поисковый сервис узла.

Глобальная ИПС решает более трудоемкую задачу выполнения возможно более полного охвата ресурсов всего информационного поля www, которое она обслуживает. Как показано выше, следствием этого становится возрастание роли механизма, используемого глобальной ИПС для увеличения числа подконтрольных узлов.

Специализация ПС на базе тематического профиля теоретически может происходить как на глобальной, так и на локальной основе. Разумеется, специализированную ИПС проще построить и сопровождать на ограниченном пространстве обновляемых узлов, что обычно реализуется на практике.

Региональными ПС информация фильтруется в основном на основе распознавания домена верхнего уровня сервера, например ru и su для России. Серьезным недостатком таких систем является то, что они слабо учитывают значительное количество ресурсов, размещаемых разработчиками в популярных интернациональных доменах, таких как com и org. Региональная специализация нередко привносятся и в сервис глобальных ИПС. Система Lycos, например, ранжирует результаты из списка отклика в зависимости от того, из какого региона поступил запрос.

Важные характеристики, влияющие на выбор ИПС для решения поисковых задач, могут быть связаны как с фазой индексирования, так и с фазой обработки запросов системой.

Избирательность - способность ПС отбирать документы, соответствующие запросу, не включая лишних документов. Качество избирательности характеризуется числом ошибок первого рода (отобранных документов, не соответствующих запросу). Чем выше избирательность, тем меньше посторонних документов попадает к пользователю. Избирательность можно изменять (регулировать) с помощью логических операторов (фильтров).

Чувствительность - способность ПС отбирать документы, соответствующие запросу, не пропуская нужных документов. Чувствительность характеризуется числом ошибок второго рода (пропусков нужных документов). Чем выше чувствительность, тем меньше вероятность пропуска требуемого документа.

Релевантность - степень (мера) соответствия (адекватности) найденного в процессе поиска документа сделанному запросу. Существующие числовые характеристики релевантности подробно описаны выше.

Для оценки приведенных характеристик используется как тестовый поиск с заранее известными целевыми документами, так и специально разрабатываемые метапоисковые сервисы.

Наконец, как выбор ИПС для решения поисковых задач, так и планирование локальных поисковых средств, должны учитывать следующие технические характеристики:

· объем индекса, обычно измеряемый в миллионах проиндексированных документов;

· скорость индексирования, измеряемая в миллионах проиндексированных документов в день;

· время автоматической индексации нового ресурса. Например, если требуются сведения, которые могли поступить в Сеть только за последнюю неделю, следует предпочесть поисковые машины с высокой скоростью индексирования и минимальным временем регистрации, через которое документ по представлению автора появляется в индексе;

· учет ПС частоты обновления документа (более часто обновляемые документы могут чаще индексироваться);

· глубина индексирования сайта; Для ускорения сканирования узла робот поисковой машины может ограничивать глубину его индексирования. В результате даже такой крупный индекс, как Excite, может оказаться непригодным для поиска данных, которые в типичных случаях принято размещать в глубине узла;

· наличие расширенного интерфейса запросов и развитого ИПЯ (все крупные системы);

· возможность фильтрации поиска по структурным элементам страниц (заголовки, ключевые слова и описания, подписи изображений);

· поддержка многоязычности при поиске (Google, AltaVista);

· поддержка регионального поиска с автоматическим определением региона по IP‑адресу пользователя (Google, Яndex);

· наличие фильтров для быстрого поиска специализированных объектов, таких как ActiveX, Macromedia Flash, Javascript (HotBot);

· чувствительность к закрытым форматам хранения данных, таким как PDF (Lycos, HotBot). Если цель поиска с самого начала связана с одним из таких форматов, то целесообразно использовать глобальные системы с поддержкой соответствующих фильтров (например, Lycos, HotBot) или специализированные системы.

Следует отметить, что дальнейшее развитие глобальных ИПС может быть связано, прежде всего, с совершенствованием существующих средств поиска, а не увеличением числа ИПС. Основная причина этого - значительное увеличение экономического "стартового барьера", который необходимо преодолеть для создания полноценной ПС. Так, наиболее популярные глобальные ИПС имеют на сегодняшний день техническое оснащение, состоящее из сотен серверов и привлекают к работе сотни человек персонала.

Анализ позволяет выявить следующие тенденции развития современных ИПС:

· специализация поиска - при сохранении возможности глобального поиска данных с использованием ИПЯ, развитая ИПС поддерживает множественную категоризацию документов по рубрикам, повышая в результатах поиска релевантность документа, относящегося к искомой рубрике;

· регионализация поиска - поисковый массив зависит от региона, из которого поступил запрос. Для наиболее популярных ИПС это направление работы связано также с разработкой узлов‑зеркал (mirrors). Зеркала должны содержать точную копию индекса первичной ИПС и гарантировать быстрое обслуживание обращений, поступающих из определенной географической зоны. На практике обновление индекса зеркальной системы всегда происходит с запозданием. Альтернатива между скоростью работы и полнотой данных становится значимой для пользователя, если он имеет возможность обратиться и к зеркалу, и к первоисточнику. В целом, для решения задачи первичного отбора информации, доступной посредством Интернет, сегодня заметно возрастает роль региональных и специализированных поисковых сервисов. Использование глобальных индексов не для прямого поиска нужных сведений, а для локализации этих поисковых инструментов нередко позволяет форсировать поисковую кампанию в сжатые сроки;

· персонализация поиска - учет ранее введенных конкретным пользователем запросов и их результатов, учет при оценке релевантности документа интересов пользователя, указанных им на персональной странице настройки ИПС, возможность создания пользовательских мини‑порталов, формирующихся из выбранных пользователем информационных блоков. Лидером в области персонализации поиска является в настоящее время ИПС Google, активно развивающая перечисленные технологии;

· развитие средства метапоиска - метапоисковая система выступает в качестве шлюза, который передает через свой интерфейс запросы на автономные ИПС и возвращает результаты поиска. Одно из назначений метапоискового сервиса при поиске - тестирование Сети на предмет информации, релевантной запросу. Метасистемы позволяют также оценить результативность применения отдельных ИПС для решения конкретной поисковой задачи. Основная проблема развития метапоисковых ИПС заключается в неразвитости проекта стандартизации поисковых систем [24]. Cтандартизация ИПС существенно расширит возможности шлюзования. Теоретически метасистема допускает передачу запросов не только на автоматические индексы, но и в те каталоги, которые сопровождаются локальной поисковой машиной;

· введение систем контроля за качеством добавляемой информации - в общем случае, на первом этапе происходит разбиение индекса ИПС по тематикам с автоматической классификацией документов. Вместе с тем, при классификации документов, происходит "грубый отсев" документов, не соответствующих тематике. Этим достигается уменьшение "информационного шума" в тематике, а следовательно и во всём индексе. Далее, для понижения нагрузки на сеть и повышения эффективности операции поиска происходит выбор подмножества тематик, которые наиболее соответствуют данному запросу. То есть операция поиска выполняется не во всех коллекциях, а только в некотором подмножестве, что даёт сокращение времени поиска по индексу. Кроме того, выбор числа документов из каждой коллекции (тематики) осуществляется пропорционально вычисленным оценкам релевантности каждой тематики.

Несмотря на постоянный рост индексов поисковых систем, экспертные оценки показывают, что опережающие темпы увеличения общего числа документов в целом ухудшают картину доступности информации. Доля документов на конкретном языке, захваченная отдельным индексом, сегодня не превышает 30‑40 процентов. Отсюда становится ясно, что только применение совокупности из нескольких развитых поисковых машин способно дать полноценную информационную картину для поисковых задач, при решении которых существенна полнота поиска данных.

2.3 Каталоги ресурсов

Появление каталогов связано с естественным процессом отбора ссылок пользователями и составлением упорядоченных тематических списков ссылок с детализацией каждого раздела (рубрики). Например, таким образом возник наиболее известный в мире каталог Yahoo!, созданный студентами Стэндфордского университета Дэвидом Фило и Джерри Янгом. В каталогах размещение информации ведется с помощью многоуровневой рубрикации, причем на каждом уровне происходит все большая детализация сведений об искомом или хранящемся документе. Как правило, при этом рубрики находятся в отношении иерархии или последовательного уточнения.

Основным термином, характеризующим работу каталогов, является рубрикация.

Рубрикация - это помещение документа в соответствующий его содержанию раздел, которое, как правило, производится вручную специалистами (модераторами, аналитиками) или авторами разработанных документов (владельцами ресурсов, web‑дизайнерами). Процедура рубрикации достаточно субъективна и осуществляется на основании индивидуальных представлений людей о данной предметной области. Авторы при размещении своих страниц порой руководствуются не соображением точного соответствия документа названию рубрики, а иными соображениями, такими, как увеличение посещаемости своих страниц. Документ, содержащий разнообразную информацию, может быть помещен в несколько рубрик.

Кроме иерархических каталогов, встречаются и другие их типы - неиерархические, не поддерживающие соподчинения рубрик. Вместо этого, как правило, используется алфавитно‑предметная классификация. В качестве примера можно назвать специализированные энциклопедии, музыкальные сайты, телефонные справочники и т. п.

При качественной рубрикации и последовательной ее поддержке результаты поиска по специализированным запросам с помощью каталогов имеют большую релевантность по сравнению с запросами к ПС общего назначения.

Каталоги ссылок широко использовались ранее, но практически утратили свою популярность в настоящее время. Причина этого проста - даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части ресурсов Интернет. Так, считающийся самым большим по объему каталог DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

Из глобальных каталогов, регистрация в которых способна в настоящее время дать сколько‑нибудь заметное увеличение посещаемости сайта и его "видимости" в Интернет, можно назвать каталоги Yahoo, Open Directory Project, About.com, Snap, LookSmart и Go.com.

Роль каталогов, заметно упавшая на глобальном уровне накопления данных, остается важной для регионального или тематически и технически специализированного поиска.

Таким образом, применение специализированного каталога с не‑автоматизированным отбором ресурсов, регулярным сопровождением, поддержкой и уточнением описаний ресурсов, способно повысить информативность тематически ориентированного Интернет‑портала.

2.4 Другие технологии сбора информации

К новым и перспективным средствам систематизации Интернет‑ресурсов можно отнести WebSom‑технологии и системы автоматического каталогизирования. Методология WebSom‑технологий основана на подготовке категорий смысловых единиц (фактически - это разделы предметной области, которую предстоит описывать), которые затем используются при автоматизированном лексическом анализе документов с целью построения гистограммы категорий, представляющей собой "смысловой портрет" документа. В дальнейшем документ автоматически позиционируется на двумерной карте, представляющей собой распределение плотностей документов вокруг "узлов" - смысловых единиц карты.

Доступ пользователя к массиву документов, спроецированных на карту, в идеале осуществляется посредством одного щелчка "мыши" - визуально предметная область представляется как карта с разнородной окраской, где более темные области соответствуют большему числу документов. В зависимости от содержания документов, области карты поименованы. Пользователь с помощью "мыши" выбирает любую точку на карте и получает соответствующие ей документы. Для получения документов, содержание которых находится на пересечении нескольких категорий, достаточно кликнуть мышкой в точку, расположенную между (или на пересечении) областей этих категорий.

Однако, применение данной технологии в отношении русскоязычных ресурсов наталкивается, прежде всего, на те трудности, что в русском языке используется менее строгая модель построения предложений, чем в английском, существенно большее влияние имеет стиль документа, а большинство понятий русского языка составляют не отдельные лексемы, а словосочетания (согласно исследованиям профессора Г.Г. Белоногова - более 60%). Соответственно, методик автоматизированной подготовки категорий смысловых единиц в настоящее время для русского языка не существует.

Перспективными в настоящий момент являются исследования, позволяющие создать автоматические тематические каталоги без вмешательства человека и улучшить качества тематических каталогов с применением синонимов и ассоциирующих терминов. С этой целью используется аппарат нечетких множеств и подход Беллмана‑Заде, позволяющий распределить информационные ресурсы Интернет по тематическим профилям [31]. Тем не менее, в применении к практике русскоязычного Интернета эти математические модели сталкиваются с теми же трудностями, что и аппарат WebSom‑технологий.

Развитие масштабируемых алгоритмов классификации текстов [32, 33] позволяет в перспективе привлечь к решению задачи отбора релевантных документов алгоритмы, обладающие низкой вычислительной сложностью обучения и классификации, достигаемых за счет сужения пространства признаков рубрик для задач автоматической классификации текстовых данных.

Наконец, перспективной является идея расширения стандартов разметки HTML/XHTML/XML фильтрующими микроформатами, способными решить ряд классификационных задач без привлечения математического аппарата.

Фактически, проблема состоит в том, что имеющиеся в языках разметки семантические средства непосредственно применимы только к элементам технических документов. Для описания любых других классифицируемых данных (ресторанных рейтингов, поэзии, прайс-листов) специальная семантика отсутствует, соответственно, невозможна их машинная обработка.

Вместо разработки дополнительных форматов или XML-шаблонов для предметных областей микроформаты предлагают стандартизацию использования имеющихся в HTML атрибутов rel и class с целью внесения в документы машинно-читаемой структуры непосредственно авторами текста. ПРи этом интерпретация документов современными браузерами не меняется.

Атрибут rel, имеющийся у тегов ссылок (<a>, <link>), служит для указания типа ссылки (постоянная, альтернативная, не требующая индексации роботом и т.п.). Атрибут class позволяет произвольно группировать элементы HTML, относя их содержимое к тем или иным категориям. Стандартизация подобной группировки открывает перспективы машинной обработки любых категоризируемых данных.

В настоящее время крупнейшие ИПС, такие как Google, Yahoo и MSN Search активно развивают и начинают использовать технологию разметки микроформатами. Крупнейшим ресурсом, посвященным развитию данной технологии, является microformats.org.

2.5 Тематические Интернет‑серверы и их роль в систематизации знаний

В связи с вышеизложенным, особую роль в настоящее время приобретает создание специализированных Интернет‑порталов, ориентированных на конкретные предметные области, особенно в применении к образовательным и исследовательским задачам, и позволяющих гибко решать как задачи поиска и каталогизации актуальной тематической информации, так и выполнять организационно‑административные функции.

Понятие информационного тематического портала появилось не так давно, но стало уже довольно распространенным. Первые информационные порталы были "единой точкой входа" в Интернет для пользователей, интересующихся какой‑либо темой. Создатели порталов стремились собрать и представить в систематизированном и удобном виде как можно больше полезных информационных ресурсов, распределяя их для удобства по категориям (рубрикам). Некоторые ресурсы были представлены на порталах непосредственно своими материалами, а большинство - гиперссылками.

Интернет‑порталы позволяют широкому кругу пользователей находить необходимую информацию наиболее удобным способом, обращаться с запросами и получать ответы организации‑владельца портала ежедневно и круглосуточно. Особенность современных интернет‑порталов состоит в том, что они способны "подстраиваться" под каждого пользователя, предоставляя ему в первую очередь ту информацию, которая его наиболее интересует, помогая избежать ошибок и недоразумений.

Следует обратить внимание на то, что, создавая портал, нужно четко представлять, кто составит его целевую аудиторию, какую информацию посетители найдут на его страницах, кому будет поручена ее актуализация, какие услуги смогут получить пользователи с помощью этого портала.

На основании существующего опыта разработки и поддержки сложных тематических Интернет‑порталов, можно сформулировать перечисленные ниже требования к структуре и наполнению специализированного портала.

В современных условиях чрезвычайно трудно в одном Интернет‑ресурсе отслеживать весь быстрорастущий объем информации об исследованиях даже в конкретной предметной области. Выходом является скоординированное создание и сопровождение самостоятельных Интернет‑ресурсов всеми головными субъектами, отвечающими за развитие соответствующих научных и образовательных направлений.

В этом случае специализированный хостинг Интернет‑портала обеспечивает возможность консолидации в рамках распределенного портала отдельных тематических сайтов путем формирования единого поискового каталога Интернет‑ресурсов предметной области и единой новостной ленты, автоматически собираемой из новостей с отдельных подсайтов.

Специализированный портал сдается в постоянную эксплуатацию с предоставлением эксплуатационной документации, организацией постоянно действующей телефонной линии для консультаций и учебного курса по тематическому наполнению Интернет‑сайтов, входящих в распределенный Портал силами специалистов, не являющихся программистами.

Оптимальной по соотношению гибкости и эффективности представляется структура портала, состоящая из двух независимых частей, использующих одинаковые программные компоненты:

внутренняя часть, обеспечивающая информационное взаимодействие субъектов, участвующих в поддержке портала, подготовку и подписание информации к публикации на портале;
внешняя часть, реализующая информирование пользователей и предоставление интерактивных сервисов.

В процессе реализации системы разрабатывается схема безопасной репликации (синхронизации) информации между двумя частями в соответствии с модифицируемой политикой публикации информации на портале (электронным административным регламентом публикации).

Главное портальное приложение обеспечивает базовую функциональность системы по управлению информационными объектами (ИО) и формированию комплекса навигационных элементов портала (меню, оглавлений, рубрикаторов и т.п.), управление таксономией, формирование дизайна портала, трансформацию и выдачу опубликованных информационных объектов для доступа пользователей, кэширование страниц портала и др.

Внешняя часть портала имеет блочно‑модульную структуру и может разрабатываться постепенно, гибко реагируя на возникающие информационные потребности. Требования к структуре блока и модуля определяются ядром системы, как правило, эти требования сводятся к подключению модулем инициализирующей части программного кода и дальнейшим соблюдением форматов вывода портала (например, в простейшем случае, к записи формируемого контента в глобальную переменную с фиксированным именем).

Подсистема публикации портала основывается на работе с информационными объектами и их метаописаниями. Подсистема обеспечивает поддержку полного жизненного цикла ИО в соответствии с редакционной политикой портала. Подсистема публикации обеспечивает поддержку маршрутизации (последовательности обработки) ИО.

Необходимыми представляются требования предоставления доступа к новостям и другим информационным материалам портала по протоколу RSS, поддержка интерфейса пользователя на русском и английском языках.

В связи с общей картиной относительной распространенности в настоящее время клиентских браузеров, страницы портала оптимизируются для просмотра с помощью браузеров Internet Explorer 5.5 и выше, Opera 7.0 и выше, Mozilla Firefox 1.0 и выше.

Для упорядочения объектов на портале предусматривается использование многомерной таксономии (системы рубрик), включающей как тематические, так и иные классификаторы, причем каждый объект может описываться сразу несколькими классификаторами одновременно.

Административные интерфейсы портала предусматривают гибкие средства управления таксономией, системой меню, а также различными вспомогательными справочниками и классификаторами, используемыми на портале. Должны быть предусмотрены механизмы загрузки внешних справочников и классификаторов, получаемых из смежных систем и иных источников.

Подсистема дискуссий (форумов) обеспечивает поддержку процессов взаимодействия между пользователями портала, управление и доступ к форумам портала. Подсистема позволяет зарегистрированным пользователям публиковать сообщения в темах и просматривать сообщения других пользователей. Подсистема обеспечивает проведение коллективных обсуждений, в т. ч., с привязкой к опубликованным информационным объектам.

Подсистема электронной библиотеки обеспечивает автоматизацию процессов создания, хранения и представления содержимого информационных объектов.

Подсистема поиска позволит осуществлять полнотекстовый многокритериальный поиск информации по метаописаниям с учетом морфологии русского языка во всех разделах и подразделах портала, с возможностью использования расширенного языка запросов, включающего стандартные логические операции над ключевыми словами для поиска.

Подсистема уведомлений и почтовых рассылок обеспечивает рассылку по электронной почте тематических информационных материалов портала и автоматических уведомлений об обновлениях и событиях в соответствии с настройками персонализации пользователя. Подсистема обеспечивает возможность получения периодических дайджестов информационных материалов Портала.

Подсистема обмена с внешними информационными источниками используется для:

импорта информационных объектов (новостей, анонсов, мероприятий и т.п.) из внешних источников;
экспорта информационных объектов на внешние ресурсы.

Обмен с внешними источниками позволяет:

экспортировать и импортировать пользовательские права и настройки при работе с доверенными ресурсами.
осуществлять имплементацию новых стандартов взаимодействия без модернизации базовой части подсистемы.

Подсистема хранения данных портала обеспечивает возможность:

централизованного управления распределенным хранилищем данных;
реализации логики хранения данных (в том числе обеспечения их целостности и непротиворечивости в любой момент времени) штатными средствами;
поддержки процессов полнотекстового поиска информационных объектов по их метаописаниям;
обеспечения вывода информации в стандартизованных в пределах портала форматах;
обеспечения разделения прав доступа к хранимой информации;
доступа к данным согласно стандарту ISO/ANSI SQL 92;
выполнения регламентных работ (резервное копирование, восстановление после сбоев и т.п.) штатными средствами.

Подсистема мониторинга и управления предлагает собственные средства для отслеживания посещаемости и интенсивности использования Портала. Данная информация предоставляется в двух формах:

для нужд управленческого мониторинга с возможность получения уполномоченными лицами данной информации для последующего построения отчетов по степени востребованности информации и сервисов;
для нужд технического мониторинга с возможностью анализа интенсивности нагрузки на технические средства, выявления угроз безопасности, сбоев и отказов в обслуживании.

Подсистема аутентификации, авторизации и управления пользователями обеспечивает разделение прав доступа пользователей к разделам и сервисам в соответствии с модифицируемой ролевой моделью, как к административному интерфейсу, так и к пользовательской части портала. В состав подсистемы включаются:

механизмы аутентификации и авторизации пользователей по индивидуальным логину и паролю;

механизмы создания групп пользователей и управления политикой безопасности для этих групп, включая индивидуальное назначение прав доступа к тем или иным категориям информационных объектов.

На основе данных подсистемы обеспечивается персонализация пользовательского интерфейса (набора информационных объектов, представляемых пользователю).

Портал должен обеспечивать устойчивую работу при нагрузке до 30000 HTTP‑запросов в час, при этом среднее время отклика системы на запрос не превышает 2000 мс, а максимальное - 8000 мс. Данные параметры выдерживаются при выполнении любых комбинаций HTTP‑запросов, порождаемых при обращении к произвольным разделам портала.

Таким образом, тематический Интернет‑портал способен выполнить интегративную, информационную, коммуникативную и обучающую функции в образовательных и аналитических информационных системах. Общие принципы и опыт разработки Интернет‑ресурсов, связанных с систематизацией и представлением знаний, раскрыты в следующем разделе монографии.

гостевая; E-mail