10.6.2.3. Поиск во Всемирной паутине
<<Назад
|
Содержание
| Далее>>
В web размещены
миллионы сайтов, причем с актуальной информацией соседствует
много устаревших ресурсов, мусора и недобросовестной рекламы.
Интернет - это наиболее демократичный
источник информации. Каждый может разместить в Сети собственный
ресурс и высказать свое мнение. В этом одновременно сила и
слабость Всемирной сети.
Находить информацию в Интернете,
вероятно, было бы очень трудно, если бы не были созданы мощные
поисковые инструменты: поисковые машины (поисковики),
каталоги-рейтинги (рубрикаторы), тематические списки
ссылок, онлайновые энциклопедии и словари.
Для поиска разного рода информации
наиболее эффективными оказываются различные инструменты.
Каталоги ресурсов
Каталог имеет иерархическую структуру.
Тематические разделы первого уровня определяют максимально
широкие темы, такие как "спорт", "отдых", "наука", "магазины" и
т.д. В каждом таком разделе могут быть подразделы. Пользователь
может уточнять интересующую его область, путешествуя по дереву
каталога и постепенно сужая зону поиска. Например, при поиске
информации о ноутбуках цепочка поиска может выглядеть так:
Информационные технологии -> Компьютеры -> Ноутбуки. Дойдя до
нужного подкаталога, пользователь находит в нем набор ссылок.
Обычно в каталоге все ссылки являются
профильными, поскольку составлением каталогов занимаются не
программы, а люди. Очевидно, что если ведется поиск общей
информации по некоторой широкой теме, то целесообразно
обратиться к каталогу. Если же необходимо найти конкретный
документ, то каталог окажется малоэффективным поисковым
средством.
Часто каталоги ресурсов одновременно
являются и рейтингами, т.е. каталог предлагает
зарегистрированным в нем сайтам установить на своих страницах
счетчик посещений, и отображает списки ссылок на сайты
в соответствии с их популярностью (посещаемостью). Популярность
ресурса оценивается по ряду параметров, в том числе по так
называемым хостам (количество уникальных посетителей в
сутки) и хитам (количество заходов на сайт в сутки).
Одним из наиболее популярных
каталогов-рейтингов является Rambler's Top 100.
(http://top100.rambler.ru/top100/). Часто бывает интересно
оценить состояние не общероссийских, а региональных ресурсов по
конкретной тематике. Для обзора
web-ресурсов Красноярска и края можно
рекомендовать каталоги-рейтинги ресурсов
Krasland (http://www.krasland.ru/) и Сталкер
(http://www.stalker.internet.ru/).
Поисковые машины
Релевантный документ - документ,
смысловое содержание которого соответствует информационному
запросу. Современные поисковые машины осуществляют поиск по
контексту, т.е. словам, содержащимся в запросе, учитывая
вариации словоформ и расширяя запросы синонимами. Но смысла
компьютеры не понимают, поэтому в списке ответов на запрос,
наряду с релевантными вашему запросу документами, вы можете
получить и те, которые вам никоим образом не подходят.
Очевидно, что от умения грамотно
выдавать запрос зависит процент получаемых релевантных
документов. Доля релевантных документов в списке всех
найденных поисковой машиной называется точностью поиска.
Нерелевантные документы называют шумовыми. Если все найденные
документы релевантные (шумовых нет), то точность поиска
составляет 100%. Если найдены все релевантные документы, то
полнота поиска - 100%.
Таким образом, качество поиска
определяется двумя взаимозависимыми параметрами: точностью и
полнотой поиска. Увеличение полноты поиска снижает точность, и
наоборот.
Поисковые системы можно сравнить со
справочной службой, агенты которой обходят предприятия, собирая
информацию в базу данных. При обращении в службу информация
выдается из этой базы. Данные в базе устаревают, поэтому агенты
их периодически обновляют. Иными словами, справочная служба
имеет две функции: 1) создание и постоянное обновление данных в
базе и 2) поиск информации в базе по запросу клиента.
Аналогично, поисковая машина состоит из
двух частей: так называемого поискового робота
(или паука), который обходит серверы Сети и формирует базу
данных, и механизма поиска релевантных запросу
пользователя ссылок в базе.
Следует отметить, что, отрабатывая
конкретный запрос пользователя, поисковая система оперирует
именно внутренней базой данных (а не пускается в путешествие по
Сети). Несмотря на то, что база данных поисковой машины
постоянно обновляется, поисковая машина не может
проиндексировать все Web-документы: их число слишком велико.
Проблема недостаточности полноты поиска состоит не только в
ограниченности внутренних ресурсов поисковика, но и в том, что
скорость робота ограниченна, а количество новых Web-документов
постоянно растет.
Наиболее популярными на сегодня
поисковыми системами являются Google (www.google.com,
www.google.ru)
и Яндекс (www.yandex.ru).
Онлайновые энциклопедии и справочники
В ряде случаев бывает нужно найти не
просто документ, содержащий ключевое слово, а именно толкование
некоторого слова. При поиске незнакомого термина с помощью
поисковой машины вы рискуете получить целый ряд статей, в
которых этот термин используется, и при этом так и не узнать,
что же он все-таки обозначает. Подобный поиск предпочтительнее
проводить в онлайновой энциклопедии.
Одной из крупнейших онлайновых
энциклопедий является ресурс "Яндекс. Энциклопедии"
(http://encycl.yandex.ru/) - этот проект содержит 14
энциклопедий, в том числе статьи из Большой Советской
Энциклопедии и "Энциклопедию Брокгауза и Эфрона". К крупным
относится и "Энциклопедия Кирилла и Мефодия" (http://www.km.ru).
Помимо переноса в гипертекстовую среду
традиционных словарей бурно развиваются энциклопедические
wiki-проекты. Ви́ки — веб-сайт
для сбора и структуризации письменных сведений. Характеризуется
тем, что наполнять и редактировать размещаемую на нем информацию
могут все посетители. http://ru.wikipedia.org/ - википедия на
русском языке — часть многоязычного проекта, целью которого
является создание полной энциклопедии на всех языках Земли.
<<Назад
|
Содержание
| Далее>>
|