логин:    пароль: Регистрация
Вы здесь:
  
Виртуальные латимерии Григорий ГАВРЫШ, руководитель консалтингового бюро группы компаний «Кондор», специально для Контрактов - «Контракты» №7 Февраль 2006г.

Чем больше информации скапливается в интернете, тем сложнее найти там что-то полезное. Есть несколько способов углубиться в невидимый интернет


Дерево знаний
Алгоритм поиска информации в интернете
Для большинства пользователей сбор информации с использованием интернета заключается в обращении к поисковому серверу и просмотру найденных документов. Однако основные средства поиска в интернете индексируют, или проще говоря, видят лишь малую часть документов, находящихся в сети. Для определения массива информации, невидимой поисковыми серверами, используют обозначения «невидимый» (invisible) и «глубинный» (deep) интернет. Информационный объем невидимого интернета в десятки раз больше его видимой части, но традиционными способами добраться до него не получится. Однако для настойчивого пользователя эта информация доступна.

Прежде всего к данным, находящимся в Invisible Web, относятся файлы в форматах, не поддерживаемых поисковиками, базы данных, архивы, сайты, где требуется регистрация, а также данные, находящиеся в интранет-сети (внутренней сети компании), большинство текстов, созданных в виде изображения, информационные каталоги библиотек, новосозданные страницы форумов, аудио- и видеофайлы, сканированные изображения и т. п. Также стоит отметить, что поисковые серверы не индексируют большую часть информации на специализированных сайтах, ограничиваясь одной-двумя страницами, как правило, стартовой и одной текстовой. За исключением интранет и запароленных страниц, вся остальная информация находится в режиме открытого доступа, и, приложив определенные усилия, с ней можно ознакомиться.

Кроме того, все изменения, дополнения и перемещения страниц, однажды проиндексированных поисковиком, заносятся в базу со значительным опозданием. То есть нет никакой гарантии, что страница, предложенная поисковым сервером, еще существует по указанному адресу и содержит требуемую информацию. Немаловажен и тот факт, что ведущие поисковые машины (Google, Яndex и т. д.) ранжируют результаты поиска по двум параметрам: частоте цитирования (сколько раз другие сайты ссылаются на эту страницу) и как часто заданные для поиска слова (поисковый запрос) встречаются на ней. Таким образом, может оказаться, что достаточно важный для ищущего документ находится в области узкопрофессиональных интересов, нигде не цитируется, а значит, может оказаться в конце списка, предложенного поисковиком.

Время собирать информацию

Тем не менее на первом этапе сбора данных с использованием интернета обойтись без поисковиков практически невозможно. Стоит обратить внимание на то, что качество информации, выдаваемой поисковым сервером, прямо зависит от того, насколько грамотно сформулирован поисковый запрос. Если в запрос включено лишь одно слово, даже термин, относящийся к узкоспециализированной отрасли, вероятность получения требуемой информации достаточно низкая. Гораздо правильнее составлять сложные запросы с учетом синтаксиса конкретной поисковой системы. Каждый поисковик по своему воспринимает запрос: например, Google ищет слова только в форме, заданной пользователем, а Яndex учитывает различные падежи ключевых слов, находит их в единственном и множественном числе, AltaVista предусматривает использование операндов AND и OR и т. п.

Формулируя запрос, желательно сначала определить, какие именно слова, термины или жесткие речевые обороты могут содержаться в нужном документе. Затем имеет смысл пытаться подобрать синонимы или расшифровку терминов, которые могут быть использованы в документах вместо (или кроме) первоначального варианта, что значительно расширит параметры поиска и повысит качество информации.

Когда первая часть сбора информации в интернете (составление запроса для поискового сервера) выполнена, можно переходить к анализу списка документов и сайтов, выданных сервером. Прежде всего стоит оценить тематическую направленность предложенных поисковиком страниц: вряд ли, например, информация о военных контрактах Израиля будет содержаться на персональном сайте Кристины Агилеры. Затем имеет смысл оценить предполагаемую достоверность сайтов из списка. Разумеется, для конкурентного разведчика может оказаться полезным любой слух, размещенный в интернет-таблоиде, однако достоверность такой информации вызывает сомнения. Наибольший интерес представляют специализированные сайты и профильные форумы.

Просматривая и анализируя найденные документы можно выделить дополнительные ключевые слова, термины, определения, которые могут быть включены в следующий поисковый запрос. Действуя таким образом, стоит построить своеобразный поисковый цикл, с помощью которого даже из видимой части интернета можно извлечь необходимую информацию.

Что в имени твоем

Говоря о поиске в Invisible Web, следует особое внимание обратить на информацию, расположенную на профильных и специализированных сайтах и форумах. На сайтах узкой направленности (например, медицинских или образовательных) поисковики как правило индексируют небольшую часть страниц. Остальные же, в том числе и те, которые могут содержать искомые данные, можно обнаружить лишь с помощью внутрисайтовой поисковой системы.

То же можно сказать и о форумах. Нередко обсуждения на них остаются не проиндексированными поисковыми машинами вследствие двух причин. Во-первых, страницы постоянно меняются, то есть новые темы дискуссий и реплики добавляются быстрее, чем поисковик успевает отслеживать модификацию страницы. Во-вторых, нередко просмотр информации на форуме разрешен только зарегистрированным пользователям. Сам поисковик, разумеется, регистрироваться не может. Но ссылку на наличие в сети такого форума он выдаст, а дальше уже сам пользователь должен зарегистрироваться и искать нужную информацию.

Таким образом, первый и нередко самый важный шаг при поиске в невидимом интернете — просмотр и анализ данных профильных форумов. Имеется в виду сбор информации с помощью внутренней поисковой системы этого ресурса, поскольку она ищет на всех страницах, размещенных на сайте, в том числе и в архивах, которые не индексируются стандартными поисковыми средствами. Помимо высокой вероятности найти на форуме обсуждение интересующей темы, можно также установить ники (интернет-имена) или подлинные имена экспертов, комментирующих проблему. Затем с помощью обычного поисковика можно найти их выступления, публикации, комментарии или рекомендации на других сайтах, которые могут сказать об интересующем человеке, компании или проблеме больше, чем найденные поисковиком по первому запросу страницы.

Если же поиск информации ведется по какой-то конкретной компании, не стоит забывать о том, что в качестве ника люди нередко указывают свой персональный электронный почтовый ящик (e-mail). То есть поиск по профильным форумам выступлений человека, использующего электронный адрес с доменом интересующей компании, может дать бесценную информацию — нередко при обсуждении проблемы человек приводит примеры деятельности своей организации, будучи уверенным, что останется анонимом.

Хождение по ссылкам

Кроме информации, находящейся непосредственно на специализированных форумах и сайтах, также следует обращать внимание на размещенные там ссылки на схожие материалы или темы обсуждений. Нередко эксперт, выступающий на форуме, в своем сообщении дополнительно дает ссылку (линк) на информацию, расположенную на других страницах, в том числе и на тех, которые не индексируются поисковиками. Использовав указанный путь, можно найти уникальную информацию, недоступную с помощью поисковых машин. Например, материалы, находящиеся на персональных сайтах. Или же документы, отсканированные и выложенные в сеть, которые вообще доступны только в режиме ручного поиска.

Также часто ссылки дают возможность добраться до архивов информации сайтов или форумов, уже прекративших свою работу. Тут следует отметить, что даже если страница, к которой обращается ссылка, вследствие различных причин недоступна, например, была удалена или переименована, это не причина категорически отказываться от нее. Сам факт наличия в сети этого сайта — достаточно ценная информация. И даже если он уже не работает, к информации, хранящейся на нем, можно добраться. Например, путем подставления в ссылку различных вариантов страниц и цифр. То есть если страница номер один недоступна, можно попробовать добраться до страниц номер два, три и так далее. В принципе, все ключевые страницы сайтов имеют одинаковые внутренние имена, скажем www... ...com/index или www... ...net/main и так далее. Так что методом подбора можно добраться до интересующих материалов.

Другой вариант: ссылки могут вывести на узкотематические (или региональные) каталоги и поисковики, которые в свою очередь могут содержать ссылки на ресурсы, невидимые стандартными поисковыми серверами. Полезными могут также оказаться ссылки на разнообразные справочники, в том числе и узкоспециализированные, вертикальные порталы, посвященные специальной тематике, где содержится собственный каталог ссылок, невидимый поисковиками, причем более качественный, чем находящийся в видимой части интернета.

Дорогу осилит идущий

Резюмируя, можно заметить, что сбор информации в Invisible Web — в большей степени рутинная работа. Никаких секретных средств поиска материалов, невидимых обычными поисковиками не существует — пользователь находит интересующие его сведения вручную, руководствуясь лишь опытом, логикой и интуицией. Тем не менее грамотный поиск в невидимом интернете значительно расширяет диапазон найденных ресурсов и во много раз увеличивает количество и качество собранной информации.

Контракты №7 / 2006


Вы здесь:
вверх