Большинство поисковых машин неопределенно относится к тому, что же считать спамом. К тому же алгоритмы поисковых машин постоянно меняются. Вы можете сказать, что замечали, что для одних это является приемлемой игрой, а для других - спамом. Разница состоит в степени и намерении это использовать...
Автор:Ильдар Кутыев
http://www.atlant.ru
Знания бывают двоякого рода: либо мы что-нибудь знаем,
либо мы знаем, где найти сведения об этом.
Самюэль Джонсон
Поиск – один из непременных атрибутов нашей жизни. Вот даже и пословица про это есть: “Рыба ищет где глубже, а человек – где лучше”. Так в поисках вся жизнь и проходит. То ищем товар подешевле, то работу подороже, то отдых поувлекательнее, то компанию повеселее, и так все время. Одно нашли – другое потеряли, а там опять за поиски третьего принимаемся… Догадались, о чем речь пойдет? Ну конечно, о поиске. Только с интернетовской спецификой. То есть о поиске в Сети, точнее – о поисковых машинах, которые этот самый поиск и облегчают.
Для чего они нужны
Для чего вообще нужны эти самые поисковые машины, сможет ответить любой, кто хоть раз в жизни пытался что-либо отыскать в необъятных просторах компьютерной Вселенной. Ну а тем, кто еще не пытался, интересно, наверное, будет узнать, что на сегодняшний день никто не может сказать с абсолютной точностью, сколько всего существует Web-страниц во Всемирной Паутине. По последним данным, полученным исследующими Сеть учеными (оказывается, и такие есть), в настоящее время приблизительный объем Интернета составляет 550 миллиардов страниц. Иными словами, на каждого жителя Земли приходится около 100 страниц. А если учесть, что далеко не всякий землянин приобщился к Сети, то и того больше. Естественно, что самостоятельно разобраться с этими “залежами” информации нет никакой возможности.
Впрочем, процесс бесконечного путешествия по ссылкам с сайта на сайт – занятие весьма и весьма захватывающее. Такое развлечение имеет массу поклонников и даже получило свое собственное название – веб-серфинг. Сродни серфингу настоящему, забава эта не из дешевых. Во-первых, требуются определенные средства для оплаты Интернет-трафика (времени подключения к Сети), а во-вторых, нужна масса свободного времени, которое не жаль будет потратить на подобный “отдых”. Поэтому все-таки основная масса пользователей обращается к Интернету для получения какой-либо конкретной информации. В этом случае, попытки найти искомое методом “научного тыка” обречены на провал. Это только Мюнхгаузен мог, выстрелив в небо, получить жаркое из случайно пролетавшей мимо утки. В реальности все обстоит по-другому.
О каталогах и поисковых машинах
В Интернете, как известно, можно отыскать практически любую информацию. Вот только сделать это не так-то просто. Ведь с точки зрения поиска информации Сеть представляет собой нечто вроде громадной библиотеки, где на стеллажах в беспорядке навалены отдельные страницы и более солидные фолианты (сайты), содержащие искомую информацию. То, что она (информация то есть) здесь где-то есть, не вызывает никаких сомнений. Вот только где? Неизвестно. Вот тут-то и возникает вопрос, мучавший своей неразрешимостью российскую интеллигенцию, – “что делать?” Ответ прост – делать надо то же самое, что делают в обычной библиотеке, когда нужно найти требуемую книгу: следует обратиться к библиотечному каталогу. Для этого существуют специальные Интернет-ресурсы, выполняющие роль своеобразных “библиотечных” каталогов и даже “библиотечных коллекторов”, собирающих данные о публикуемых материалах и составляющих их аннотированные списки. Это собственно каталоги ресурсов Интернета и поисковые машины, или, попросту, “искалки” или “поисковики”.
Между этими двумя видами сетевых “всезнаек” имеется достаточно большая разница. Каталог ссылок, как и следует из названия, представляет собой упорядоченную по темам коллекцию ссылок на многочисленные Интернет-страницы и сайты. Каталог, как правило, составляется и поддерживается специалистами технической службы соответствующего ресурса, которые самостоятельно и (или) по заявкам владельцев сайтов пополняют перечень ссылок и составляют обзоры Web-страниц, включающие краткое описание ресурса, его адрес в Интернете и определенные ключевые слова. Последние используются поисковой программой, которая, как правило, входит в состав каталога. По этим словам сайт может быть найден среди прочих ресурсов, описания которых имеются в базе данных Интернет-каталога. Примером такого рода Интернет-ресурса является достаточно известный в Рунете каталог ссылок List.RU (www.list.ru ).
В отличие от каталога, поисковая машина не зависит от человека (это же машина!). Поисковик включает в себя три основных компонента. Во-первых, программу-робота, непрерывно просматривающую Сеть или определенную ее часть (например, русскоязычные ресурсы) в поисках новых сайтов, а также с целью проверки существования ранее найденных ресурсов. Во-вторых, так называемый “индекс” – базу данных, в которой хранятся сведения о найденных Интернет-ресурсах. И в-третьих, собственно поисковую систему – непременный элемент поисковика. Именно поисковая программа осуществляет поиск по индексу с учетом заданных пользователем критериев запроса.
Впрочем, нам с вами, как пользователям, не столь уж и важно знать о технических подробностях функционирования подобных систем. Вот только, наверное, стоит опровергнуть бытующий среди части пользователей стойкий миф о том, что поисковая машина, для того чтобы найти требуемую информацию, “перелопачивает” весь Интернет. На самом деле по запросу пользователя поиск ведется по ключевым словам в индексной базе. Кстати, подтверждением этому служат порой появляющиеся в результатах поиска “мертвые” ссылки на уже несуществующие ресурсы.
Индексная база поисковой машины, как правило, располагает данными о гораздо большем числе Web-страниц по сравнению с каталогом Интернет-ресурсов. Происходит это из-за того, что программа-робот в состоянии “обшаривать” Сеть и индексировать страницы практически без перерыва. Работникам же Интернет-каталога требуется отдых и предпочитают они работать не более восьми часов в сутки. Зато поиск с использованием каталога Интернет-ресурсов часто позволяет быстрее найти искомую информацию в силу того, что при составлении описаний эксперт точнее может подобрать ключевые слова, которые будут использоваться при поиске.
Рассмотрим это на следующем примере. Предположим, что для предстоящего торжества понадобилось подготовить поздравление. Да не какое-нибудь, а поэтическое. Что делает в этом случае человек, не имеющий доступа в Сеть? Правильно – пишет сам или подыскивает что-нибудь подходящее в книгах. А что делает “человек с Интернетом”? Вполне вероятно, что начинает искать то же самое в Сети.
Итак, вводим в качестве ключевого слова “поздравление” и обращаемся к каталогу List.RU (www.list.ru). Через пару секунд на экране возникают ссылки на соответствующие разделы каталога (“Праздники”, “Поздравления и поздравительные открытки”, “Тосты и пожелания” и так далее). Выбрав требуемый раздел, можно обнаружить ссылки на массу ресурсов, относящихся к праздничной тематике. Требуется только точно представлять себе, что же собственно нужно найти.
Теперь обратимся к поисковой машине. Например, Яndex (www.yandex.ru) выдает по запросу “поздравление” ссылки на 108 860 страниц или 3492 сервера. Материалов заметно больше – то-то раздолье для поисков! Но... Среди первого десятка имеются ссылки на пресс-службу Президента РФ и различного рода президентские поздравления, упоминаются частные поздравления различных форумов, а также прочие документы, так или иначе относящиеся к поздравлениям. Безусловно, есть и ссылки на поздравительные ресурсы. Одним словом, разброс результатов поиска велик, а терпения просмотреть все 108 860 ссылок вряд ли у кого хватит.
Налицо извечная борьба между качеством и количеством. Что лучше, конечно, каждый решает сам. Мы же с вами сегодня поставим во главу угла количество и обратимся к поисковым машинам, оставив рассмотрение каталогов ссылок на другой раз.
Поисковики Рунета
Давайте начнем с поисковой машины Rambler (
www.rambler.ru), одной из старейших в Рунете. Исследователи утверждают, что до 90% пользователей русскоязычного Интернета хотя бы один раз в месяц пользуются услугами системы Rambler. Не станем спорить. Ежедневно в базу данных этого поисковика вносится до 60 тысяч изменений и пополнений, которые отражают постоянно изменяющуюся картину состояния Рунета. Подобная оперативность гарантирует пользователям корректность выдаваемых системой ссылок и обеспечивает постоянное пополнение базы сведениями обо всех новинках, появляющихся в русскоязычной части Сети.
Ознакомившись с “техническими подробностями”, обратимся теперь к практическим вопросам использования поисковой системы. Как показывает опыт, наиболее популярным способом работы с поисковиком является подача запроса, состоящего из одного слова. Этому есть несколько причин. С одной стороны, в силу извечной человеческой лени многие делают “как проще”, с другой – зачастую просто не догадываются о том, что запрос может выглядеть как-то по-другому. А между тем, Rambler содержит специальный раздел (“Расширенный поиск” – http://www.rambler.ru/doc/advanced.shtml), позволяющий задавать более точные настройки параметров запроса. Например, можно определить, где должно находиться искомое слово (в документах, в их названиях, в заголовках документов и т. д.), уточнить язык документов, по которым осуществляется поиск, и даже указать системе, нужно ли искать однокоренные слова или поиск следует ограничить лишь словом в том виде, как оно написано в строке запроса. Если в поисковой форме указано несколько ключевых слов, то можно потребовать, чтобы Rambler возвращал только те документы, где эти слова находятся на минимальном расстоянии друг от друга (режим “Ограничить расстояние между словами”). В дополнение к этому, особая опция позволяет исключать из результатов поиска документы, содержащие определенные слова.
Перечисленные возможности, как правило, игнорируются пользователями. Между тем лишние 2-3 минуты, затраченные на уточнение параметров поиска, позволяют в итоге сэкономить значительно больше времени на том, что результаты работы поисковика будут ближе к тем, что ожидал получить пользователь. Давайте снова вернемся к поиску поздравлений. Выберем в качестве ключевых слов “свадебное поздравление”. И попробуем поискать. Rambler выдает упоминание о 44 ссылках. Однако тут ссылки, касающиеся именно “свадебных поздравлений” теряются среди прочих, в том числе и не совсем свадебных. Попробуем показать поисковой системе, что нам нужно именно “свадебное поздравление” (а не “свадебное платье” и не “поздравление с Новым годом”...) Для этого воспользуемся функцией расширенного поиска. Укажем следующие опции поиска: искать в документах, слова запроса – все (то есть в документе должны присутствовать оба слова), язык документа – русский, расширение запроса – не расширять, ограничить расстояние между словами. Все эти настройки делаются путем простого расставления соответствующих значков в форме запроса. Результат парадоксальный: ссылок на ресурсы, содержащие искомые термины, стало гораздо больше – 655(!). Но, как это ни странно, они точнее отражают тематику запроса.
Судите сами. В первом случае среди первых 15 ссылок преобладали упоминания о “Службе рассылок Городского кота”, во втором список возглавляют: раздел “Свадьба” на Toast.ru, далее следуют ресурсы “Секреты тамады” и “Мир свадебных торжеств”, содержащие поздравления жениху и невесте, а также прочие сайты и Web-страницы, посвященные искомой теме. Как говорится, результат налицо.
Интересное наблюдение: поиск при тех же условиях летом 2000 года давал результат, состоящий из 51 ссылки, причем их тематика имела больший разброc относительно заданной темы. По-видимому, разработчики несколько изменили алгоритм работы поисковой части, сделав поиск более результативным. Хотя, честно говоря, механизм действия поисковика не вполне ясен.
Кроме раздела расширенного поиска существует еще и своеобразный “язык запросов”. Правда, при ближайшем рассмотрении оказывается, что не такой уж он и сложный, этот язык. По крайней мере, не требуется владеть основами программирования для того, чтобы воспользоваться всеми возможностями поиска. Например, слова запроса могут быть соединены логическими связками And (“и”), Or (“или”). Для их обозначения допустимо также использовать символы “&” (“и”), “|” (“или”).
Чтобы было понятно, о чем идет речь, вернемся к нашим поздравлениям. Ключевые слова известны – “свадебное” и “поздравление”. Следовательно, нужно найти документы, в которых присутствуют оба эти слова. Для этого применяется логическая связка And (“и”). Результат будет содержать 655 ссылок, но… порядок следования ссылок другой, нежели при пользовании разделом расширенного поиска. Согласитесь, весьма странно.
Если вести поиск при помощи связки Or (“или”) – “свадебное Or поздравление” – то не следует удивляться тому, что часть найденных документов будет рассказывать о “свадебных” платьях, “свадебных” букетах и “свадебных” традициях. Другая часть материалов окажется посвященной различного рода поздравлениям (не обязательно свадебным).
И лишь третья часть найденных документов будет содержать в своем составе оба искомых слова. Одним словом, 7838 ссылок – результат работы поисковой системы по вышеприведенному запросу. Зачем это нужно? Такой подход удобен, если при поиске используются синонимы искомого термина или связанные с ним по смыслу слова. Например, свадьба, бракосочетание и т. д. То есть связка “ИЛИ” используется, если нужны все документы, в которых встречается любое из перечисленных слов.
Кроме того, Rambler умеет искать слово во всех формах. Его об этом надо только попросить. Для чего перед словом следует поставить служебный символ “#”. Например, по запросу “#поздравление” будут найдены “поздравления”, “поздравлением” и прочие формы искомого слова.
Служебный символ “@” перед словом позволяет искать не только само это слово, но и однокоренные слова (по запросу “@поздравление”, будут найдены и “поздравления”, и “поздравительный”, и “поздравить” – всего 20 978(!) ссылок).
Наконец, если требуется расширить запрос или просто написание искомого слова не вполне ясно, то можно воспользоваться метасимволами “*” и “?”. Первый позволяет заменить произвольную часть слова, а второй – произвольный символ (поздрАвление или поздрОвление? Проще написать так – поздр?вление). И еще, поисковая система не чувствительна к заглавным буквам, то есть слова “Поздравление” и “поздравление” будут восприняты совершенно одинаково. Отдельные части запроса могут быть сгруппированы с помощью круглых скобок ( ). Это позволяет задавать достаточно сложные логические условия для осуществления поиска. Попробуем, например, составить запрос такого вида: (@свадебное & @поздравление)|(поздравления & (@жених|@невеста|@молодые))|(свад*& сценар*). На естественном языке это звучало бы примерно так: “Найти материалы обо всем свадебно-поздравительном или поздравления для жениха, невесты или молодых, а еще хорошо бы посмотреть материалы о свадебном (или свадебных) сценарии (или сценариях)”. Во как завернули! Rambler находит 8896 ссылок по вышеприведенному запросу. Большинство ссылок на различные поздравительные ресурсы Сети. Остается только копаться в результатах и выискивать то, что нужно…
Другой популярной среди населения Рунета поисковой системой является Яndex (www.yandex.ru). Основным преимуществом Яndex является возможность подачи запроса на естественном языке. Это очень нравится пользователям, которые могут просто взять и написать, например, “поздравления для свадьбы”. И получить ссылку на 1074 документа на 77 сайтах. Однако полагаться на “разумность” системы нужно все-таки с некоторыми ограничениями. Ведь от точности формулировок зависят результаты поисков. Если, например, запрос сформулировать по-иному – “свадебные поздравления”, то будет найдено всего 177 документов на 68 сайтах. Так что, полагаясь на “естественный язык”, не следует забывать о том, что все-таки поиск осуществляет компьютер.
Надо учитывать и то, что Яndex при осуществлении поиска “чувствует” заглавные буквы. Но “чувствует” их избирательно. Поясним это при помощи примера, приведенного на сайте: запрос “лебедь” найдет и птицу, и генерала, а вот запрос “Лебедь” – генерала и те случаи упоминания птицы, когда она написана с большой буквы.
При поиске Яndex распознает все слова в соответствии с правилами русского языка, независимо от формы слова, использованной в запросе. Это означает, что, например, если задать для поиска все то же слово “поздравление”, то в результате поиска будут найдены ссылки на документы, содержащие слова “поздравления”, “поздравлением” и так далее. Поиск при этом не ограничен лишь словами или фразами. Яndex может отыскать по названию Web-страницу компании или файл с нужной картинкой.
Кроме простейшей поисковой формы Яndex обладает и функцией расширенного поиска (#advanced.html). Этот режим позволяет добиться точной настройки параметров поиска и в целом похож на расширенный поиск на Rambler. Но есть и некоторые отличия. Добавлена возможность поиска по ключевым словам в пределах одного сайта. Можно, наоборот, игнорировать выбранный сайт при проведении поисков. А можно осуществлять поиск страниц, на которых есть ссылки на интересующий пользователя сайт. Такой прием позволяет узнать,как часто цитируется в Сети искомый ресурс. Кроме того, добавлена возможность поиска графических файлов и специализированных файлов (например, Java-апплетов).
При поиске рисунков не стоит надеяться на то, что графические файлы будут точно соответствовать теме запроса. Ведь поиск осуществляется по наименованию файла или по подписи к рисунку. Понятно, что оба эти элемента зависят от фантазии автора того или иного сайта. Истинное содержание изображения может быть никак не связано ни с названием файла (часто для удобства рисунки просто нумеруют – 1.gif, 45627.jpg), ни с подписью к изображению (которой может и не быть). Так что результаты такого поиска очень приблизительны.
Несмотря на разнообразные и многочисленные настройки параметров расширенного поиска, процесс выбора и указания параметров прост и понятен даже для начинающего пользователя. В конце концов, если непонятно, что нужно писать в каком-либо поле формы расширенного запроса, то в нем можно ничего и не писать. Яndex проведет поиск на основе имеющихся данных.
Яndex может вести поиск с использованием специализированного языка запросов. Пользоваться им имеет смысл в том случае, если есть возможность детально продумать запрос, выделить ключевые слова и определить возможные синонимы искомого термина. Ниже рассмотрены лишь основные выражения этого языка. В дополнение к логическим связкам “И” (&), “ИЛИ” (“|”, запятая “,”) используется еще один оператор “И НЕ”, который позволяет искать документы с предложениями, содержащими первое слово, но не содержащими второе. Обозначается этот оператор вот так: “~’” (тильда). Например, запрос, состоящий из все тех же слов “свадебное” и “поздравление” можно записать следующим образом: “свадебное ~ поздравление”. В этом случае будут найдены документы, в которых рядом со словом “свадебное” ни в одном предложении не будет стоять слово “поздравление”. Для чего это может понадобиться, рассмотрим чуть ниже.
Двукратное повторение любого из операторов, например, “свадебное ~~ поздравление” означает, что условия поиска распространяются не на одно предложение, а на весь документ целиком. То есть будут найдены документы, в тексте которых есть только слово “свадебное”, но ни разу не встречается слово “поздравление”.
Между двумя словами можно поставить знак “/”, вслед за которым записывается значение, указывающее расстояние между искомыми словами. При этом оно (расстояние то есть) не будет превышать заданного значения. Правда, надо учитывать, что расстояние между двумя соседними словами принято за 1, а не за 0,как можно было бы подумать.
При необходимости можно ввести уточняющее слово. Делается это так: (свадебноепоздравление)-поэтическое. Это значит, что при выводе результатов поиска первыми будут выведены ссылки на документы, в которых речь идет о поэтических поздравлениях (если конечно именно так они обозначены в тексте документа).Если же таковых не окажется, то результаты будут эквиваленты результатам поиска по запросу “свадебное поздравление”.
“Да уж”, как говаривал Киса Воробьянинов. Упомнить все это достаточно сложно. Потому на этом рассмотрение языка запросов, используемого на Яndex, завершим. Следует лишь упомянуть еще об одном полезном сервисе, предлагаемом поисковой службой Яndex. Это так называемый “Семейный Яndex”. Понятно, что в Интернете есть все и на любой вкус. Среди этого разнообразия встречаются и так называемые ресурсы “для взрослых”. Опрос, проводившийся администрацией поисковика среди посетителей, позволил определить, что такого рода ресурсы “раздражают” и “отвлекают” 15% ответивших, а 2% принявших участие в опросе уточнили, что “из-за них не пускают детей в Сеть”. В интересах пользователей и был создан “Семейный Яndex”. Тут, делая запрос, можно быть уверенным в том, что ничего из категории запрещенного “детям до 16” в результатах поиска не будет.
Воспользоваться “Семейным Яndexом” можно двумя способами: либо задавать запрос не на www.yandex.ru, а на http://www.family.yandex.ru/, либо особым образом настроить свой броузер для работы с этим сервисом. Подробные инструкции о том, как это сделать, можно получить по адресу http://www.yandex.ru/info/cookie.html. Вообще же стоит, наверное, заметить, что в последнее время Яndex предлагает своим пользователям немало новинок (например, поисковую панель Яndex-бар), которые облегчают процесс поиска нужной информации.
Мы же с вами на этом остановимся и перейдем к рассмотрению еще одной популярной русскоязычной поисковой системы под названием “Апорт”. Расположилась она по адресу aport.ru Особенностью Апорта является возможность использования англо-русского и русско-английского on-line перевода запросов и результатов поисков. Пользователи имеют уникальную возможность поиска документов, даже не обладая знаниями языка первоисточника. Правда, особо обольщаться этим не стоит, ведь системы перевода до сих пор несовершенны. При сложных поисках следует критически подходить к полученным результатам. А вот при несложных запросах… Судите сами. При запросе “wedding congratulations” с последующим переводом на русский язык “Апорт” уверенно дает ссылки на 2382 документа, содержащих такие фразы, как “поздравления к свадьбе”, “свадебные поздравления”, “свадебных поздравлений” и т. д. А при переводе запроса “свадебное поздравление” на английский язык находятся ссылки на англоязычные страницы “свадебной” тематики. То есть система действительно работоспособна!
Помимо этого к преимуществам “Апорта” можно отнести автоматическую проверку орфографии запроса, а также сохранение параметров поиска и определенного числа предыдущих запросов пользователя. Все это облегчает работу с системой, которая и без того не требует особых навыков. Как и ранее рассмотренные поисковики, “Апорт” дает возможность проводить расширенный поиск (http://www.aport.ru/defaultp.php). А вот язык запросов этого поискового сервиса оказался настолько “развитым”, что его полноценное использование требует от пользователя внимательного изучения справочного раздела системы (http://www.aport.ru/help.htm). Помимо уже привычных логических “И”, “ИЛИ” тут есть немало иных специализированных операторов, рассмотрение которых выходит за рамки сегодняшней статьи.
Ограничимся, пожалуй, рассмотренными тремя поисковыми системами, тем более что их возможностей с лихвой хватает для проведения изысканий практически любой сложности. Обратим теперь свой взор на англоязычную часть Сети…
Alta Vista и другие…
У “буржуев” тоже существуют поисковые сервисы, позволяющие найти требуемую информацию в Сети. AltaVista (
www.altavista.com) – один из них. AltaVista является одной из самых старых, если не старейшей, поисковой системой в Интернете. Она была создана в 1995 году учеными из исследовательской лаборатории компании DEC в Пало-Альто в Калифорнии (DEC’s Research lab in Palo Alto, CA). В настоящее время этот сервис в состоянии осуществлять поиск на 25 языках, включая и русский. Интересный факт: именно специалистами AltaVista была впервые реализована технология поиска в Интернете сайтов на японском, китайском и корейском языках. Авторитет этого поисковика подтверждает и тот факт, что официальными пользователями поисковой системы AltaVista являются Microsoft и ФБР.
AltaVista, помимо обычного поиска, обладает дополнительными возможностями по поиску в группах новостей, по развлекательным ресурсам и ряду других специализированных разделов. Выбор соответствующей “специализации” осуществляется на первой странице ресурса.
AltaVista дает возможность осуществлять поиск в различных режимах, отличных от обычного. Условно их можно назвать “Расширенный поиск” – Advanced Search (по аналогии с русскоязычными поисковиками) и “Усиленный поиск” – Power Search.
Режим расширенного поиска
http://www.altavista.com/cgi-bin/query?pg=aq&stype=stext достаточно прост. Он позволяет выбирать язык запроса, указывать предполагаемую дату создания документа и формулировать поисковый запрос в виде логических выражений. Совместно с ключевыми словами могут быть использованы обычные логические операторы AND, OR, NOT. Кроме них используется еще один оператор NEAR. Он означает, что ключевые слова не должны быть отделены друг от друга более чем 10 словами. Странный какой-то оператор.
Что дает использование логических операторов? Пусть, например, требуется найти материалы об автомобилях. Любых. Кроме “Мерседеса”. Запрос в этом случае формулируется следующим образом: “car NOT Mercedes”.
Можно также использовать знаки “+” и “-”, которые распознаются системой как в режиме обычного поиска, так и при расширенном поиске. “Плюс” означает, что на искомой странице обязательно должно быть отмеченное этим символом слово. А “минус” говорит о том, что из результатов обязательно должны быть исключены ссылки на страницы, содержащие указанный термин.
Чтобы понять, что к чему, обратимся к следующему примеру. Пусть вдруг по какой-то надобности потребовалось найти сведения из биографии прежнего президента США Билла Клинтона (запрос “biography +Clinton”, найдено 1 485 325 страниц). Уточняем, что нужен именно Билл Клинтон, а не, скажем, его жена Хиллари. Для этого формулируем запрос таким образом: “biography +Bill +Clinton”. Результат имеет значительно более скромный объем – 271 435 страниц. А теперь уточним, что нас при этом абсолютно не интересуют отношения американского президента с Моникой Левински. Для этого нужно будет задать поисковый запрос следующего вида: “biography +Bill +Clinton -Levinski”.
В итоге, страниц стало еще чуть меньше (271 385 ссылок), зато первые же ссылки касаются именно “William J.Clinton biography” Как говорится, что искали, то и нашли…
Более точные настройки параметров поискового запроса удобно осуществлять в режиме, который называется “Усиленный поиск” (http://www.altavista.com/cgi-bin/query?pg=ps). Тут можно указать, какая часть ключевой фразы запроса должна присутствовать в найденных материалах (любое слово, фраза целиком и т. д.). Пользователь имеет возможность уточнить,в какой части страницы нужно искать ключевое слово (в заголовке, в тексте…), определиться с языком запроса, ограничить поиск каким-то одним сайтом, заказать поиск по сайтам определенного географического региона (Азия, Америка, Австралия и т. д.) или по коду домена (ru, com, net…) – все это доступно в режиме “Усиленного поиска”.
Интересная особенность AltaVista – наличие режима Family Filter (семейный фильтр). Примерно то же самое, что мы с вами уже встречали на отечественном “Яндексе”. При включении этого режима из результатов поисков автоматически будут удалены материалы, не рекомендованные для просмотра детьми. По умолчанию фильтр выключен, о чем свидетельствует надпись чуть выше и правее строки запроса на первой странице ресурса. Family Filter поддерживает два режима фильтрации. Первый – недопущение материалов “только для взрослых” при поиске видео, графических изображений и аудиозаписей. Второй режим – полное отсечение нежелательных материалов из всех результатов поиска. При необходимости, дабы ребенок не мог отключить этот режим, можно задать пароль, без которого сделать это будет невозможно.
Положительным моментом для российских пользователей является корректная работа поисковой системы с русскоязычными ресурсами Интернета. Иногда, правда, возможны накладки в виде вывода ссылок, скажем, на страницы на болгарском языке.
Другим “старожилом” сети является поисковая система HotBot (hotbot.lycos.com). Сервис был запущен в 1996 году и неоднократно признавался одной из лучших поисковых систем в Интернете (журналы PC Magazine, PC Computing, PC World). Как утверждают владельцы поисковика, его индексная база содержит сведения о более чем 110 миллионах документов, которые перепроверяются каждые три-четыре недели.
HotBot обрабатывает запросы на естественном языке. Правда, при условии, что этот язык – английский. Понимает ряд европейских языков (финский, португальский, испанский и прочие), не требуя от пользователей каких-то особых навыков. С русским языком система, к сожалению, вообще не работает. По крайней мере, при тестировании системы HotBot даже и не пытается искать русскоязычные документы, неизменно выдавая сообщение об ошибке запроса. При поиске допустимо использование операторов AND (“И”), OR (“ИЛИ”), NOT (“НЕ”). Правда, по умолчанию логические операторы не воспринимаются. Для работы с ними требуется выбрать режим “Boolean phrase” из меню “Look for” в левой средней части стартовой страницы. Более ничего примечательного об этом поисковике сказать нельзя.
Google (www.google.com) – великолепная англоязычная поисковая система (с русским она, к сожалению, работает плохо). На сегодняшний день, это, наверное, крупнейший по объему индексной базы поисковый сервис (1 326 920 000 страниц на момент посещения ресурса). Интерфейс системы до предела аскетичен и состоит всего-навсего из одной строки поисковой формы. Имеется раздел расширенного поиска (http://www.google.com/advanced_search.html). Система не чувствительна к заглавным буквам. Поиск осуществляется только по той форме слова, которая задана в запросе.
Стоит, пожалуй, упомянуть еще пару поисковиков.
EuroSeek (http://www.euroseek.net/page?ifl=ru) – весьма приятная и удобная “буржуйская” поисковая система, поддерживающая русский интерфейс. Правда, поисковик иногда ошибается с определением кодировки страниц, а потому часть результатов может оказаться нечитаемой. Функция расширенного поиска в виде отдельного раздела отсутствует, хотя допустимо использование стандартного языка запросов (логическое “И”, логическое “ИЛИ”, скобки и т. д.).
Еще одна поисковая система – InfoSeek – расположилась по адресу www.go.com С русским языком работает, но не вполне корректно. Так что использовать ее лучше для поиска по англоязычному Интернету. Раздел расширенного поиска отсутствует. Дополнительные возможности реализуются за счет использования стандартного языка запросов.
Перечень поисковых систем можно было бы продолжать и дальше. Однако давайте лучше попробуем ответить на вопрос, что же делать, если вдруг в результате проведенных поисков так и не удалось отыскать искомой информации.
Если ничего не найдено…
Итак, что же делать, если поиск не принес желаемых результатов. Первое, что нужно сделать, так это проверить орфографию введенного слова. Часто поисковая система ничего не может найти только из-за того, что введенного термина просто не существует в природе. Чтобы выяснить это, нужно взглянуть на количество найденных ресурсов, содержащих искомое слово (большинство поисковиков выводят эти данные в самом начале листа результатов). Если слово не встречается ни разу, то велика вероятность его ошибочного написания.
Следующий шаг – убедиться в чувствительности (или нечувствительности) системы к заглавным буквам. Соответственно, нужно скорректировать свой запрос, уже исходя из этого обстоятельства.
Если же слово написано верно, а поиск все равно не дает результатов, то можно попробовать поискать требуемую информацию, используя синонимы. Удобно задавать в запросе сразу три-четыре слова-синонима одновременно. Поиск не по одному, а сразу по нескольким словам, повышает шансы на достижение положительного результата.
Наконец, не нужно бояться расширенного поиска – функции, предоставляемой большинством поисковиков, да и языком запросов пренебрегать не стоит. Как мы с вами убедились, ничего страшного во всем этом нет, а вот облегчить процесс поиска эти “инструменты” могут.
Удачных вам поисков!