Поисковые системы в Интернете
Петр Родионов, учитель информатики Комсомольской средней школы №1
Урок проводится в форме семинара на тему «Обзор поисковых систем» с целью мотивации познавательной деятельности в освоении новых информационных и коммуникационных технологий. Предполагается вовлечение максимального числа учащихся, это касается не только докладов учащихся, но и работы по закреплению нового материала.
Оборудование: проектор, компьютер, подключенный к интернету.
Эпиграф урока: Кто ищет, тот всегда найдет.
Общие вопросы для обсуждения:
1. Общие сведения об интернете.
2. Способы адресации в сети интернет.
3. Какие существуют программы для просмотра web-страниц?
Вступительное слово учителя. Ресурсы интернета давно перестали быть просто игрушкой, превратившись в незаменимый инструмент для повседневной работы людей многих профессий. Быстрый рост информации в сети сделали его океаном разнообразнейших данных, важность которых растет пропорционально их объему. Возникла необходимость создания таких средств, которые позволили бы легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надежно находить нужные сведения. В интернете появились специальные поисковые средства. В их содержание как раз и входят возможности выявления необходимых сведений. Многие из них разработаны западными, прежде всего американскими коммерческими фирмами, поэтому обращение к ним требует хотя бы минимального владения английским языком.
Условно инструменты поиска подразделяются на поисковые средства справочного типа (например, есть узкоспециализированные сайты со словарем, литературными, историческими энциклопедиями и т.п.) и поисковые системы в чистом виде (они выдают самую различную информацию). Первые подобны глобальным электронным справочникам, имеющим привычную логико-тематическую структуру, что позволяет ориентироваться в ресурсах интернета в пределах отдельных отраслей знания. Вторые представляют собой системы, действующие по аналогии с традиционными базами данных, когда при вводе термина выдается перечень документов, содержащих искомое определение.
После вводного слова учителя заслушиваются доклады учащихся.
Первый ученик. (Загружает поисковую систему «Yahoo» по адресу http://www.yahoo.com, на проекторе видна ее страничка.) Среди справочников выделяются англоязычные Yahoo, Lycos. Наиболее простым является Yahоо, предназначенный для первичного знакомства с потенциалом глобальных сетей. При его загрузке на экран выводятся общие разделы: искусство, образование, бизнес, естественные науки, социальные науки, кино, музыка, почтовые открытки и т.д.
Можно искать информацию по разделам, заходя последовательно в каждый из них. Например, в пункте «Библиотеки» содержится перечень библиотек по типу, отраслевой принадлежности и местоположению. Если вы выберете из меню университетские библиотеки в США, то увидите на экране список всех библиотек американских университетов. Такая иерархическая структура дает возможность шаг за шагом обследовать интересующие разделы киберпространства, будь то физика, история, биология, география, музыка или спорт, последние новости или справочные издания. Но справочник Yahоо, как и многие другие, обладает возможностью непосредственного поиска. В специальной строке вводится конкретный запрос, а затем «мышкой» нажимается рядом стоящая надпись «Search» (поиск). Так можно задать фамилию любимых актеров, певцов, название книги, реферата или даже звездное созвездие. И система выдает ответ: адреса сайтов, на которых встречается запрошенное вами слово. Однако надо помнить, что система может выдать списки не только тех сайтов, которые целиком посвящены нужной теме, но даже списки тех сайтов, на которых данные слова просто упоминаются.
Второй ученик. (Загружает поисковую систему «Lycos» по адресу http://www.lycos.com.) Аналогичными характеристиками обладает электронный справочник Lycos, тоже англоязычный. Его особенностью является способность осуществлять непосредственный поиск терминов. Эта система выводит на экран сведения о размере файла, его точное название и электронный адрес. Надо отметить, что на многих поисковых сайтах как англоязычных, так и русскоязычных, можно бесплатно зарегистрировать свой электронный почтовый ящик и пользоваться им. «Lycos» легко найти, поэтому страничку не печатаем.
Учитель. Число поисковых систем продолжает увеличиваться. Работа с ними требует серьезных навыков, так как простой ввод искомого термина в поисковую строку может привести к получению в ответ списка сотен тысяч документов, содержащих данное понятие, как уже говорилось выше. Поисковые системы по существу представляют собою базы данных из слов, полученных при периодическом сканировании виртуального информационного пространства. С помощью специальных компьютерных программ поисковые системы регулярно обследуют интернет, выявляя все существующие новые, обновленные источники, удаляя сведения о вышедших из употребления. Этот колоссальный материал с указанием ссылки на то, где хранится каждое слово. И все это в виде гигантских индексных файлов, к которым и обращаются при конкретном запросе. Достоинства и недостатки поисковых систем складываются из нескольких важнейших характеристик: насколько полно та или иная система обследует тексты, все ли слова заносятся в индексные файлы или же только термины из названий, заголовков, резюме, первых двух страниц текста и т. д., как часто происходит обновление данных.
Важную роль играет простота и информативность интерфейса, возможность использовать булевые операторы и операторы расстояния, дополнительные сервисные функции. По этим параметрам среди доброй сотни поисковых систем выделяются несколько наиболее популярных источников, позволяющих выявлять информацию с высокой степенью полноты и точности запроса. К таковым относятся Аlta Vista , Hot Bot и другие.
Третий ученик. (Загружает поисковую систему «Alta Vista» по адресу http://www. Alta Vista.com. На проекторе показывает страничку поисковой системы «Alta Vista».) Его мощнейший аппаратный и программный потенциал позволяет проводить поиск по любому слову из текста web-страницы или статьи в телеконференции.
Аlta Vistа содержит сведения о 30 миллионах‚ web-страниц и статьях из 14 тысяч телеконференций. Данная система использует довольно сложный механизм составления запроса, включающий комбинации отдельных слов, словосочетаний и знаков пунктуации, тогда как другие поисковые системы могут и не воспринимать знаки пунктуации. Их сочетание кавычек, точек, двоеточий дает возможность наиболее точно составить поисковое предписание. Так, знак «плюс», стоящий перед словом, означает, что этот термин обязательно должен присутствовать в документе. Знак «минус», наоборот, отсевает все материалы, содержащие данное понятие. Система допускает поиск по целой фразе (в этом случае все словосочетание заключается в кавычки), а также поиск с усечением окончаний. Например, для получения сведений обо всех русскоязычных документах, имеющих отношение к школьным экзаменам, достаточно ввести «школ.экз.». Пользователям также предоставлена возможность ограничивать запрос по дате создания или последнего обновления документа.
Четвертый ученик. (Загружает поисковую систему «Hot Bot» по адресу http://www. HotBot.com. На проекторе показывает страничку поисковой системы «Hot Bot».) «Hot Bot» сегодня является самым мощным поисковым средством. Он содержит сведения о 54 миллионах документов. Углубленный поиск в Ноt Воt дает поразительно широкие возможности для детализации запроса. Это достигается за счет использования многоступенчатого меню, предлагающего различные варианты составления поискового предписания. Можно осуществить поиск по сочетанию в документе нескольких различных терминов, поиск по отдельной фразе, поиск конкретного лица или электронного адреса. Для детализации запроса возможно применение условий SHOULD (может содержать), MUST (должен обязательно содержать), МUST NОТ (не должен содержать). Кроме этого, Ноt Воt предоставляет возможность ограничить поиск по дате создания или последнего обновления документа, по географическому местоположению сервера, по типу искомых файлов. Данная система имеет понятный и удобный интерфейс и допускает поиск на русском языке.
Пятый ученик. (Загружает поисковую систему «Ехсite» по адресу http://www. ехсite.com. На проекторе показывает страничку поисковой системы «Ехсite».) Он интересен тем, что обеспечивает полнотекстовый поиск более 50 миллионов web-страниц. Особенность работы заключается в том, что запросы в эту систему вводятся на естественном разговорном языке так, как если бы мы спрашивали человека (правда, понадобятся знания английского языка). Практика, однако, показывает, что Ехсite корректно обрабатывает только односложные запросы. Для получения информации по многосложной тематике лучше пользоваться другими поисковыми средствами.
Шестой ученик. (Загружает поисковую систему «Rambler» по адресу http://www. rambler.ru. На проекторе показывает страничку поисковой системы «Rambler». Он рассказывает, что с 1996 года появились русскоязычные поисковые системы.) К лидирующей группе в настоящее время относятся системы Апорт, Rambler и Yandex. Rambler стал первой профессиональной отечественной поисковой системой. Эта система создана специально для выявления материалов на серверах в пределах бывшего СССР. Обеспечивает полнотекстовый поиск на двух миллионах страниц материалов из России и стран ближнего зарубежья. Ежедневно количество проиндексированных страниц увеличивается в среднем на 10 тысяч. Можно найти также недельный архив различных телеконференций. Пользователям предлагается составить простой или углубленный запрос. Поиск при этом будет осуществляться в одном и том же информационном массиве, однако при простом запросе (основное меню) результат будет органичен максимум 30 ссылками. Механизм составления углубленного запроса реализован через меню. Пользователю предлагается ввести запрос, состоящий из одного или нескольких терминов и определить форму выдачи результатов (краткая, стандартная или детальная), необходимость морфологического расширения терминов (искать все производные данного слова или ограничиться точной формулировкой). Rambler выдает не только адреса сайтов, но и размер и время обновления документа, а также внушительных размеров резюме, из которого можно получить представление об искомых терминах (они выделены жирным шрифтом).
Система сконструирована таким образом, что один и тот же документ в различных кодировках показывается только один раз, а его конкретные адреса суммируются в списке, идущим за резюме. Это позволяет избавиться от множественного дублирования одних и тех же документов и в значительной степени сокращает время на анализ полученных результатов. Недостаток заключается в невозможности указывать в запросах предельное расстояние искомых терминов друг от друга. Случайное сочетание совершенно не связанных слов, например, в начале и конце текста, приводит к выдаче ссылок на документы, совершенно не связанные с запросом. Несмотря на это Rambler является одним из самых посещаемых узлов российской части интернета.
Седьмой ученик. (Загружает поисковую систему «Апорт» по адресу http://www. аport.ru и показывает на пректоре страничку «Апорта».)
Поисковая система «Апорт» снабжена массой различных возможностей. Объем накопленной информации содержит сведения о более чем миллионе страниц с 10500 российских серверов.
Одно из достоинств системы состоит в широких возможностях при составлении запроса. Помимо традиционных операторов «и» и «или» система обладает способностью вычленять сочетания терминов только в случае, если они расположены в тексте рядом друг с другом. Насколько «рядом», каждый раз определяется пользователем. Например, можно выявить документы, в которых указанные слова (даже их производные) встречаются в пределах трех соседствующих предложений. За счет этого пользователь застрахован от большой доли информационного мусора, возникающего при случайном сочетании ключевых слов. «Апорт» предлагает также возможность автоматического перевода запроса с русского на английский язык и наоборот. В поисковую строку можно ввести термины на любом из двух языков и выбрать из меню условие: искать только на английском, на английском и русском, только на русском. Результат поиска включает название файла, дату и время его последнего обновления, адрес источника с указанием оригинальной кодировки и степень соответствия запросу. Также сообщается количество искомых терминов на данной странице, а сами ключевые слова выводятся в окружающем контексте, что помогает определить, насколько найденный документ соответствует запросу. Недостаток состоит в том, что вовремя не удаляются сведения об устаревших версиях одной и той же страницы. Еще одним мелким недочетом является не всегда корректная обработка названий страниц, из-за чего в результатах поиска часто указывается документ без названия.
Восьмой ученик рассказывает о поисковой системе «Yandex». На проекторе показывает страничку системы.
Русскоязычная система «Yandex» относится к новейшим разработкам. Она может показывать и содержание зарубежных русскоязычных wеb-узлов.
Отличительной чертой этой системы является глубокий морфологический анализ обрабатываемых терминов. Мощнейшая лингвистика позволяет учесть практически все возможные оттенки употребления ключевых слов и составить запрос максимально точно. Можно задать употребление термина только в определенном падеже, указать, на каком расстоянии от другого слова или сочетания он должен находиться в тексте и какие термины этот текст ни в коем случае не должен содержать. Для этого, однако, необходимо освоить правила формирования углубленных поисковых предписаний, которые включают чуть ли не все специальные символы компьютерной клавиатуры: § / : <> () $. В данном случае разработчики несколько переусердствовали, но можно использовать и сокращенный перечень условий поиска.