2000, Сергей Голубицкий
Есть неистощимые темы и поиск информации - одна из них. В девяти письмах из десяти читатели спрашивают
меня, где найти то-то и то-то в интернете. Если абстрагироваться от низменности страстей (спрашивают почти исключительно о крэках и пиратских копиях программ, которые я описал в Голубятнях), тема никогда не теряет актуальности: как
же все-таки перелопачивать массивы информации в мировой компьютерной сети?
Существует несколько софтверных решений, которые я выстрадал методом тыка и бессмысленного засорения реестра
своих форточек, и теперь готов поделиться ими.
Почему-то во всех самоучителях всякие рекомендации начинаются и заканчиваются на поисковых машинах (search engines ). На самом деле, использование всяких там хотботов, ях, гуглов и рамблеров - это лишь пубертатный период всякого серьезного поиска. Обычно отчаяние наступает уже после первой попытки, когда даже самый распрекрасный поисковый сервер выплевывает на экран сотни тысяч, а то и миллионы веб-страниц
в ответ на ваш скромный запрос. Делать с этими страницами ровным счетом нечего. Еще отец семиотики, так сильно опопсовевший в 90-ые годы Умберто Эко заметил, что десятки тысяч референций обессмысливают всякий поиск
уже по определению.
И тут на помощь приходят софтверные решения. Первым шагом вашего возмужания должны стать так называемые searchbots , программы, сканирующие сразу несколько поисковых машин. На самом простом
уровне идея синтеза поисковых систем реализована в самом интернете на сайте
www.metacrawler.com . Метакроулер рассылает запросы сразу на 10 поисковых машин (AltaVista, Excite, Infoseek, Lycos, WebCrawler, LookSmart, Thunderstone, GoTo.com, About.com, DirectHit). Зачем он это делает, я не очень понимаю, ну да ладно.
Настоящие серчботы не просто механически множат поисковые системы, но и пытается как-то обработать полученную информацию, придать ей хоть какую-то практическую ценность.
Простых серчботов, согласно
Депо Давида - бессмысленная прорва. Я назову, на мой взгляд, самый интересный - это
Copernic 2000 Pro .
Как и положено серчботу Коперник посылает запросы не на одну поисковую машину, а на несколько. Коперник делит запросы на категории: веб, конференции новостей, почтовые адреса, бизнес и финансы, покупка книг, компьютерного железа и софта, покупка машин, энциклопедии, игры, фильмы, здоровье, юмор, картинки, файлы, mp3 и мультимедия. Всего категорий - 50, а для поиска используются 400 поисковых систем. Любители Метакроулера, что говорится -почувствуйте разницу!
Очень полезная примочка Коперника - это tracking, возможность динамического отслеживания и обновления запросов
с последующим уведомлением пользователя по электронной почте в случае, когда появляются новые результаты поиска.
Как и всякий уважающий серчбот, Коперник предоставляет джентльменский набор:
- автоматическое удаление дубликатов поиска
- отбрасывание недоступных и неправильных линков
- использование простых булеановых операторов (AND, OR, EXCEPT, NEAR)
- генерирование отчетов с результатами поиска в html
- количественное измерение релевантности результата (scoring).
Короче говоря, Коперник - неплохая машинка "младшего среднего класса", (типа Вектры). Однако для серьезного
поиска Коперник (и само собой разумеется, обычные поисковые машины), конечно же, не подойдет.
Неудачную попытку преодолеть примитивность простых серчботов мы находим в
Mata Hari Pro.
Мата Хари гордо извещает о 600 поисковых системах, которые она обрабатывает, но видимо на них она и надорвалась, поскольку ни один поисковых процесс до конца японская шпионка так и не довела - либо сама зависала, либо подвешивала
весь компьютер, либо давала таймаут по запросам. Короче, упаси вас бог!
Но не расстраивайтесь, есть тут и настоящий Бугатти - это уникальный поисковик-тяжеловес - программа
WebSleuth .
WebSleuth изготавливает образцовая "норная" компания Prompt Software. Ее нет ни на Двух Коровах, ни на Страуде.
В Депо она есть, но на то оно и Депо. Prompt Software по делу и без оного постоянно намекает на свое цээрушное происхождение. Судя по тому, на что способнен WebSleuth, я склонен поверить.
WebSleuth не простой серчбот. Это - серьезный аналитический инструмент, годящийся не только для поиска,
но и для анализа (в том числе, и эвристического) смыслового контента.
В отличие от рядовых поисковиков, WebSleuth берет не числом, а умением (он обрабатывает "только" 36 engines).
Это и естественно: ведь основной акцент делается на обработку полученной информации, а не поставку угля "на гора".
Что же делает WebSleuth? Он не только выдает список линков по ключевому слову, но и производит полную
индексацию всех слов и словосочетаний (с указанием кросс-референций на их местоположение на веб-страницах), которые затем можно просматривать как энциклопедию. Насколько полезным оказывается результат поиска - невозможно
описать в короткой колонке - стоит обязательно самому попробовать.
Чрезвычайно полезным оказывается не индекс слов, а именно индекс словосочетаний и фраз. В результате такого
похода осмысленность поиска получает иное качественное звучание. Следует заметить, что на индексацию у WebSleuth уходит порядочно времени (минимум 10-15 минут), однако выдаваемые результаты практически сразу позволяют выйти именно на ту информацию, которая вам нужна.
В заключении добавлю, что WebSleuth позволяет динамически сужать зоны поиска, уточнять запросы (с помощью
полного набора булеановых операторов), обрабатывать информацию на всех европейских языках, работать через прокси-сервера, а также сайты, закрытые паролем.