Новая поисковая система ищет даже в глубинах Интернета

"Исследовательский движок" Infovell от учёных из Калифорнийского университета в Беркли (University of California at Berkeley) позволяет по-новому взглянуть на само понятие поиска нужных документов в Интернете. Ему доступно то, что пропускают даже Google и Yahoo.

По данным исследования, проведённого генетиками, работающими над проектом расшифровки генома человека (Human Genome Project), традиционные поисковые системы индексируют лишь 0,2% страниц Интернета. Оставшиеся 99,8% (так называемая deep web) представляют собой огромный массив информации, доступ к которому обычные "движки" получить не могут (необходима регистрация или подписка).

При этом часто именно в "глубокой паутине" находится информация, так необходимая учёным. Чтобы помочь коллегам отыскать такие "невидимые" данные, исследователи из Беркли взялись за разработку Infovell. И хотя этот проект далеко не первый в своём роде, кое-чем он всё же может похвастаться.

Почему за новую поисковую систему взялись именно исследователи кодов животных организмов? Потому что они хорошо знакомы с методами генетических исследований. Ведь чтобы разобраться и найти что-либо в "дебрях" ДНК животных, нужно нечто большее, чем "ключевые слова".

Действительно, в генетике нет ключевых слов, потому для подобных проектов были разработаны новые уникальные и мощные техники. Теперь благодаря Infovell эти техники позволят вычленять знания любого размера из материала на любом языке и даже любой другой символьной системы (например из нотной записи). При этом единственное требование к документам — чтобы они были цифровыми.

Поиск по ключевым словам, конечно, имеет определённый смысл для каких-либо общих целей. Он позволяет получить доступ к популярному и открытому контенту.

Но когда дело доходит до поиска необходимого документа узкой специализации, чаще всего ввод нескольких основных слов даёт слишком много результатов (иногда к делу вовсе не относящихся), а слишком уж большое их количество, соответственно, не даёт вообще ничего. Тем временем объём скрытой во Всемирной паутине информации растёт.

Дело, конечно, в природе самих сайтов, которые оказались вдали от популярных ресурсов и не обладают интерфейсами, дружественными к основным на сегодняшний день поисковым движкам, а также в целях, под которые заточены эти поисковики.

Так как "глубокую паутину" использует небольшое количество людей, то и трафик она получает значительно меньший. Это в свою очередь отражается на результатах поиска (которые выводятся в соответствии с данными таких систем, как PageRank от Google). Частным сайтам мешают присутствующие на них формы регистрации и подписки, которые не дают как следует индексировать их.

Поисковая система Infovell позволяет искать целыми "ключевыми фразами", отмечают создатели: от параграфов до целых документов, или даже набора документов общим объёмом до 25 тысяч слов. Как мы уже сказали, Infovell не зависит от языка, так как родилась в лабораториях, "разговаривающих" на генетических кодах. Пользователи могут искать страницы на английском, арабском, китайском языках или же вводить в строке поиска математические уравнения, химические формулы.

Ещё один плюс: новый поисковик не требует каких-либо особых познаний (не придётся учить знаки логических операций, чтобы корректно ввести информацию для поиска).

Добавим, что Infovell была продемонстрирована 8 сентября нынешнего года на выставке DEMOfall08, прошедшей в Сан-Диего.

Источники:

Временно скрыть

Больше не показывать

Консультант Анна

На связи