Поисковые информационные системы. �Организация поиска информации. Описание объекта для его последующего поиска
Повторяем!
1. В каком году была создана первая глобальная компьютерная сеть?
(1969, ARPANET, США)
2. В каком году появилась Всемирная информационная сеть? Её название?
(1993, World Wide Web, Швейцария)
2
История World Wide Web
Дата рождения проекта– 6 августа 1991 г.
Основатель- Тим Бернерс-Ли
(европейский центр ядерных
исследований в Женеве),
опубликовал краткое описание
проекта WWW
2017
(с) Bolgova N.A.
3
2017
(с) Bolgova N.A.
4
Каково назначение протокола TCP и IP ?�Как «работают» пакеты? (Объясните по рис.)
http://bolgovana.ucoz.ru/index.html
http - протокол доступа
bolgovana.ucoz.ru - домен
index.html – главная страница
2017
(с) Bolgova N.A.
5
Задание. Определи «части» URL –адреса
Тема урока
Поисковые информационные системы.
Организация поиска информации. Описание объекта для его последующего поиска
6
Браузер – специальное ПО, обеспечивающее просмотр Web –страниц и перемещение по Всемирной паутине (Интернету)
2017
(с) Bolgova N.A.
7
Поисковая система
2017
(с) Bolgova N.A.
8
Компоненты поисковой системы:
2017
(с) Bolgova N.A.
9
Database или база данных
Представляет собой хранилище всей информации, которая скачивается и анализируется поисковой системой.
В некоторых источниках базу данных могут упоминать как индекс поисковой системы.
2017
(с) Bolgova N.A.
10
Crawler или паук
В ходе работы выделяет все находящиеся на Интернет странице ссылки. Основная его задача заключается в определении ссылки, по которой будет совершён переход и поиск новых документов, которые ещё не были внесены в базу данных поисковой системы.
Решение о переходе принимается на основе заранее сформированного списка адресов или на основе ссылок присутствующих на анализируемой странице.
2017
(с) Bolgova N.A.
11
Web server
Чаще всего на сервере существует html-страница с полем ввода, которое используется для поиска ключевых слов или каких-либо терминов.
Одной из функций веб-сервера является организация выдачи результатов поиска пользователю и представление их в виде html-страницы.
2017
(с) Bolgova N.A.
12
Spider или паук
Программа, основной целью которой является скачивание Интернет страниц.
Работает по тем же принципам что и браузеры, но в отличие от них паук работает напрямую с кодом html, а не отображает информацию в привычном для пользователей виде.
2017
(с) Bolgova N.A.
13
Indexer или индексатор
Осуществляет анализ страницы, разбивая её на отдельные блоки и элементы.
В ходе работы выделяются различные элементы, и проводится их детальный анализ. В качестве элементов выступают заголовки, html-теги, структурные особенности, текст, стилевые особенности и т.д.
2017
(с) Bolgova N.A.
14
Search Engine Results Engine или Система выдачи результатов.
Данный блок занимается выбором страниц из базы поисковой системы. Данный компонент поисковой системы является одним из ключевых. Он определят, какие страницы подходят под заданные пользователем критерии и в каком порядке их необходимо вывести.
Для анализа запроса, поиска соответствующих страниц в базе данных и вывода полученной информации используются специальные базовым алгоритмам ранжирования поисковой системы.
2017
(с) Bolgova N.A.
15
Рейтинг использования поисковых систем в русскоязычном Интернете :
Яндекс - более 50% от общего числа пользователей
Google – почти 35%
Rambler, Аппорт 2000 - более 10%
2017
(с) Bolgova N.A.
16
Организация поиска информации. Описание объекта для его последующего поиска
Способы поиска:
1. URL- адрес
2. Гиперссылки
3. Поисковые каталоги
4. Ключевые слова
2017
(с) Bolgova N.A.
17
2017
(с) Bolgova N.A.
18
Запрос — это набор соединенных операторами ключевых слов, с помощью которых поисковая система автоматически ведет поиск и отбор необходимых документов. Другими словами, запрос — это инструкция (команда) для ПС на поиск нужных документов.
Поиск — это процедура отбора нужных документов, хранящихся в сети.
Чтобы поиск стал более продуктивным, во всех поисковых системах предусмотрены специальные языки формирования запросов со своим синтаксисом. Эти языки во многом похожи. Выяснить особенности определённого языка можно с помощью справочной системы, входящей в состав поисковой машины.
2017
(с) Bolgova N.A.
19
Рассмотрим задачу.
В языке запросов некой поисковой машины для обозначения логической операции ИЛИ используется символ «|», а для логической операции И — символ «&».
В таблице приведены запросы к поисковому серверу. Расположите запросы в порядке возрастания количества страниц, которые найдет поисковый cepвeр по каждому запросу.
2017
(с) Bolgova N.A.
20
С подобными задачами вы встречались в курсе информатики основной школы и знаете, что условие «логическое И» приводит к уменьшению количества найденных страниц. Соответственно, применение нескольких «логических И» еще более уменьшает число найденных страниц. В отличие от «И», «логическое ИЛИ» приводит к увеличению числа найденных страниц. Соответственно, применение нескольких «логических ИЛИ» еще более увеличивает количество найденных страниц.
Наименьшее количество страниц будет найдено по запросу принтеры & сканеры & продажа, (принтеры и сканеры и продажа) так как в документах должны встречаться все три слова.
Наибольшее количество страниц будет найдено по запросу: принтеры | продажа | сканеры (принтеры или продажа или сканеры). В этом случае достаточно хотя бы одного слова в документе. По запросу принтеры & продажа будет найдено меньше документов, чем па запросу принтеры | продажа, так как «логическое И» требует присутствия каждого слова из запроса.
Ответ: принтеры & сканеры & продажа
2017
(с) Bolgova N.A.
21
Запрос | Количество найденных страниц (тысяч страниц) |
Тыква | 3500 |
Арбуз | 2800 |
Тыква & Арбуз | 1400 |
Тыква &Дыня | 900 |
Арбуз &Дыня | 1700 |
Тыква & Арбуз &Дыня | 500 |
Тыква | Арбуз |Дыня | 7200 |
При попытке осуществить запросы к поисковому серверу было найдено
следующее количество страниц по каждому запросу.
Сколько страниц будет найдено по запросу дыня?
2017
(с) Bolgova N.A.
22
Для решения задачи воспользуемся формулой включений и исключений из комбинаторики.
Заметим, что для трех переменных (X, Y, Z) формула включений и исключений выглядит так.
X|Y|Z = X+Y+Z– (X&Y + X&Z + Y&Z)+ X&Y&Z
Обозначим количество страниц, найденных по запросу дыня, через Х. И подставим данные в формулу:
7200= 3500+2800+Х-(1400+900+1700)+500
7200= 2800+Х
Х= 4400.