Мануал по XPath

Данный мануал рассматривает основные аспекты XPath (XML Path Language). Он предназначен для людей, которые никогда не сталкивались с XPath. В данном документе материал изложен в понятном формате, что облегчит изучение XPath начинающему пользователю.

По окончанию изучения документа, вы сможете составлять сложные XPath.

Необходимые инструменты

Для всех упражнений данного мануала мы будем использовать HTML страничку, расположенную по адресу www.xml2selenium.com/xpath/

Перед изучением данного мануала, вам потребуется установить

браузер Chrome.

Откройте инструменты разработчика в Chrome, для этого нажмите сочетание клавиш Ctrl+Shift+I. После этого, в нижней части экрана откроется панель инструментов на вкладке Элементы, на которой мы в основном и будем работать.

Чтобы открыть поле для ввода XPath, нажмите клавиши ctrl+f.

Также для проверки булевых выражений и функций нам понадобится вкладка Консоль, где конструкция для ввода будет иметь вид $x('path')

Что такое XML

XML — это язык разметки, похожий на HTML. XML был создан для описания

данных. Теги XML не предопределены. Вы можете использовать (создавать) свои теги. Тег - это слово, заключённое в треугольные скобки <>, тег должен открываться (<пример>) и закрываться (</пример>), так же бывают одиночные теги (<пример/>).

Пример:

<full_name>

<last>Petrov</last>

</full_name>

XML не был создан для выполнения каких-либо действий.

Важно понимать, что XML не выполняет никаких действий, а просто

содержит в себе некие данные. Этот язык разметки был создан для структурирования, хранения и передачи информации. Следующий пример является адресом Иванова Ивана Ивановича, который проживает на материке Евразия, в части света Европа, в стране Литва, в городе Вильнюс, по ул. Муснинку д. 16, подъезд 2, кв. 10 представленной в XML:

<?xml version="1.0" encoding="UTF-8"?>

<part_of_world value="Evrazia">

<front_door>2</front_door>

Ivanov Ivan Ivanovich

</man>

</address>

</city>

</country>

</part_of_world>

</continent>

Как видите, язык XML очень лаконичен.

Континент (<continent>) содержит в себе часть света(<part_of_world>) с параметром в котором содержится название (value="Evrazia") части света, в части света содержится страна (<country>) с параметром в котором содержится название (value="Lithuania") страны, в стране содержится город (<city>) с параметром в котором содержится название (value="Vilnius") города, в городе содержится адрес (<address>), в котором перечислены все данные адреса, и кто проживает по данному адресу. Но эти данные ничего не делают. Это чистая информация, завернутая в теги. Для того, чтобы воспользоваться этой информацией, программист должен написать программу. Для того, чтобы программа знала к какому элементу в документе нужно обратиться, она должна знать путь к этому элементу. Этот путь называется XPath

Что такое XPath

Xpath — это язык запросов к элементам XML или XHTML документа. После того как мы применили XPath, нам возвращаются выбранные им данные. Чтобы получить интересующие данные, необходимо всего лишь создать запрос, описывающий эти данные. Другими словами, XPath это путь к элементу или списку элементов на странице.

Использование XPath в разработке программ

Например, программист пишет программу для отправки письма Ивану Ивановичу Иванову. Для того, чтобы программа знала куда нужно отправить письмо, мы должны указать ей путь. Например: мы хотим, чтобы письмо дошло только до квартиры Ивана Ивановича, но не передавалось ему.

Для того, чтобы например почтальон доставил письмо до квартиры, ему потребуются след данные

continent => hart_of_world => country => city => address (данные адреса)=> man

Тоже самое и для программы - ей нужен путь для того, чтобы добраться до нужного элемента в документе. На языке XPath это будет выглядеть следующим образом

continent/hart_of_world/country/city/address (данные адреса)/man

Использование XPath в автоматизированном тестировании

При автоматизации тестирования используются XPath запросы к элементам HTML страницы.

Автоматизированное тестирование это вид тестирования web-приложения, которое выполняться при помощи инструментов автоматизированного тестирования, например программа XML2Selenium. Тестировщик, пишет какой-то тестовый сценарий, для программы. Потом запускает ее, и программа выполняет тестирование сайта сама, по тестовому сценарию.

Пример:

Мы тестируем сайт туристических путевок. Нам нужно проверить, что заказы с разными наборами услуг обрабатываются правильно. Если мы будем делать это вручную, есть вероятность того, что мы забудем протестировать какую-нибудь комбинацию с набором услуг.

Например: выбрать путевку со след. набором услуг:

-отель: 5 *

-питание: все включено

-количество ночей: 10

Находим все туры, которые соответствуют нашим данным.

1) нужно проверить все эти услуги, но только для 4*отеля потом для 3* и т.д.

2) нужно найти все туры в которых есть только завтрак, и опять для 5*, 4* и т.д.

3) и т.д.

Для того чтобы проверить как можно больше комбинаций, пишем программе тестовый сценарий , в котором прописаны все возможные наборы услуг. Теперь программа будет тестировать все ситуации, которые мы ей указали.

Таким образом программа будет запускаться по определенному сценарию, и в случае ошибки проинформирует тестировщика или программиста.

Поиск элемента по указанному XPath

Пример:

Нам нужно написать тест, который проверяет отображение логотипа на странице. Откроем страницу, для которой мы пишем примеры (см. Необходимые инструменты). Чтобы обратиться к элементу “логотип” на странице, нужно указать путь к этому логотипу.

Введем в строку поиска след XPath //div[@id='logo']/h1/a/img

Во вкладке Элементы подсветится тег (<img>) со всеми атрибутами, в котором содержится логотип. Надпись 1 из 1, в нижней правой части окна строки поиска элемента означает, что на странице присутствует 1 узел который соответствует введенному XPath.

Как видно из рисунка, каждый элемент находится внутри элемента расположенного выше, и представляется в виде древовидной структуры.

Дерево документа

HTML-документ представлен в виде дерева элементов.

Дерево документа (document tree) — это схема построения документа, которая показывает связи между различными элементами страницы: порядок следования и вложенность элементов.

Пример:

<html>

<head>

<title>Заголовок страницы</title>

</head>

<body>

<h1>Основной заголовок</h1>

<p>абзац текста.</p>

<ul>

<li>пункт 1</li>

<li>пункт 2</li>

</ul>

</div>

<h2>Второй заголовок</h2>

<p>Текст</p>

</div>

</body>

</html>

Такой HTML код, пользователь может увидеть, если просмотрит код страницы. А вот если разобрать этот HTML по полочкам, то можно увидеть все уровни вложенности и взаимосвязи. Давайте разложим:

Мы выстроили из HTML кода, четкую иерархическую структуру в виде дерева (потому что схема похожа на очертания дерева). Как видно из рисунка, у дерева есть корневой элемент(root) тег (<html>), от которого отходят ветви, заканчивающиеся узлами.

Узлы дерева

Узлами служат вложенные теги и атрибуты, тексты составляющие содержимое корневого элемента. От каждого вложенного тега, могут отходить свои ветви.

Узлы в дереве узлов имеют иерархические взаимоотношения друг с другом. Пример иерархических взаимоотношений. На рисунке отображается XML-документ в виде иерархии:

из рисунка видно, что в теге может находиться не только произвольное количество, но и вложенные в него теги. Таким образом, вложенность тегов, образуют между собой родственные связи

Родственные связи

Предки и потомки

Из схематического изображения дерева, да и из самого HTML кода, понятно, что одни элементы являются вложенными в другие. Элементы, которые содержат другие, являются предками (ancestor) по отношению к во всем вложенным в него. Вложенные в свою очередь являются его потомками (descendant).

Для наглядности рассмотрим одну ветку нашего дерева:

Каждый предок может иметь неограниченное число потомков. Каждый потомок будет иметь число предков в зависимости от структуры дерева и в какой ветке он будет расположен, но в любом случае как минимум один предок будет.

Родители и дочерние элементы

Родитель (parent) — это непосредственный предок (предок первого уровня) элемента. Пример из жизни: Отец(parent) является родителем (предком) сына.

И наоборот, непосредственный потомок (потомок первого уровня) называется дочерним элементом (child). Пример из жизни: Сын (child) является дочерним элементом (потомком) Отца (parent).

Каждый родитель может иметь неограниченное число дочерних элементов. Пример из жизни: У отца может быть 5 и более детей (Ваня, Петя, Коля, Оля, Галя….) Пример из жизни: У Вани может быть только один отец(биологический).

Сестринские элементы

Сестринские элементы (siblings) — это группа из двух и более элементов, у которых общий родитель. Элементы не обязательно должны быть одного типа, просто у них должен быть общий родитель.

Пути к элементам XPath

Все примеры, что приведены ниже, показаны на основе созданной нами HTML-странички.

Как уже говорилось выше XPath это язык запросов к элементам html и XML страницы. Для того чтобы добраться к элементу используются пути. Они является наиболее полезным и широко используемым свойством XPath. Путь состоит из набора узлов XPath относительно его контекста.

Есть два вида путей абсолютный и относительный

Абсолютный путь

Абсолютный - это путь от корня документа. Первым символом в нём должен стоять “/”. Корень документа всегда является узлом по умолчанию. Узел по умолчанию — это текущий полученный узел или набор узлов, относительно которых рассчитывается следующий шаг.

Чтобы добраться до тега (<li>пункт 1</li>), нам нужно, начиная с корня документа (<html>) посетить каждый дочерний элемент родителя.

на примере с XPath это будет выглядеть следующим образом /html/body/div/ul/li[1]

Пример из жизни: есть 7 этажное здание. Чтобы попасть на 7 этаж по лестнице, нам нужно посетить все этажи с 1-го по 7-ой - /1/2/3/4/5/6/7. Это будет абсолютный путь.

Относительный путь

Относительный - это путь от одного элемента (не обязательно от корневого) к другому. Чаще XPath-запрос начинают с «.//» или «//», это делает путь к элементу относительным. Символы "//" в начале запроса возвращают полное множество потомков, которые являются дочерними для корня документа, т.е. все элементы на текущей странице.

Например:

Чтобы добраться до тега (<li>пункт 1</li>), мы можем опустить все теги которые находятся выше тега (<div>) и заменить их на // и также можем заменить всех предков тега (<li>) на //, исключая тег (<div>).

На примере с XPath это будет выглядеть следующим образом: //div//li[1]

Пример из жизни: есть 7 этажное здание. Нам нужно попасть с 3-го на 7-ой этаж, не посещая этажи 4,5,6. Для этого можно воспользоваться лифтом и пропустить этажи (4,5,6.). Наш путь будет выглядеть след. образом //3//7.

А если нам придется подниматься по лестнице, то наш путь будет выглядеть так

//3/4/5/6/7 Это будут относительные пути.

Задача:

Откроем страницу, для которой мы пишем примеры (см. Необходимые инструменты).

1. Верните все абсолютные пути, которые указаны на картинке.

2. Верните все относительные пути, которые указаны на картинке.

Синтаксис языка XPath

Для адресации частей документа выражение языка XPath использует обозначение пути, похожее на обозначение в URL-адресе.

Строка XPath — это фактически путь к элементу в дереве, где каждый уровень разделяется косой чертой «/». В результате обработки выражения XPath получается объект, который может быть:

набор узлов(node-set). Выражение /html/body/div/div вернет шесть узлов элементов div, которые содержаться в элементе div.

булево выражение (boolean). Для проверки значения, которое возвращает булево выражение, перейдите в панели инструментов на вкладку Консоль, и введите функцию $x('/html/body/div or p'), которая вернет значение true, т.к в элементе body содержится элемент div.

строковый (string). Выражение /html/body/div/h1['Основной заголовок'] вернет элемент h1 в котором содержится текст “Основной заголовок”, который содержится в первом элементе div.

Задача:

Откройте HTML страничку, и вставьте в строку для XPath пути, приведенные выше.

Задание:

Откроем страницу, для которой мы пишем примеры (см. Необходимые инструменты).

1. приведите 5 примеров для набора узлов.

2. приведите 5 примеров для булевых выражений.

3. приведите 5 примеров для числовых выражений.

4. приведите 5 примеров для строковых выражений.

XPath определяет два синтаксиса: сокращенный синтаксис и не сокращенный синтаксис.

Сокращенный синтаксис:

Предоставляет набор символов. Ниже перечислены наиболее широко используемые символы:

Дочерний элемент (/)

Выбирает дочерние элементы коллекции, указанной слева. Если этот оператор пути стоит в начале шаблона, будут выбраны дочерние элементы корневого узла.

Например:

/html/body/div/p

html/ выберет дочерний элемент body

body/ выберет дочерний элемент div и т.д.

Рекурсивный спуск (//)

Ищет указанный элемент на любой глубине. Используется для ссылки на все дочерними элементы узла контекста.

Т.е. если у нас есть такой путь //html/body/div/p, чтобы работать с текстом, который расположен в теге (<p>), нам нужно знать только путь до родителя(<div>), а значит часть пути /html/body/ можно заменить на //.

Например:

//div ссылается на все элементы (<div>), которые есть на странице. Положение в иерархии не имеет значения, если (<div>) имеет вложенный элемент (<div>), то нам вернутся все элементы (<div>).

//div/p ссылается на все элементы (<p>), которые имеют родителя (<div>)

Задание:

Откроем страницу, для которой мы пишем примеры (см. Необходимые инструменты).

1.1 Выбрать все элементы (<div>) в котором содержится атрибут @id;

Image 1.png

1.2 Применить рекурсивный спуск до элемента (<h3>);

Image 1.png

1.3 Выбрать дочерний элемент (<a>).

Image 1.png