1 of 56

Metric learning

Технологии компьютерного зрения

2 of 56

Разбор ДЗ

ImageFolder
Для pretrained моделей используем mean & std от imageNet
min_y, min_x = min(min_y, img.shape[1]), min(min_x, img.shape[2])
Accuracy
Checkpoints
Дисбаланс != low accuracy

3 of 56

Модели и данные

Мало классов(1K), много данных (1000K Image Net)
Классификация

Много классов(100K) мало данных на класс (10 Face recognition)
Metric learning

Много - данных (10M) нет разметки
Unsupervised learning

Есть классы где очень мало данных Поиск аномалий (выбросов/новизны)

4 of 56

Распознавание лиц

Задачи

Верификация
Идентификация / Поиск (watch list)
Извлечение атрибутов (пол, возраст и.т.п.)

Сценарии использования

Контроль доступа
Розыск
Соцсети
Реклама

...

5 of 56

Наивный подход

#1 Иванов И.И.

…

CNN

Linear ?

Огромный размер
Количество выходов меняется
Нет данных для обучения

~20М

Номер класса объекта

6 of 56

Понижение размерности

CNN

Linear 256

вектор признак

(embedding)

embedding (128/256/512)

image ( 224 x 224 = 50176)

classifier

7 of 56

Фоторобот == понижение размерности

Hair	5
Eyes	12
Nose	66
Mouth	3
Jaws	17
…

привет автоэнкодер

8 of 56

Сравнение embedding

Hair	5
Eyes	12
Nose	66
Mouth	3
Jaws	17

Hair	7
Eyes	11
Nose	66
Mouth	5
Jaws	17

distance(A,B)

9 of 56

От классификации к кластеризации

CNN

K-means, DBScan

KNN

10 of 56

Cosine similarity

Косинусная близость [-1 .. 1]

Скалярное

произведение

def.

или

Норма/длина

def.

11 of 56

Нормализация -> проекция на гиперсферу

Если нормировать вектора так, чтобы их длины были равны 1-це, то все точки будут лежать на сфере радиусом 1, а косинусное расстояние будет равно скалярному произведению (т.к. |A||B| == 1)

12 of 56

Как отрезать хвост в Pytorch

embedding size

https://pytorch.org/docs/stable/generated/torch.nn.functional.normalize.html

13 of 56

Сиамские сети (Siamese network)

Одна архитектура, параметры и веса совпадают

14 of 56

Contrastive Losses

2006 Dimensionality Reduction by Learning an Invariant Mapping

Softmax

z_i - anchor,

z_j - positive,

z_k - negative (k != i, k!= j)

Считается на наборе примеров:

…

2016 Normalized Temperature-scaled Cross Entropy Loss

The cosine of identical vectors is 1 while orthogonal and opposite vectors are 0 and -1 respectively. More similar vectors will result in a larger number.

Если все расстояния между негативными примерами маленькие (около 0) а между положительными большие (около 1). То выражение под логарифмом близко к 1 (1/1) а его логарифм к 0 То есть Loss - маленький. Если же нет, то это маленькое число и его логарифм отрицательное число большое по модулю. Соответственно лосс - большой.

https://towardsdatascience.com/contrastive-loss-explaned-159f2d4a87ec

https://ru.qaz.wiki/wiki/Euclidean_vector#Dot_product

https://ru.qaz.wiki/wiki/Cosine_similarity

Похоже на CrossEntropy

15 of 56

CosineEmbeddingLoss

https://pytorch.org/docs/stable/generated/torch.nn.CosineEmbeddingLoss.html?highlight=loss#torch.nn.CosineEmbeddingLoss

16 of 56

Идентификация. Постановка задачи

F

Target

Imposter

>= d

< d

F

порог

F (x,y) -> [0,1]

Для косинусной близости:

17 of 56

Triplet Loss

FaceNet: A Unified Embedding for Face Recognition and Clustering (2015)

18 of 56

Triplet Loss in Pytorch

https://pytorch.org/docs/stable/generated/torch.nn.TripletMarginLoss.html

19 of 56

Triplet mining. Проблема.

N фотографий позволят составить N³ троек

Часть из них будет не валидна, если две фотографии из трех не будут соответствовать одному и тому же объекту.
Часть валидных троек не поможет обучению, если расстояние до негативного элемента будет больше d(a,p) + margin так как лосс по таким элементам будет нулевым

a – anchor, p - positive sample

нерационально расходуем ресурсы
уменьшаем лосс от сложных троек, так как делим на размер batch

20 of 56

Triplet mining

2020 Improved Embeddings with Easy Positive Triplet Mining

Offline triplet mining

Собрать все сложные тройки заранее и сформировать датасет из троек

дополнительный forward pass по всему датасету
Который надо периодически повторять по мере обучения сети

Online Triplet Mining

Формируем случайный batch*
Получаем набор embedding
Считаем матрицу попарных расстояний
Маскируем невалидные пары
Находим сложные тройки
Считаем лосс только по ним

*в batch должны присутствовать как позитивные так и негативные пары, это нужно учесть при выборе стратегии семплирования из датасета

Примеры реализации:

https://towardsdatascience.com/triplet-loss-advanced-intro-49a07b7d8905

https://omoindrot.github.io/triplet-loss

21 of 56

ArcFace

Cross entropy loss =

s_i = W_ix = ||W_i|| ||x|| cos(𝜃_i)

1.Можем заменить логиты на

так как

2. Если нормировать W_i и x то

s_i = cos(𝜃_i)

где 𝜃_i угол между вектором весов и эмбеддингом

x = embedding

3. Заменив s_i на cos(𝜃_i) в CE получим

4. Добавим margin к углу

22 of 56

ArcFace

https://arxiv.org/abs/1801.07698

2018 ArcFace: Additive Angular Margin Loss for Deep Face Recognition

Если модель возвращает эмбеддинг то слой классификатора добавляют в объект лосс-а и его он тоже учиться

23 of 56

Классификационные функции потерь

cos(𝜃+m)

cos(𝜃)-m

cos(𝜃*m)

cos(𝜃)

logit=

combined

24 of 56

Frameworks

PML (Pytorch Metric Learning)

OML (Open Metric Learning)

25 of 56

PML demo

https://drive.google.com/file/d/15Tl1-2Uyvab6lGzd-Hn6XNECsCPZ8Nse/view?usp=sharing

26 of 56

Metrics

MI

AMI

(independent of cluster count)

NMI

Normalized MI

accuracy_calculation

Precision & Recall

27 of 56

Распознавание лиц

28 of 56

Идентификация. Постановка задачи

F

Target

Imposter

>= d

< d

F

порог

F (x,y) -> [0,1]

Для косинусной близости:

29 of 56

Метрики

FRR (False Rejection Rate) — доля неправильно отклонёных target(genuine)-попыток.
FAR (False Acceptance Rate) — доля неправильно принятых imposter-попыток.

порог

Equal Error Rate

FRR = FN / Target_count

FAR = FP / Imposter_count

30 of 56

Метрики

DET - detection error trade-off curve

(КОО - кривая компромиссного определения) ошибки

31 of 56

Face Recognition Vendor Test

Face Recognition Vendor Test (FRVT) (NIST)

the Face Recognition Vendor Test (FRVT) competition of the U.S. National Institute of Standards and Technology of the US Department of Commerce (NIST)

NtechLab

VisionLabs

FNMR

FMR

FNMR (false non-match rate) is the proportion of mated comparisons below a threshold

FMR (false non-match rate) is the proportion of impostor comparisons at or above that threshold

32 of 56

Датасеты

PubFig
Caltech Faces
FEI Face Database
Georgia Tech face database.
CASIA-WebFace
Celebrities in Frontal-Profile in the Wild
VGG2Face

cooperative

33 of 56

Датасеты

Ferret (1995 -2000) 14000/1200 + 2Y

https://en.wikipedia.org/wiki/FERET_database

Labeled Faces in the Wild знаменитости 12K

http://vis-www.cs.umass.edu/lfw/

MSCeleb

https://megapixels.cc/msceleb/

MegaFace (2017)

http://megaface.cs.washington.edu/

34 of 56

Face analysis in the wild using synthetic data alone

https://microsoft.github.io/FaceSynthetics/

35 of 56

Предобработка

36 of 56

1.Обнаружение лиц (face detection)

MTCNN (2016) https://arxiv.org/abs/1604.02878

FaceBoxes(2017) https://arxiv.org/abs/1708.05234

DLIB https://towardsdatascience.com/cnn-based-face-detector-from-dlib-c3696195e01c

HOG — Histograms of Oriented Gradients.

Viola-Jones

37 of 56

Выравнивание Face Alignment

Ключевые точки: центры глаза, уголки рта, нос … должны занимать на всех изображениях одно и то же положение.

38 of 56

Нахождение ключевых точек (facial landmark detection)

One Millisecond Face Alignment with an Ensemble of Regression Trees

https://blog.dlib.net/2014/08/real-time-face-pose-estimation.html

39 of 56

Аффинные преобразования

Отображение плоскости или пространства в себя, при котором параллельные прямые переходят в параллельные прямые, пересекающиеся — в пересекающиеся, скрещивающиеся — в скрещивающиеся.

M =

40 of 56

2.Предобработка

Выравнивание

Нашли ключевые точки
Преобразовали изображение так чтобы на всех изображения они оказались на одном месте

Нормализация

Вычитаем среднее
Делим на стандартное отклонение

41 of 56

MTCNN (Multi Task CNN)

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

Loss

+

𝛼_land

𝛼_det

+

regression

classification

(binary cross entropy)

42 of 56

Facenet-pytorch

https://github.com/timesler/facenet-pytorch

M =

кроме bounding box и ключевых точек, можно предсказывать еще и коэффициенты матрицы аффинных преобразований

43 of 56

MTCNN example

44 of 56

Схема идентификации по лицу

Извлечение признаков (feature extraction)

поиск

Предобработка

embedding

Сжатие

embeddings

Jeff Bezos

Not found

someone else

Нормализация

Выравнивание

Поиск ключевых точек (landmarks)

Face detector

локализация

45 of 56

Поиск

HNSW Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs

https://github.com/nmslib/nmslib

Faiss

Faiss is a library for efficient similarity search and clustering of dense vectors.

KNN ->ANN (Approximate Neighbor Search)

46 of 56

HNSW (Hierarchical Navigable Small World)

2016 Efficient and robust approximate nearest neighbor search using Hierarchical Navigable Small World graphs

Строится индекс, определяющий структуру графа.
На верхнем уровне происходит жадный поиск ближайшего элемента среди соседей входной вершины
Если такой сосед найден, то шаг два повторяется, только для найденной вершины с минимальным расстоянием
Если все соседи дальше текущего то происходит спуск на следующий уровень.

Hierarchical Navigable Small Worlds (HNSW)

47 of 56

https://medium.com/@slavahead/list/similarity-search-598d963ad35e

48 of 56

Демонстрация

https://colab.research.google.com/drive/1-3nbW__lfWGw0hBvsrWRsxXuOYynR5BZ#scrollTo=g98FylOzsqQq

49 of 56

ДЗ

Обучить модель для распознавания лиц

https://edu.hse.ru/mod/assign/view.php?id=1088175

50 of 56

DET FAR, FAR
Почему нельзя считать accuracy
Решение через классификацию (что если классов много)
np_im = np.array(img)
np_im = np_im[..., np.newaxis] # add channal dim
np_im = np.repeat(np_im, 3, axis=2) # copy data into this dim

51 of 56

Дополнительные материалы

52 of 56

TPE (Triplet Probabilistic Embedding)

Triplet Probabilistic Embedding for Face Verification and Clustering (2017)

Расстояние S_w считается при помощи матрицы весов W. Веса подбираются методом градиентного спуска

Consider a triplett:= (vi,vj,vk), where vi(anchor) and vj(positive) are from the same class, but vk(neg-ative) belongs to a different class.

53 of 56

Samplers

https://pytorch.org/docs/stable/data.html#torch.utils.data.Sampler

54 of 56

Сравнение/кластеризация : Loss функция

Center Loss,

Contrastive-Center Loss,

A-Softmax (SphereFace),

LMCL (CosFace).

55 of 56

Нахождение ключевых точек (facial landmark detection)

Преобразование изображения к нормализованному виду можно осуществить при помощи аффинных преобразований:

масштабирование,
сдвиг,
поворот.

56 of 56

Метрики

DET - detection error trade-off curve

(КОО - кривая компромиссного определения) ошибки