Organizace
KNN - Konvoluční neuronové sítě
Michal Hradiš - Brno University of Technology
Garant - Michal Hradiš
Konzultace v Q201 nebo přes MS Teams po domluvě (ústně, email)
Koordinátor - Martin Kostelník
Konzultace v Q201, email, discord
Kontrola studia - testy
Projekty
Požadavky na projekt
Požadavky na projekt
Řešené úlohy z 2020/2021
Detekce a rozpoznání dopravních značek�Doporučovací systém, Identifikace aut podle vzhledu�Identifikace osob podle obličeje, Unsupervised image-to-image translation�Identifikace řečníka, Image inpainting, Interaktivní segmentace bodových mračen�Interaktivní segmentace obrazu, Transformer-based Language model�License plate recognition, Obarvování obrazu, Odhad hloubky z obrazu�Painting style transfer, Počítání aut, Prořezávání neuronových sítí (pro rychlost)�Segmentace leteckých snímků, Sémantická segmentace bodových mračen �Single image depth estimation, SRGAN for enhancing skin lesion images
Příklady témat - Colorization
Inpainting
Generování pohybu
Reinforcement learning character controll
Reinforcement learning for games
Simple games:
Divné trénování
Interpretace sítí - co se naučily?
Keypoint/landmark detection
Faces
AI city challange (https://www.aicitychallenge.org/2021-challenge-tracks/)
Rozumné úlohy 2023
Z roku 2022
Data může poskytnout Jakub Špaňhel
Point cloud data - Object detection
Point cloud data - semantic segmentation
Depth estimation / semantic segmentation
NYU Depth Dataset V2 https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
DIODE https://diode-dataset.org/
KITTI?
Speech/Text recognition
Audio - https://voice.mozilla.org/, https://voice.mozilla.org/en/datasets
Text - https://pero.fit.vutbr.cz/brno_mobile_ocr_dataset
The following diagrams illustrate selected
versus key setup speed. There were similar tradeoffs in
practice of coding hardware-specific
(Re)-identification
Jazykové modely
Rekurentní, ale třeba i konvoluční, s attention? https://openai.com/blog/better-language-models/
Text seed: In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English.
Generated text: The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.
Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.
Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow.
Conversational Agents
Odstranění šumu z audia / separace řečníka
Beam forming
Topic discovery
Extrakce témat z textu
Témata:
Retrieval Augmented Question Answering
Dotaz: Prosím, napiš mi příklady, jak probíhalo osvobozování Rudou armádou.
Odpověď systému:
Osvobozování probíhalo v některých obcích klidně, protože německá armáda již předem vyklidila pozice, ale v některých obcích došlo k bojům. Například ve Václavově u Bruntálu se část německé posádky zabarikádovala v domě, který ale vojáci Rudé armády palbou zapálili. Uvnitř uhořelo 25 vojáků. Bylo zastřeleno také několik civilních osob. [odkaz do kroniky] …
Paraphrase?
ext | Judgments | Hypothesis |
A man inspects the uniform of a figure in some East Asian country. | contradiction C C C C C | The man is sleeping |
An older and younger man smiling. | neutral N N E N N | Two men are smiling and laughing at the cats playing on the floor. |
A black race car starts up in front of a crowd of people. | contradiction C C C C C | A man is driving down a lonely road. |
A soccer game with multiple males playing. | entailment E E E E E | Some men are playing a sport. |
A smiling costumed woman is holding an umbrella. | neutral N N E C N | A happy woman in a fairy costume holds an umbrella. |
Named Entity Recognition (NER)
Visual Language Models (VLMs)
Michael Tschannen, et. al. JetFormer: An autoregressive generative model of raw images and text (2024)
Jingyi Zhang, et. al. Vision-Language Models for Vision Tasks: A Survey (2024)
Florian Bordes, et. al. An Introduction to Vision-Language Modeling (2024)
Document image description
Person description
Seznam objektů na obrázku:
Na obrázku je čelní pohled na černou Tatru 603, klasický automobil vyráběný v Československu mezi lety 1956 a 1975. Tento model má čtyři kruhové přední světlomety, které jsou zasazeny do chromovaného rámečku, a žluté mlhovky na krajích. Přední část vozu zdobí výrazný chromovaný nárazník s černými ochrannými gumovými prvky.
Na kapotě je chromovaná ozdobná lišta, která se táhne od přední masky směrem k čelnímu sklu. Boční zpětné zrcátko je umístěné na blatníku na dlouhém držáku. Skrz čelní sklo je částečně vidět interiér vozu, kde se nachází palubní deska a přední sedadla.
Artistic Text Recognition
Recognition of Mathematical Expressions
Form Information Extraction
Extraction of Bibliographic Metadata
title: str,
subTitle: str,
partName: str,
partNumber: str,
seriesName: str,
seriesNumber: str,
edition: str,
placeTerm: str,
dateIssued: str,
publisher: List[str],
manufacturePublisher: str,
manufacturePlaceTerm: str,
author: List[str],
illustrator: List[str],
translator: List[str],
editor: List[str]
Forced Alignment For Transformers
Rekonstrukce 3D geometrie ruky
Guan Ming Lim, et. al. MobileHand: Real-time 3D Hand Shape and Pose Estimation from Color Image (2020)
Xingyu Chen, et. al. HandOS: 3D Hand Reconstruction in One Stage (2024)
Rolandos Alexandros Potamias, et. al. WiLoR: End-to-end 3D Hand Localization and Reconstruction in-the-wild (2024)
Car/person counting
Wang, Crowd Counting with Density Adaption Networks
Keypoint/landmark detection
Dependency parsing