1 of 44

GT Malware DataLab

Diego Kreutz

Rodrigo Mansilha

Angelo Nogueira

Hendrio Bragança

Luiz Laviola

Kayuã Paim

2 of 44

2

Por que projetos de IA falham?

Top 10 Reasons Why AI Projects Fail

1. Applying application development

approaches to data-centric AI

3. Lack of sufficient quantity of data

4. Lack of sufficient quality of data

6. Misalignment of real world data

85% dos projetos de IA falham

3 of 44

3

Contexto e Motivação

ML, AutoML, XAI e AML na Detecção de Malwares Android: desafios e lições

4 of 44

4

Contexto e Motivação

Dataset

Ano

Tipo Carac.

Amostras

Cars.

% M / B

Adroit

2016

P

11476

166

29.8 / 70.2

Androcrawl

2013

P, I, CAPI

96732

141

10.5 / 89.5

Android_Per

2021

P

26864

151

66.21 / 33.79

DefenseDroid

2021

P, I

11975

2938

50.1 / 49.9

Drebin-215

2012/

2018

P, CAPI, CS, I

15036

215

37 / 63

KronoDroid

2021

P, CS

78137

383

53 / 47

MH-100K

2023

P, CAPI, I

101934

268

9.61 / 91.39

Exemplos de datasets utilizados para treinar modelos para detectar malwares Android

5 of 44

5

Contexto e Motivação

Dataset

Ano

Tipo Carac.

Amostras

Cars.

% M / B

Adroit

2016

P

11476

166

29.8 / 70.2

Androcrawl

2013

P, I, CAPI

96732

141

10.5 / 89.5

Android_Per

2021

P

26864

151

66.21 / 33.79

DefenseDroid

2021

P, I

11975

2938

50.1 / 49.9

Drebin-215

2012/

2018

P, CAPI, CS, I

15036

215

37 / 63

KronoDroid

2021

P, CS

78137

383

53 / 47

MH-100K

2023

P, CAPI, I

101934

268

9.61 / 91.39

Datasets defasados (amostras e rotulagem defasadas)

6 of 44

6

Contexto e Motivação

Dataset

Ano

Tipo Carac.

Amostras

Cars.

% M / B

Adroit

2016

P

11476

166

29.8 / 70.2

Androcrawl

2013

P, I, CAPI

96732

141

10.5 / 89.5

Android_Per

2021

P

26864

151

66.21 / 33.79

DefenseDroid

2021

P, I

11975

2938

50.1 / 49.9

Drebin-215

2012/

2018

P, CAPI, CS, I

15036

215

37 / 63

KronoDroid

2021

P, CS

78137

383

53 / 47

MH-100K

2023

P, CAPI, I

101934

268

9.61 / 91.39

Quantidades e tipos limitados de características e amostras

7 of 44

7

Contexto e Motivação

Dataset

Ano

Tipo Carac.

Amostras

Cars.

% M / B

Adroit

2016

P

11476

166

29.8 / 70.2

Androcrawl

2013

P, I, CAPI

96732

141

10.5 / 89.5

Android_Per

2021

P

26864

151

66.21 / 33.79

DefenseDroid

2021

P, I

11975

2938

50.1 / 49.9

Drebin-215

2012/

2018

P, CAPI, CS, I

15036

215

37 / 63

KronoDroid

2021

P, CS

78137

383

53 / 47

MH-100K

2023

P, CAPI, I

101934

268

9.61 / 91.39

Desbalanceamento de classes

8 of 44

8

Como obter datasets atualizados e representativos?

Datasets atualizados?!

9 of 44

9

Construção de Datasets

ADBuilder

AMGenerator e AMExplorer

10 of 44

10

ADBuilder

11 of 44

11

VirusTotal permite apenas 250 rotulações por dia

200 dias para rotular 50K amostras

ADBuilder

12 of 44

12

Podemos utilizar datasets atualizados menores e IA generativa para aumentar datasets e também detectar malwares mutantes?

Datasets: usar IA generativa?

13 of 44

13

Data Augmentation

Utilizada em diversos domínios:

  • Computação gráfica
  • Processamento de imagens
  • Visão computacional
  • Processamento de linguagem natural
  • Trânsito, música…

14 of 44

14

Por que aumentar os dados?

  • Evitar overfitting dos modelos
  • Melhorar precisão do modelo
  • Reduzir custo operacional de rotulagem
  • Aumentar dataset inicial muito pequeno

Data Augmentation

15 of 44

15

Onde se encaixa o data augmentation dentro do pipeline de ML?

Data Augmentation

16 of 44

16

Pipeline de IA para detecção de malwares

E1: Construção de datasets (e.g., ADBuilder, AMGenerator)

17 of 44

17

E2: utilizar Redes Neurais Artificiais para aumentar e variar datasets (e.g., DroidAugmentor)

Pipeline de IA para detecção de malwares

18 of 44

18

E3: pipeline convencional de ML, incluindo treinamento dos classificadores

Pipeline de IA para detecção de malwares

19 of 44

19

E4: utilização dos classificadores para detecção de malwares

Pipeline de IA para detecção de malwares

20 of 44

20

E2: AutoDroid + DroidAugmentor para compreender e viabilizar a utilização de Redes Neurais Artificiais para aumentar e variar datasets

Desafios:

  1. compreender e parametrizar redes neurais artificiais complexas;
  2. executar;
  3. executar em escala.

Pipeline de IA para detecção de malwares

AutoDroid

DroidAugmentor

Serviço Proposto

21 of 44

21

Objetivos

Oferecer um serviço para reduzir a curva de aprendizado e facilitar a investigação de técnicas avançadas de geração de dados sintéticos para expandir datasets úteis na classificação de aplicativos Android (benigno ou maligno).

O1. Ambiente de Execução (extensão inovadora)

O2. Ambiente de Avaliação (pesquisa)

O3. Material de Aprendizado e Treinamento (ensino)

22 of 44

22

Malware DataLab: visão geral

Malware DataLab: laboratório de ensino, aprendizagem e experimentação com AutoDroid e DroidAugmentor

23 of 44

23

Malware DataLab: interface

24 of 44

24

Malware DataLab: exemplos de saídas

Matriz de confusão para cada dobra (fold)

25 of 44

25

Curvas de aprendizagem (perdas do gerador e discriminador)

Malware DataLab: exemplos de saídas

26 of 44

26

Avaliação de aplicabilidade através de gráficos de métricas de classificação

Malware DataLab: exemplos de saídas

27 of 44

27

Avaliação de similaridade através de métricas e mapas de calor

Malware DataLab: exemplos de saídas

28 of 44

28

Cronograma

3 meses de evolução da DroidAugmentor

Marco 1: nova versão

29 of 44

29

Cronograma

6 meses de desenvolvimento do serviço e integração

Marco 2: disponibilização do serviço (uso interno)

30 of 44

30

Cronograma

3 meses de testes, melhoramentos e evolução

Marco 3: disponibilização do serviço (uso externo)

31 of 44

31

Cronograma

3 meses de utilização e acompanhamento

Marco 4: disponibilização de material de aprendizado

32 of 44

Diego Kreutz

diegokreutz@unipampa.edu.br

Rodrigo Brandão Mansilha

rodrigomansilha@unipampa.edu.br

Luiz Felipe Laviola Leite

luizlaviola.aluno@unipampa.edu.br

Kayuã Oleques Paim

kayuaolequesp@gmail.com

Angelo Gaspar Diniz Nogueira

angelodiniz44@gmail.com

Hendrio Luis de Souza Bragança

hendrio.luis@icomp.ufam.edu.br

32

Equipe & Contato

33 of 44

GT Malware DataLab

Obrigado!

Alegrete, 19/01/2023

34 of 44

34

Malware DataLab: arquitetura

35 of 44

35

AutoDroid: arquitetura

Execução parametrizada e escalável da DroidAugmentor

AutoDroid

36 of 44

36

AutoDroid: arquitetura

DroidAugmentor: execução e geração de saídas para o usuário

37 of 44

37

DroidAugmentor: pipeline

Dados das amostras e parâmetros de execução (e.g., otimizador, coeficientes, número de épocas, número de camadas, número de neurônios por camada, função de perda)

38 of 44

38

Dataset real é utilizado para treinar a cGAN

DroidAugmentor: pipeline

39 of 44

39

Ruído aleatório e rótulo desejado para gerar o dataset sintético

DroidAugmentor: pipeline

40 of 44

40

O dataset real é usado para treinar o classificador

DroidAugmentor: pipeline

41 of 44

41

Avaliação de similaridade: comparar amostras sintéticas e reais

DroidAugmentor: pipeline

42 of 44

42

Avaliação de aplicabilidade através de classificadores

DroidAugmentor: pipeline

43 of 44

43

Saídas da ferramenta

  • métricas
  • cGAN treinada
  • gráficos (matrizes de confusão, curva de aprendizagem, métricas de classificação)

DroidAugmentor: pipeline

44 of 44

GT Malware DataLab

Obrigado!

Alegrete, 19/01/2023