1 of 16

SALMONN : Towards Generic Hearing Abilities for Large Language Models

Published as a conference paper at ICLR 2024

2 of 16

Abstract

사전학습된 LLM과 오디오 인코더를 통합한 Multi-modal 모델
LLM이 오디오 입력을 이해하고 처리할 수 있도록 도와줌
이외에도 새로운 능력들을 보임
Generic hearing 관련 최초의 모델

3 of 16

Introduction

최근의 LLM 관련 연구는 다른 추가적인 종류의 입력을 넣는 방향

이미지, 비디오, 오디오 이벤트, 스피치
이는 연결 모듈과 LLM 어댑터를 통해 훈련 가능

다만, 이러한 Multi-modal LLM은 특정 태스크에 제한됨

훈련을 통해 학습한 것이 아닌 것을 해결하는 것을 emergent abilities 라고 지칭
하지만, 위와 같이 학습하면 task over-fitting

Task over-fitting 을 극복하기 위해 추가적인 few-shot activation tuning을 제안
이렇게 고안된 SALMONN 모델을 평가하기 위해 3단계 태스크 고안

4 of 16

Methodology

전체 구조

오디오 처리를 위해 두 개의 스피치 인코더로 구성
Q-Former 를 통해 가변 길이의인코더 출력을 오디오 토큰으로 변환
Vicuna LLM에 입력
LoRA를 통해 Vicuna에 맞는 입력 공간으로 맞춰줌

5 of 16

Methodology

세부 구성 : Dual Auditory Encoders

두 개의 인코더(Whisper, BEATs)로 구성.
Whisper는 스피치 인식 및 번역을 위해 학습된 모델
BEATs는 스피치가 아닌 오디오 정보 추출을 가능하도록 학습된 모델. spectrogram 이미지 입력으로 받음.
두개의 인코더의 출력을 concat 수행

50Hz로 동일
총 T개의 프레임

6 of 16

Deep dive into code

models/salmonn.py

7 of 16

Methodology

세부 구성 : Window-level Q-Former

Q-Former는 이미지 인코더 출력을 LLM 입력 토큰 고정 크기로 변환
Q-Former 입력:

인코더 concat 수행한 이미지 (T개)
N개의 고정된 숫자의 쿼리

가변적인 크기를 갖는 입력이기 때문에 L 크기의 윈도우로 분할

마지막 윈도우는 제로 패딩

Q-Former 출력 :

Ceil(T/L) * N 개의 토큰을 갖는 시퀀스

8 of 16

참고) Q-Former

Q-Former

사전에 정해진 쿼리(Learnable)의 Self-attention 값을 이미지 임베딩과 Cross attention해서 image feature를 만듬 (목적함수 : Image-Text Matching)
Instruction을 Self-attention해서 text feature 만듬 (목적함수 : Image-Grounded Text Generation)
위 두 과정에서 만들어진 image와 text의 features를 Contrastive Learning
위 3가지 목적함수를 위해 Attention Mask로 구현 (오른쪽 이미지)
Instruction과 연관성이 높은 Visual features를 이미지 임베딩에서 추출해서 전달

Li et al., BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, arXiv 2023

9 of 16

Deep dive into code

models/salmonn.py

…

10 of 16

Methodology

세부 구성 : LLM & LoRA

LLaMA에서 파생된 사전학습된 Vicuna LLM을 활용 (Freeze)
PEFT를 위해 LoRA 기법 적용

11 of 16

Deep dive into code

models/salmonn.py

12 of 16

Methodology

학습 방법론

음성 인식 및 오디오 캡션 생성 데이터로 Q-Former와 LoRA 사전학습

Q-Former는 이미지 인코더 출력을 LLM 입력 토큰 고정 크기로 변환

Audio - Text instruction 으로 구성된 학습 수행 (Instruction Tuning)

Instruction prompts는 오디오 - 텍스트 쌍 기반으로 생성
1) 비교적 간단한 instruction prompt, 2) instruction tuning에서 음성 인식이나 캡션 생성 등은 똑같은 결과를 내보내는 결정론적 작업이라, task over-fitting이 발생했다고 봄

더 길고 다양한 응답을 생성하기 위해 규제하거나 zero-shot instruction (Activation Tuning)

규제하는 것은 스토리텔링이나 질의응답 데이터로 추가 학습
LoRA 어댑터의 scaling factor 감소

13 of 16

Methodology

평가 방법론 (총 3가지 레벨로 구분)

Instruction tuning에서 수행했던 작업들로 구성
훈련하지는 않은 NLP 태스크들로 구성. LLM backbone이 있어서 수행 가능.

키워드 추출, 질의응답, 빈칸 채우기, 번역 등

오디오 기반 스토리 텔링, 스피치 오디오 추론(SAC) 등 가장 어려운 태스크 구성

여기 논문에서 처음으로 제안된 태스크

14 of 16

Deep dive into code

models/salmonn.py

15 of 16

결과

실험 결과

Activation Tuning을 하지 않은 경우 평가 레벨2,3에서 낮은 성능
LoRA를 감소시켰을 때 (원래 대비 반절 수준인 2) 성능 향상이 나타남

논문 결론

SALMONN은 일반적인 오디오 입력에 대해 처리할 수 있는 (연구자들이 아는 한) 최초의 multimodal LLM
LoRA의 scaling factor를 조절하는 것으로 emergent abilities 가능.
SALMONN 평가를 위해 여러 단계로 거쳐 평가할 수 있었음.

1 of 16

2 of 16

3 of 16

4 of 16

5 of 16

6 of 16

7 of 16

8 of 16

9 of 16

10 of 16

11 of 16

12 of 16

13 of 16

14 of 16

15 of 16

16 of 16