1 of 16

SALMONN : Towards Generic Hearing Abilities for Large Language Models

Published as a conference paper at ICLR 2024

2 of 16

Abstract

  • 사전학습된 LLM과 오디오 인코더를 통합한 Multi-modal 모델
  • LLM이 오디오 입력을 이해하고 처리할 수 있도록 도와줌
  • 이외에도 새로운 능력들을 보임
  • Generic hearing 관련 최초의 모델

3 of 16

Introduction

  • 최근의 LLM 관련 연구는 다른 추가적인 종류의 입력을 넣는 방향
    • 이미지, 비디오, 오디오 이벤트, 스피치
    • 이는 연결 모듈LLM 어댑터를 통해 훈련 가능
  • 다만, 이러한 Multi-modal LLM은 특정 태스크에 제한됨
    • 훈련을 통해 학습한 것이 아닌 것을 해결하는 것을 emergent abilities 라고 지칭
    • 하지만, 위와 같이 학습하면 task over-fitting
  • Task over-fitting 을 극복하기 위해 추가적인 few-shot activation tuning을 제안
  • 이렇게 고안된 SALMONN 모델을 평가하기 위해 3단계 태스크 고안

4 of 16

Methodology

  • 전체 구조
    • 오디오 처리를 위해 두 개의 스피치 인코더로 구성
    • Q-Former 를 통해 가변 길이의인코더 출력을 오디오 토큰으로 변환
    • Vicuna LLM에 입력
    • LoRA를 통해 Vicuna에 맞는 입력 공간으로 맞춰줌

5 of 16

Methodology

  • 세부 구성 : Dual Auditory Encoders
    • 두 개의 인코더(Whisper, BEATs)로 구성.
    • Whisper는 스피치 인식 및 번역을 위해 학습된 모델
    • BEATs는 스피치가 아닌 오디오 정보 추출을 가능하도록 학습된 모델. spectrogram 이미지 입력으로 받음.
    • 두개의 인코더의 출력을 concat 수행
      • 50Hz로 동일
      • 총 T개의 프레임

6 of 16

Deep dive into code

models/salmonn.py

7 of 16

Methodology

  • 세부 구성 : Window-level Q-Former
    • Q-Former는 이미지 인코더 출력을 LLM 입력 토큰 고정 크기로 변환
    • Q-Former 입력:
      • 인코더 concat 수행한 이미지 (T개)
      • N개의 고정된 숫자의 쿼리
    • 가변적인 크기를 갖는 입력이기 때문에 L 크기의 윈도우로 분할
      • 마지막 윈도우는 제로 패딩
    • Q-Former 출력 :
      • Ceil(T/L) * N 개의 토큰을 갖는 시퀀스

8 of 16

참고) Q-Former

  • Q-Former
    • 사전에 정해진 쿼리(Learnable)의 Self-attention 값을 이미지 임베딩과 Cross attention해서 image feature를 만듬 (목적함수 : Image-Text Matching)
    • Instruction을 Self-attention해서 text feature 만듬 (목적함수 : Image-Grounded Text Generation)
    • 위 두 과정에서 만들어진 image와 text의 features를 Contrastive Learning
    • 위 3가지 목적함수를 위해 Attention Mask로 구현 (오른쪽 이미지)
    • Instruction과 연관성이 높은 Visual features를 이미지 임베딩에서 추출해서 전달

9 of 16

Deep dive into code

models/salmonn.py

10 of 16

Methodology

  • 세부 구성 : LLM & LoRA
    • LLaMA에서 파생된 사전학습된 Vicuna LLM을 활용 (Freeze)
    • PEFT를 위해 LoRA 기법 적용

11 of 16

Deep dive into code

models/salmonn.py

12 of 16

Methodology

학습 방법론

  1. 음성 인식 및 오디오 캡션 생성 데이터로 Q-Former와 LoRA 사전학습
    • Q-Former는 이미지 인코더 출력을 LLM 입력 토큰 고정 크기로 변환
  2. Audio - Text instruction 으로 구성된 학습 수행 (Instruction Tuning)
    • Instruction prompts는 오디오 - 텍스트 쌍 기반으로 생성
    • 1) 비교적 간단한 instruction prompt, 2) instruction tuning에서 음성 인식이나 캡션 생성 등은 똑같은 결과를 내보내는 결정론적 작업이라, task over-fitting이 발생했다고 봄
  3. 더 길고 다양한 응답을 생성하기 위해 규제하거나 zero-shot instruction (Activation Tuning)
    • 규제하는 것은 스토리텔링이나 질의응답 데이터로 추가 학습
    • LoRA 어댑터의 scaling factor 감소

13 of 16

Methodology

평가 방법론 (총 3가지 레벨로 구분)

  • Instruction tuning에서 수행했던 작업들로 구성
  • 훈련하지는 않은 NLP 태스크들로 구성. LLM backbone이 있어서 수행 가능.
    • 키워드 추출, 질의응답, 빈칸 채우기, 번역 등
  • 오디오 기반 스토리 텔링, 스피치 오디오 추론(SAC) 등 가장 어려운 태스크 구성
    • 여기 논문에서 처음으로 제안된 태스크

14 of 16

Deep dive into code

models/salmonn.py

15 of 16

결과

  • 실험 결과
    • Activation Tuning을 하지 않은 경우 평가 레벨2,3에서 낮은 성능
    • LoRA를 감소시켰을 때 (원래 대비 반절 수준인 2) 성능 향상이 나타남

  • 논문 결론
    • SALMONN은 일반적인 오디오 입력에 대해 처리할 수 있는 (연구자들이 아는 한) 최초의 multimodal LLM
    • LoRA의 scaling factor를 조절하는 것으로 emergent abilities 가능.
    • SALMONN 평가를 위해 여러 단계로 거쳐 평가할 수 있었음.

16 of 16

참고 자료