[논문 리뷰] AudioCLIP: Extending CLIP to Image, Text and Audio

Notice

Recent Posts

Link

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

관리 메뉴

정화 코딩

[논문 리뷰] AudioCLIP: Extending CLIP to Image, Text and Audio 본문

[논문 리뷰] AudioCLIP: Extending CLIP to Image, Text and Audio

jungh150c 2025. 7. 23. 17:12

https://arxiv.org/abs/2106.13043

AudioCLIP: Extending CLIP to Image, Text and Audio

In the past, the rapidly evolving field of sound classification greatly benefited from the application of methods from other domains. Today, we observe the trend to fuse domain-specific tasks and approaches together, which provides the community with new o

arxiv.org

1. Introduction

- 오디오 분류 분야의 발전. But, 이전까지는 오직 오디오 단일 모달리티만을 이용한 분류에 초점이 맞춰져 있었음.

- 멀티모달 접근의 부상. But, 3가지 모달리티(오디오 + 텍스트 + 이미지)를 함께 사용하는 시도는 드묾.

- 데이터 부족과 Zero-shot 학습의 중요성: 오디오 데이터는 정성적 라벨링이 어려워 양질의 학습 데이터를 확보하기 힘듦.

=> AudioCLIP의 제안: 고성능 오디오 모델 (=ESResNeXt) + 텍스트-이미지 대조 학습 모델 (=CLIP)

3가지 모달(오디오 + 텍스트 + 이미지)을 모두 아우르는 하이브리드 모델 -> 기존 CLIP의 zero-shot 추론 능력 유지 + 텍스트, 이미지, 오디오 간 자유로운 크로스모달 질의 가능

2. Related Work

1. Environmental Sound Classification (ESC)

ESC: 일상 생활에서 발생하는 소리를 정확한 라벨로 분류하는 작업

대부분 CNN 기반 모델 사용

전형적인 오디오 전용 구조에 시각 도메인의 구조를 도입한 결과, 성능이 향상되었음.

But, 시각 정보는 단독으로 또는 순차적으로 사용됨 (동시에 멀티모달 X)

2. 멀티모달 학습의 발전

여러 모달리티를 동시에 처리하는 연구 등장

But, 대부분 두 가지 모달리티만 사용

3. 대조 학습 (Contrastive Learning)

대조 학습: Self-Supervised Learning의 한 종류. 명시적인 라벨 없이도 표현 학습을 가능하게 하는 기법.

효과: 라벨이 부족한 데이터셋 문제를 보완 가능 -> 제로샷 학습(zero-shot classification)에도 적합

=> AudioCLIP의 차별점

- 세 가지 모달리티 기반 contrastive training

- 분류, 질의 task 가능

- 제로샷 추론 가능

3. Model

AudioCLIP: 세 가지 모달리티(텍스트, 이미지, 오디오)를 처리하는 하이브리드 모델

- 텍스트, 이미지 처리: ResNet-based CLIP model

- 오디오 처리: ESResNeXt model

3.1. CLIP

CLIP은 두 개의 서브네트워크로 구성됨: Text encoder (텍스트 인코더), Image encoder (이미지 인코더)
-> 두 인코더는 자연어 감독(natural language supervision) 아래에서 함께 학습됨. -> 일반화 능력 향상, 제로샷 추론 가능.

- 텍스트 인코딩 파트: Transformer 기반

- 이미지 인코딩 파트: ViT 또는 ResNet 기반

-> 멀티모달 임베딩 공간: 각각 1024 차원의 임베딩 벡터로 변환되어 symmetric cross entropy loss로 학습됨

3.2. ESResNeXt

- 오디오 인코딩 파트: ESResNeXt 기반 (백본 ResNeXt-50 + 학습 가능한 시간-주파수 변환)

3.3. Hybrid Model – AudioCLIP

AudioCLIP의 구조

세 개의 서브네트워크로 구성됨

- Text encoder (텍스트 인코더): Transformer 기반

- Image encoder (이미지 인코더): ResNet 기반

- Audio encoder (오디오 인코더): SResNeXt

학습 목표 (Loss 구성)

기존 CLIP은 text <-> image 간 유사도 학습

AudioCLIP은 여기에 두 가지 손실 항을 추가함: text <-> audio 간, image <-> audio 간

=> 모든 모달리티 쌍에 대해 코사인 유사도를 기반으로 대조 학습 진행

4. Experimental Setup

4.1. Datasets

1. Composite CLIP Dataset: 간접 사용

- 4억 개의 text-image 쌍

- Text-Head와 Image-Head의 가중치 초기화용으로 사용

2. ImageNet: 간접 사용 + 평가용

- 100만 개의 image, 1000개의 클래스

- Audio-Head의 가중치 초기화용으로 사용 + AudioCLIP의 제로샷 이미지 분류 task 평가용으로 사용

3. AudioSet: 핵심 데이터셋

- 180만개의 유튜브 기반 audio, 527개의 클래스

- 세 모달리티를 모두 연결하는 접착제 역할

- 입력: 유튜브 영상에서 추출된 프레임 (이미지) + 유튜브 영상의 오디오 (오디오) + 오디오 클래스 라벨의 이름 (텍스트)

4. UrbanSound8K: 평가 및 파인튜닝용

- 8732개의 audio, 10개의 클래스

- AudioCLIP의 제로샷 성능 평가용으로 사용

- Audio-Head를 UrbanSound8K에 단독 또는 협업 방식으로 파인튜닝

5. ESC-50: 평가 및 파인튜닝용

- 2000개의 audio, 50개의 클래스

- AudioCLIP의 제로샷 성능 평가용으로 사용

- Audio-Head를 ESC-50에 단독 또는 협업 방식으로 파인튜닝

4.2. Data Augmentation

오디오 데이터셋, 특히 UrbanSound8K와 ESC-50가 traing sample 수가 부족하여 데이터 증강 진행

1. Time Scaling

2. Time Inversion

3. Random Crop and Padding

4. Random Noise

4.3. Training

AudioCLIP의 학습 과정은 크게 3단계로 나눌 수 있음.

1) 구성요소 초기화 (Pre-initialization): CLIP은 이미 Composite CLIP Dataset으로 사전학습 되어 있음. ESResNeXt은 ImageNet으로 초기화 후 AudioSet으로 사전학습 수행.

2) 전체 AudioCLIP 모델 통합 학습 (Joint Tri-modal Training): AudioSet을 통해 세 모달리티에 대해 joint training 수행.

3) 오디오 헤드의 파인튜닝 (Fine-tuning on UrbanSound8K / ESC-50)

Audio-Head Pre-Training

ESResNeXt 오디오 인코더의 초기 학습 과정

1. Standalone Pre-training: 오디오 인코더 단독 학습

ImageNet으로 초기화된 가중치에서 시작 -> ESResNeXt 오디오 인코더 단독으로 AudioSet에 대해 사전학습

ESResNeXt 원 논문과 동일, but 학습 epoch를 증가시켜서 성능 향상

목적: 오디오 인코더 자체 성능 향상

2. Cooperative Pre-training: CLIP의 텍스트/이미지 인코더와 협업 학습

오디오 인코더를 CLIP 구조와 호환되도록 AudioSet에 대해 사전학습

단독 학습에서 쓰인 오디오 분류기를 제거 -> CLIP 임베딩 공간 크기(=1024차원)에 맞는 랜덤으로 초기화된 새 output layer 추가

Text-Head와 Image-Head 가중치는 고정 (teacher network 역할), Audio-Head만 학습

목적: 멀티모달 임베딩 정렬 및 통합

AudioCLIP Training

Audio-Head를 Text-Head, Image-Head와 협업 학습 -> Audio-Head가 기존 CLIP 모델과 compatible(호환가능)해짐

But, AudioSet의 이미지와 텍스트 분포가 CLIP이 학습한 데이터셋의 분포와 다름 -> 최적이 아닌 성능 (전체적인 정합성이 깨져서)

-> 해결책: tri-modal 모델 전체를 AudioSet에 대해 학습 (세 인코더 모두 학습 가능한 상태로)

효과: 오디오뿐 아니라 텍스트와 이미지 표현도 AudioSet의 분포에 적응하도록 재학습됨 -> 더 잘 정렬되고 자연스러운 임베딩 공간 형성

Audio-Head Fine-Tuning

AudioCLIP은 general 분류 및 질의에 강함

But, 유사한 소리를 정밀하게 구별하려면 도메인 특화 모델 필요 -> UrbanSound8K, ESC-50에 대해 파인튜닝 진행

1. Standalone Fine-Tuning: 오디오 인코더 단독 파인튜닝

기존 분류기 제거 -> 타겟 데이터셋 클래스 수에 맞는 랜덤으로 초기화된 새 output layer 추가

2. Cooperative Fine-Tuning: AudioCLIP 기반 파인튜닝

Text-Head와 Image-Head 가중치는 고정, Audio-Head만 학습

4.4. Hyper-Parameters

1. 공통 학습 설정

- Optimizer: SGD (Stochastic Gradient Descent)
- Momentum: Nesterov momentum, 0.9
- Weight Decay: 5 × 10⁻⁴
- Batch Size: 64

2. 학습률 스케줄

- Standalone Pre-training of Audio-Head -> 초기 학습률 η: 1 × 10⁻⁴, 감소 계수 γ: 0.95

- Cooperative Fine-Tuning of AudioCLIP -> 초기 학습률 η: 5 × 10⁻⁵, 감소 계수 γ: 0.98

3. Epoch 수

- AudioSet 기반 학습: 30 epoch

- 다운스트림 파인튜닝 (UrbanSound8K, ESC-50): 50 epoch

4.5. Performance Evaluation

1. 분류 (Classification)

목표: 입력(오디오 또는 이미지)으로부터 정확한 클래스(label) 예측

평가 대상 모델:

- AudioCLIP 전체 모델: 가장 유사한 텍스트와 매칭시키는 중간 과정 필요

- Audio-Head 단독 모델 (ESResNeXt): 클래스 직접 예측

평가 대상 데이터셋:

- AudioSet: 오디오 / 이미지 입력에 대한 분류 성능 측정

- UrbanSound8K / ESC-50: (1) 학습 후 분류 성능 (fine-tuned) (2) 제로샷 분류 성능 (fine-tuning 없이)

2. 질의 (Querying)

목표: 다른 모달리티로부터 질의(query)를 받아 정답을 반환하는 멀티모달 검색

평가 대상 모델: AudioCLIP 전체 모델

평가 대상 데이터셋: ImageNet, AudioSet, UrbanSound8K, ESC-50

성능 지표: Top-1 Precision(P@1), Top-1 Recall(R@1), Mean Average Precision(mAP)

5. Results

5.1. Classification

1. Audio-Head Only

2. AudioCLIP

- Partial Training (Audio-Head만 학습 가능)

- Full Training (세 Head 모두 학습 가능)

5.2. Querying

CLIP은 원래 텍스트 <-> 이미지 간 질의를 지원함 => AudioCLIP은 이를 모든 모달리티 간 전방향 질의로 확장

- Partial Training (Audio-Head만 학습 가능)

- Full Training (세 Head 모두 학습 가능)

1. Image by Text: 텍스트 -> 이미지 질의

Full Training: AudioSet에서는 성능 향상. But, ImageNet에서는 약간 하락. (ImageNet의 데이터 분포가 AudioSet과 다르기 때문에, AudioSet에 맞춰 전체 모델을 학습하면 일반화가 떨어짐.)

2. Audio by Text: 텍스트 -> 오디오 질의

Full Training: AudioSet, UrbanSound8K에서는 성능 향상. ESC-50에서는 성능이 약간 감소.

3. Audio by Image & Image by Audio: 오디오 <-> 이미지 질의

Full Training: 양방향 모두에서 성능 향상.

'AI' 카테고리의 다른 글

Image, Text, Audio 멀티모달 데이터셋 조사 (0)	2025.07.30
[논문 리뷰] ImageBind: One Embedding Space To Bind Them All (0)	2025.07.24
MDETR 모델 주요 코드 분석 (0)	2025.07.18
[논문 리뷰] FedMSplit: Correlation-Adaptive Federated Multi-Task Learning across Multimodal Split Networks (2)	2025.07.11
[논문 리뷰] Towards Multi-modal Transformers in Federated Learning (4)	2025.07.08

'AI' Related Articles

Comments

정화 코딩

[논문 리뷰] AudioCLIP: Extending CLIP to Image, Text and Audio 본문

[논문 리뷰] AudioCLIP: Extending CLIP to Image, Text and Audio

1. Introduction

2. Related Work

3. Model

3.1. CLIP

3.2. ESResNeXt

3.3. Hybrid Model – AudioCLIP

4. Experimental Setup

4.1. Datasets

4.2. Data Augmentation

4.3. Training

4.4. Hyper-Parameters

4.5. Performance Evaluation

5. Results

5.1. Classification

5.2. Querying

'AI' 카테고리의 다른 글

티스토리툴바