[Paper Review] Contrastive Learning based Semantic Communication for Wireless Image Transmission (VTC2023)
Contrastive Learning based Semantic Communication for Wireless Image Transmission(2025)
시맨틱 통신(Semantic Communication): 전통적인 비트 기반 통신(Shannon 기반) 대신 의미 있는 정보(semantic information)을 우선 전달함으로써 무선 이미지 전송 효율을 높이는 방법
기존 시맨틱 통신의 한계점
이미지 인식과 같은 다운스트림 AI 작업에서 충분한 추론 성능을 달성하지 못하거나
수신 이미지 품질과 추론 성능 간의 균형을 효과적으로 맞추지 못함
이 논문에서 집중한 부분
서로 관련 없는 두 이미지 간에는 큰 시맨틱 거리가 존재하지만, 거의 동일한 시맨틱 정보를 공유하는 두 이미지 간에는 시맨틱 거리가 작다는 점
이를 바탕으로 Contrastive learning을 시맨틱 통신과 통합
무선 채널을 통한 전송 중 이미지 손상을 데이터 증강의 일종으로 간주, 원본과 재구성 이미지간의 시맨틱 거리를 줄이고 동시에 무관한 이미지 간 시맨틱 거리는 유지하여 구분 성능을 향상시키자
인코더-디코더 공동 최적화로 추론 성능과 재구성 품질 사이 균형 달성
System Model
이 논문에서는 무선 이미지 전송을 위한 시맨틱 커뮤니케이션 시스템을 다룬다.
송신기, 수신기에는 각각 CNN 기반의 시맨틱 인코더와 시맨틱 디코더가 배치되어 있다.
시맨틱 인코더
Input: 입력 이미지 \(x\in \mathbb{R}^{c\times h \times w}\)
Output: \(k\)-차원의 복소수 벡터 \(\tilde{s} \in \mathbb{C}^k\)
시맨틱 인코더는 입력 이미지로부터 시맨틱 정보를 추출하여 \(k\)-차원의 복소수 벡터에 매핑 \(\tilde{s} = E_{\theta_1}(x)\)
\(n=c\times h \times w\) 라 할 때
일반적으로, 대역폭 제약을 만족시키기 위해 \(k<n\) 이어야 하며, \(k/n\) 을 대역폭 압축 비율(bandwidth compression ratio)이라고 부른다.
압축 비율이 클수록 통신 상태가 좋음을,
압축 비율이 작을수록 대역폭이 매우 제한적임을 의미한다.
또한, 송신단에서는 전력 제한 조건을 만족시키기 위해 파워 정규화 레이어(power normalization layer)를 사용 \(s=\sqrt{kP}\frac{\tilde{s}}{\sqrt{\tilde{s}^*\tilde{s}}}\)
?
무선 채널 모델
전송 신호 \(s\) 는 AWGN (Additive White Gaussian Noise) 채널을 통해 전송된다.
\[\hat{s} = s + \epsilon\]
\(\hat{s}\) : 수신신호
\(\epsilon\) : 평균 0, 분산 \(\sigma^2\) 를 갖는 독립적이고 동일 분포된(complex Gaussia) 채널 잡음
시맨틱 디코더
- 수신 측에서는 시맨틱 디코더를 통해 원본 이미지 \(\hat{x} \in \mathbb{R}^{c \times h \times w}\)를 복원
\[\hat{x} = D_{\theta_{2}}(\hat{s})\]