Abstract
BIQA(Blind Image Quality Assessment) 는 단일 이미지의 지각된 품질을 자동으로 평가하는것을 목표로 함 ( 참조 이미지 없이 이미지의 품질 평가)
but, label이 지정된 데이터의 부족은 BIQA 방법을 제한함
본 논문에서는 BIQA를 위한 전처리 작업으로 self-supervised learning manner 사용해 더 많은 데이터에서 표현을 학습할 수 있는 방법을 제안
학습과정을 제약하기 위해 간단한 가정을 바탕으로 한 품질 인식대조손실을 제안함. 왜곡된 이미지에서 추출된 패치들의 품질은 유사해야하지만, 서로 다른 왜곡을 가진 같은 이미지의 패치들과는 다르며 다른 이미지들의 패치들과는 달라야함
Introduction
이미지 품질은 서비스 제공자가 사용자에게 고품질 이미지를 필터링하고 제공함으로써 사용자 경험의 질을 향상시킬 수 있게 해주는 필수적인 지표. -> 인간 시청자와 일치하는 이미지 품질 평가(IQA) 방법을 확립하기 위해 노력을 기울임
현실 세계는 참조이미지에 대한 접근이 없고, 참조이미지의 품질에 대한 의심이 존재하기 때문에, BIQA 방벙이 더 유용하고 적용가능
라벨이 지정된 데이터의 부족은 딥러닝 기반 BIQA 방법의 잠재력 발휘 제한
- > 기존의 BIQA 데이터셋은 딥러니 기반 모델을 효과적으로 훈련시키기에는 너무 작음
이러한 도전을 극복하기 위해 여러가지 방법
1. 지역 패치를 샘플링하고 , 전체 이미지 라벨 (MOS)을 패치에 할당 -> 지역 이미지 패치의 지각된 점수는 전체 이미지의 점수와 다를 수 있음.
2. imagenet 과 같은 대규모 데이터셋에서 다른 컴퓨터 비전 작업을 위한 도메인 지식을 활용 -> 사전 훈련된 모델은 BIQA 작업에 최적이 아닐 수 있음.
3. 다섯 가지 BIQA 벤치마크 데이터셋에서 광범위한 실험(동일한 사전 훈련된 QPT 가중치 공유)을 수행한 결과, 제안된 방법이 다른 대안들보다 상당히 뛰어난 성능을 보임을 입증했으며, 이는 QPT의 효율성과 일반화 능력을 나타냅니다. 또한 제안된 방법은 기존 SOTA(State Of The Art) 방법들과 사전 훈련된 가중치를 교체함으로써 쉽게 통합될 수 있다는 점을 주목할 가치가 있습니다.
2.1 Blind Image Quality Assessment
딥러닝 이전에는, 자연 장면 통계(NSS) 이론이 BIQA 분야를 지배했습니다. 이 이론에 따르면, 원본 자연 이미지는 특정 통계적 분포를 따르며 다양한 왜곡이 이러한 통계적 규칙성을 깨뜨린다고 합니다. 이 이론에 기반하여 공간[47, 48], 주파수[49, 54], 그라디언트[85] 등 다양한 도메인에서 수작업으로 만든 특징들이 제안되었습니다. 한편, 일부 학습 기반 방법[46, 78]도 이미지 품질을 시각적 코드북을 통해 배운 특징과 지원 벡터 회귀를 사용하여 추정하였습니다.
최근 몇 년 간, 다양한 딥러닝 기반 방법들이 BIQA를 위해 개발되어 'in-the-wild' 성능을 크게 향상시켰습니다. 선구적인 작업으로는 단 3개의 레이어로 구성된 얕은 네트워크[31]가 BIQA 문제를 end-to-end 방식으로 해결하기 위해 만들어졌습니다. 이후의 연구에서는 네트워크 깊이를 늘리는 것[4, 42]이나 더 효과적인 빌딩 블록을 사용하는 방법[60, 91]으로 BIQA 모델을 확장하였습니다. 최근에는 변압기(트랜스포머) 기반 BIQA 방법[32, 76, 80, 92]이 떠오르고 있는데, 이는 CNN이 갖지 못하는 비-지역 정보를 포착하는 능력을 보완한다고 가정합니다.
모델 설계를 제외하고, 몇몇 연구들은 BIQA의 주요 장애물인 라벨링된 데이터의 부족을 해결하기 위해 전념하고 있습니다. 이를 해결하기 위해 일부는 로컬 패치를 샘플링하여 전체 이미지의 라벨(예: 평균 의견 점수, MOS)을 패치에 할당하거나[37, 39], 다중 작업 학습[17] 및 혼합 데이터셋 훈련[62, 90] 같은 기존 감독 신호를 최대한 활용합니다. 또한, 대규모 프리 트레이닝[32, 42, 82]을 통해 왜곡된 이미지의 많은 수를 생성하며, 이러한 이미지들은 왜곡 과정의 명세[89] 또는 FR 모델로부터 추정된 품질 점수에 의해 라벨이 지정됩니다.
이 외에도, 명시적인 감독 신호 없이 대량의 비 라벨 이미지를 활용할 수 있는 자기 감독 학습(SSL) 또는 비감독 학습이 다른 가능성 있는 선택으로 입증되었습니다.
2.2 Self-supervised Learning
자기 감독 학습(Self-supervised Learning, SSL)은 감독되지 않은 학습의 한 형태로서, 실제 목적을 위한 좋은 데이터 표현을 학습하는 데 사용됩니다. 가장 간단한 SSL 실행 방법 중 하나는 모델의 출력과 고정된 목표, 예를 들어 입력 픽셀 재구성이나 사전 정의된 카테고리 예측 사이의 차이를 최소화하는 것입니다. 마스킹된 언어 모델링의 성공에 동기를 받아, 컴퓨터 비전 분야에서 마스킹된 이미지 모델링이 새로운 추세로 떠오르고 있습니다.
대조적 학습의 목표는 유사한 샘플을 집합하는 동시에 다른 쌍을 밀어내는 임베딩 공간을 학습하는 것입니다. 대조적 학습은 주로 두 가지 측면을 포함합니다: 전통적 과제와 훈련 목표입니다. 대조적 학습의 유연성 덕분에 다양한 전통적 과제들이 제안되었으며, 훈련 목표에 있어서는 하나의 긍정적 샘플과 하나의 부정적 샘플에서 다수의 긍정 및 부정적 쌍으로 이동하는 주요 추세가 있습니다. 특히 InfoNCE가 가장 인기 있는 선택이 되었습니다.
이전의 모든 작업들은 의미론적 전처리 훈련으로 분류될 수 있습니다. 이들은 동일한 이미지의 뷰(증강)가 유사한 표현을 가지도록 권장하는 동시에 인지된 이미지 품질의 변화를 무시합니다. 이 연구에서 우리는 BIQA를 위한 품질-인식 전통적 과제를 새롭게 디자인했으며, 이는 3.3 절에서 논의될 것입니다 .
2.3 Image Degradation Modeling
이미지 품질 평가에서 중요한 부분인 이미지 퇴화 모델링에 대해 설명합니다. 이전 연구들은 특정 왜곡 유형에 집중하여 왜곡에 특화된 특징을 추출했으나, 현실 세계의 복잡하고 혼합된 왜곡을 시뮬레이션하기에는 이러한 방법들이 너무 단순합니다. 이에 본 연구는 이미지 복원 분야에서 제안된 여러 퇴화 기법을 결합하여 훨씬 더 큰 퇴화 공간을 형성하고, 더 현실적인 왜곡 이미지를 생성합니다.
자기 감독 학습 관점에서 이용 가능한 품질 관련 정보를 얻기 위해, 통제 가능한 퇴화를 이용하여 이미지 쌍을 수동으로 생성하는 간단한 방법이 제시됩니다. 특정 퇴화 유형을 설계하기 전에 몇 가지 관찰 사항을 언급하는데, 첫째로 이미지의 지각적 품질에 영향을 미치는 여러 요인들이 존재하고, 둘째로 실제 상황에서는 이러한 요인들이 복잡하게 결합되어 있습니다. 따라서 훌륭한 사전 훈련된 모델은 가능한 한 다양하고 현실적인 왜곡을 커버하면서 적절한 퇴화를 사용해야 합니다 .
본 연구에서는 개별 작업과 그 구성에서 퇴화 공간을 설계합니다. 첫 번째 관찰에서는 실제 왜곡을 모방하기 위해 다양한 퇴화 유형을 도입하고, 이를 세 가지 범주로 나눕니다: (1) 기하학적 변형, (2) 색상 변화, (3) 질감 조정입니다. 이러한 작업은 편집 과정이나 다양한 디스플레이 장비에 적응하는 과정에서 도입되는 왜곡을 시뮬레이션합니다. 두 번째 관찰을 위해, 보다 복잡한 유형을 위한 무작위로 선택된 퇴화의 시퀀스를 제안합니다 .
결론적으로, 이 절에서는 이전의 단순한 퇴화 모델과는 달리, 보다 현실적인 이미지 품질 평가를 위해 다양한 왜곡 유형과 그 구성을 포함한 복잡한 퇴화 공간을 구성하는 방법을 소개합니다.
3.2
자기 감독 학습 시나리오에서 사용 가능한 품질 관련 정보를 얻기 위해 이미지 쌍을 수동으로 생성하는 방법을 제안합니다. 이미지의 지각적 품질에 영향을 미치는 여러 요인들이 존재하며, 실제 상황에서는 이러한 요인들이 복잡하게 결합되어 있다고 설명합니다. 이미지는 촬영, 편집, 압축 및 전송 등의 다양한 과정을 거쳐 더 복잡한 왜곡을 일으키게 됩니다. 따라서 효과적인 IQA에 적합한 사전 훈련된 모델은 다양한 왜곡을 커버하면서 현실적인 퇴화를 사용해야 합니다. 연구자들은 실제 왜곡을 시뮬레이션하기 위해 다양한 퇴화 유형을 도입하고, 이를 세 가지 범주로 나누어 설명합니다: 기하학적 변형, 색상 변화, 질감 조정. 이 과정은 이미지 편집 과정이나 다양한 디스플레이 장비에 적응하는 과정에서 도입되는 왜곡을 시뮬레이션합니다. 더 복잡한 유형의 왜곡을 위한 무작위로 선택된 퇴화 시퀀스를 제안하며, 이를 통해 훨씬 더 큰 퇴화 공간을 형성하여 다양하고 현실적인 왜곡 이미지를 생성할 수 있습니다 .