학과소식

[2024.04] 정보 부호화 및 처리 연구실 (강제원 교수) 이주희 박사과정, 인공지능 비디오-언어 모델 학습 연구 연구 IEEE CVPR 2024 학회 논문 발표 수락

  • 작성일 : 2024-04-11
  • 조회수 : 204
  • 작성자 : EWHAELEC


정보 부호화 및 처리 연구실의 박사과정 이주희 연구원(1저자)과 강제원 교수(교신저자)가 저술한 “SRTube: Video-Language Pre-Training with Action-Centric Video Tube Features and Semantic Role Labeling” 논문이 2024년 6월 미국 시애틀에서 개최되는 Computer Vision and Pattern Recognition Conference (CVPR 2024)에서 발표된다. CVPR은 인공지능∙컴퓨터 비전 분야에서 최고 권위의 학회이다. Google에서 매년 취합하는 학술 통계에 의하면 CVPR은 전세계 모든 학술지/학술대회 중에서 Nature, Science지 등을 이어 세계에서 네번째로 인용이 많이 되고 있다. 


본 논문에서는 비디오와 텍스트로 구성된 멀티모달 데이터 공통 표현을 학습하기 위해, 비디오 튜브 특징과 의미적 텍스트 라벨을 추출하는 방식을 제안하여 교차 의미적 정렬을 강화하였고 이를 학습하기 위핸 새로운 self-supervision 태스크를 개발하여 보다 신뢰할 수 있는 공통 표현을 생성하였다. 이를 통해 비디오 추출, 인공지능 비디오 질의응답, 비디오 캡셔닝 등의 다양한 인공지능 멀티모달 작업에서 세계 최고 성능을 보였다.