
Abstract 현재의 VLM은 image captioning과 visual question answering과 같은 task에서는 뛰어나지만, 긴 영상에서는 과도한 visual tokens로 인한 계산량이 많아지는 문제를 가지고 있다. 이 논문에서는 비디오 및 이미지 이해에 대한 토큰 생성 문제를 해결하기 위한 LLaMA-VID를 제안한다. LLaMA-VID는 각 프레임을 context token, content token 토큰을 사용하여 나타낸다. Context token은 사용자의 입력을 기반으로한 전반적인 image context를 인코딩한다. Content token은 각 프레임의 시각적 단서를 요약한다. 두가지 토큰을 사용함으로써 긴 비디오에 대한 계산적인 과부하를 줄이면서 중요한 정보를 보존..
부스트캠프
2024. 1. 21. 16:33