Submitted on 17 Apr 2023 NeurIPS 2023 Abstract LLM을 Machine generated instruction following data로 instruction tuning하는 것은 new task에서 zero shot 능력이 향상되는 것이 입증됨. → Multi-modal에도! GPT-4를 활용해 multimodal language-image instruction-following data를 생성하고, 이를 활용해 instruction tuning한 LLAVA: Large Language and Vision Assistant 모델을 이 논문에서 소개함. 이는 vision encoder와 LLM을 연결한 end-to-end multimodal model. * End-t..
Abstract Large Language Model : 언어를 이해하고 생성할 수 있지만, hallucination이 존재하며 정확하지 않은 output을 제공하는 경향이 있음. 이를 해결하는 방법? 외부 정보를 검색하여 LLMs를 보강하는 것! 그러나 대부분의 Retrieval Augmented LM은 입력을 기반으로 정보를 한 번만 검색하는 retrieve-and-generate setup 사용. 긴 텍스트를 생성할 때는 계속해서 정보를 수집해야 하는데, 기존의 검색 보강 언어 모델은 입력을 기반으로 한 번만 정보를 검색하기 때문에 이러한 상황에서는 제한적일 수 있음. 이 논문에서는 active retrieval augmented generation을 제안 FLARE : Forward-Looking..
Abstract 현재의 VLM은 image captioning과 visual question answering과 같은 task에서는 뛰어나지만, 긴 영상에서는 과도한 visual tokens로 인한 계산량이 많아지는 문제를 가지고 있다. 이 논문에서는 비디오 및 이미지 이해에 대한 토큰 생성 문제를 해결하기 위한 LLaMA-VID를 제안한다. LLaMA-VID는 각 프레임을 context token, content token 토큰을 사용하여 나타낸다. Context token은 사용자의 입력을 기반으로한 전반적인 image context를 인코딩한다. Content token은 각 프레임의 시각적 단서를 요약한다. 두가지 토큰을 사용함으로써 긴 비디오에 대한 계산적인 과부하를 줄이면서 중요한 정보를 보존..