
Submitted on 17 Apr 2023 NeurIPS 2023 Abstract LLM을 Machine generated instruction following data로 instruction tuning하는 것은 new task에서 zero shot 능력이 향상되는 것이 입증됨. → Multi-modal에도! GPT-4를 활용해 multimodal language-image instruction-following data를 생성하고, 이를 활용해 instruction tuning한 LLAVA: Large Language and Vision Assistant 모델을 이 논문에서 소개함. 이는 vision encoder와 LLM을 연결한 end-to-end multimodal model. * End-t..
부스트캠프
2024. 2. 4. 23:11