
Abstract Large Language Model : 언어를 이해하고 생성할 수 있지만, hallucination이 존재하며 정확하지 않은 output을 제공하는 경향이 있음. 이를 해결하는 방법? 외부 정보를 검색하여 LLMs를 보강하는 것! 그러나 대부분의 Retrieval Augmented LM은 입력을 기반으로 정보를 한 번만 검색하는 retrieve-and-generate setup 사용. 긴 텍스트를 생성할 때는 계속해서 정보를 수집해야 하는데, 기존의 검색 보강 언어 모델은 입력을 기반으로 한 번만 정보를 검색하기 때문에 이러한 상황에서는 제한적일 수 있음. 이 논문에서는 active retrieval augmented generation을 제안 FLARE : Forward-Looking..

Abstract 현재의 VLM은 image captioning과 visual question answering과 같은 task에서는 뛰어나지만, 긴 영상에서는 과도한 visual tokens로 인한 계산량이 많아지는 문제를 가지고 있다. 이 논문에서는 비디오 및 이미지 이해에 대한 토큰 생성 문제를 해결하기 위한 LLaMA-VID를 제안한다. LLaMA-VID는 각 프레임을 context token, content token 토큰을 사용하여 나타낸다. Context token은 사용자의 입력을 기반으로한 전반적인 image context를 인코딩한다. Content token은 각 프레임의 시각적 단서를 요약한다. 두가지 토큰을 사용함으로써 긴 비디오에 대한 계산적인 과부하를 줄이면서 중요한 정보를 보존..

Abstract ChatGPT와 같은 모델? GUI를 이해하고 상호작용하는 데 어려움. GUI 이해와 탐색에 특화된 180억 개의 파라미터를 가진 Visual Language Model (VLM)인 CogAgent를 소개함 CogAgent는 저해상도와 고해상도 이미지 인코더를 모두 활용하여 1120 x 1120 해상도의 입력을 지원하며, 작은 페이지 요소와 텍스트를 인식할 수 있음. Introduction 대부분의 applications은 GUI를 갖추고 있어 언어 기반 agent가 처리하기 어렵다는 문제를 가지고 있음. 상호 작용을 위한 표준 API의 부족 아이콘, 이미지, 다이어그램 및 공간 관계와 같은 중요한 정보는 직접적으로 언어로 전달하기 어려움. 웹 페이지와 같은 텍스트 기반 GUI에서도 캔버..

Abstract 온톨로지(ontology) : 지식을 체계적으로 구성하고 표현하는 방법론으로 온톨로지 지식베이스는 개체, 개념 관계 등의 객체들 간의 의미론적인 관계를 기술하는 시스템이다. 온톨로지는 지식을 계층 구조로 정의하여, 객체들 간의 의미와 관계를 명확히 표현하고 이해하기 쉽게 해준다. "체계적인 지식 표현 방법" 이러한 지식을 Pretrained Language Models가 알고 이해하는지를 알아보는 것이 중요하지만 기존의 PLM-probing 연구는 사실적인 지식에 중점을 두고 있다. PLMs가 온톨로지 지식을 저장하고 이해하는지, 단순한 암기가 아닌 지식의 의미를 파악하는지를 알아본다. - 엔티티 유형, 계층 구조 관계, 속성의 도메인 및 범위 제약 조건을 얼마나 잘 기억하는지에 대한 ..