
Abstract ChatGPT와 같은 모델? GUI를 이해하고 상호작용하는 데 어려움. GUI 이해와 탐색에 특화된 180억 개의 파라미터를 가진 Visual Language Model (VLM)인 CogAgent를 소개함 CogAgent는 저해상도와 고해상도 이미지 인코더를 모두 활용하여 1120 x 1120 해상도의 입력을 지원하며, 작은 페이지 요소와 텍스트를 인식할 수 있음. Introduction 대부분의 applications은 GUI를 갖추고 있어 언어 기반 agent가 처리하기 어렵다는 문제를 가지고 있음. 상호 작용을 위한 표준 API의 부족 아이콘, 이미지, 다이어그램 및 공간 관계와 같은 중요한 정보는 직접적으로 언어로 전달하기 어려움. 웹 페이지와 같은 텍스트 기반 GUI에서도 캔버..
카테고리 없음
2024. 1. 15. 10:43