'2024/01/15 글 목록

CogAgent: A Visual Language Model for GUI Agents

Abstract ChatGPT와 같은 모델? GUI를 이해하고 상호작용하는 데 어려움. GUI 이해와 탐색에 특화된 180억 개의 파라미터를 가진 Visual Language Model (VLM)인 CogAgent를 소개함 CogAgent는 저해상도와 고해상도 이미지 인코더를 모두 활용하여 1120 x 1120 해상도의 입력을 지원하며, 작은 페이지 요소와 텍스트를 인식할 수 있음. Introduction 대부분의 applications은 GUI를 갖추고 있어 언어 기반 agent가 처리하기 어렵다는 문제를 가지고 있음. 상호 작용을 위한 표준 API의 부족 아이콘, 이미지, 다이어그램 및 공간 관계와 같은 중요한 정보는 직접적으로 언어로 전달하기 어려움. 웹 페이지와 같은 텍스트 기반 GUI에서도 캔버..

카테고리 없음 2024. 1. 15. 10:43

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/01 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

e_u_n_h_y

티스토리툴바