Abstract ChatGPT와 같은 모델? GUI를 이해하고 상호작용하는 데 어려움. GUI 이해와 탐색에 특화된 180억 개의 파라미터를 가진 Visual Language Model (VLM)인 CogAgent를 소개함 CogAgent는 저해상도와 고해상도 이미지 인코더를 모두 활용하여 1120 x 1120 해상도의 입력을 지원하며, 작은 페이지 요소와 텍스트를 인식할 수 있음. Introduction 대부분의 applications은 GUI를 갖추고 있어 언어 기반 agent가 처리하기 어렵다는 문제를 가지고 있음. 상호 작용을 위한 표준 API의 부족 아이콘, 이미지, 다이어그램 및 공간 관계와 같은 중요한 정보는 직접적으로 언어로 전달하기 어려움. 웹 페이지와 같은 텍스트 기반 GUI에서도 캔버..
Abstract 온톨로지(ontology) : 지식을 체계적으로 구성하고 표현하는 방법론으로 온톨로지 지식베이스는 개체, 개념 관계 등의 객체들 간의 의미론적인 관계를 기술하는 시스템이다. 온톨로지는 지식을 계층 구조로 정의하여, 객체들 간의 의미와 관계를 명확히 표현하고 이해하기 쉽게 해준다. "체계적인 지식 표현 방법" 이러한 지식을 Pretrained Language Models가 알고 이해하는지를 알아보는 것이 중요하지만 기존의 PLM-probing 연구는 사실적인 지식에 중점을 두고 있다. PLMs가 온톨로지 지식을 저장하고 이해하는지, 단순한 암기가 아닌 지식의 의미를 파악하는지를 알아본다. - 엔티티 유형, 계층 구조 관계, 속성의 도메인 및 범위 제약 조건을 얼마나 잘 기억하는지에 대한 ..
Abstract 동일한 하이퍼파라미터 값으로도 시드를 랜덤으로 설정하면 다른 결과를 낼 수 있음.(성능의 차이가 생길 수 있음) 각 데이터셋마다 BERT의 시드만을 변경하며 실험을 진행함. 이전 결과와 비교하여 상당한 성능 향상을 확인하였고, 최상의 모델 성능이 실험 횟수에 따라 어떻게 변하는지 정량화해봄. 시드 선택에 영향을 받는 두 가지 요소: 가중치 초기화와 훈련 데이터 순서가 모두 검증 세트 성능의 분산에 비례하여 기여한다는 것을 발견함. 일부 가중치 초기화는 잘 수행되지만 작은 데이터셋에서는 대부분 학습 중간에 발산하는 것을 관찰하였고, 실험을 조기에 중단하는 방법을 제안함. 1. Introduction MRPC ( Microsoft Research Paraphrase Corpus) : 문장 쌍..