Entropy정보를 표현하는데 있어서 필요한 최소 (평균) 자원량 (→ 0 또는 1의 길이!)최소 자원량 ? 엄청 효율적으로 표현되어야함! 자주 사용되는 것은 자원 길이가 짧아야하고 거의 사용되지 않는 것은 길이가 길어야함!이를 그래프로 표현하면 -log그래프가 되는 것! $\sum_{i}^{}{P}_{i}*(-{log_{2}}^{P{i}})$ 기댓값이 최소 길이가 되어야하는것! 기댓값은 특정 확률 분포에서 평균적으로 기대할 수 있는 값! (모든 가능한 결과 값과 그 확률의 곱) 그럼 최소자원량이 최대가 될 때는? 확률이 Uniform할 때! (최악의 상황) Cross-Entropy두 확률 분포 사이의 차이를 측정하는 방법 $\sum_{i}P_{i}*{log_{2}}^{q_{i}}$q_i는? 내가 생..
정규화란?모델의 가중치에 제약을 주어 과적합을 방지하고 모델을 단순화하는 기법입니다. L1, L2 정규화를 살펴보기 전에 벡터의 norm먼저 살펴봅시다. 벡터의 norm벡터의 "크기"를 측정하는 방법으로 쉽게 말하면 원점에서 해당 점까지의 거리를 계산하는 방법입니다.("크기"라고 했으니 0 포함 양수 스칼라여야함.) Lasso(L1) 정규화와 Ridge(L2) 정규화에서는 각각 L1-norm과 L2-norm을 활용하고 아래와 같이 계산할 수 있습니다. * L2-norm (벡터의 물리적인 길이) (예시) $a = \begin{bmatrix}1 \\2\\3\end{bmatrix}$ ${||a||_{2}}= \sqrt{{a}^{T}a} = \sqrt{{1}^{2}+{2}^{2}+{3}^{2}} = (..
AbstractDPR(Dense Passage Retrieval)의 목표 query와 passages의 dense representations을 기반으로 대규모의 말뭉치에서 query와 관련된 passages를 검색하는 것 최근에는 dense retrieval 성능 향상을 위해 사전 학습된 언어 모델을 개선하는 연구를 진행. CoT-MAE (ConTextual Masked Auto-Encoder) : self-supervised, context-supervised masked auto-encoding을 통해 문장의 의미를 dense vector로 압축하는 비대칭 인코더-디코더 구조를 사용 self-supervised masked auto-encoding 모델이 입력 데이터(레이블이 없는 데이터)의 일부를..
Submitted on 17 Apr 2023 NeurIPS 2023 Abstract LLM을 Machine generated instruction following data로 instruction tuning하는 것은 new task에서 zero shot 능력이 향상되는 것이 입증됨. → Multi-modal에도! GPT-4를 활용해 multimodal language-image instruction-following data를 생성하고, 이를 활용해 instruction tuning한 LLAVA: Large Language and Vision Assistant 모델을 이 논문에서 소개함. 이는 vision encoder와 LLM을 연결한 end-to-end multimodal model. * End-t..
Abstract Large Language Model : 언어를 이해하고 생성할 수 있지만, hallucination이 존재하며 정확하지 않은 output을 제공하는 경향이 있음. 이를 해결하는 방법? 외부 정보를 검색하여 LLMs를 보강하는 것! 그러나 대부분의 Retrieval Augmented LM은 입력을 기반으로 정보를 한 번만 검색하는 retrieve-and-generate setup 사용. 긴 텍스트를 생성할 때는 계속해서 정보를 수집해야 하는데, 기존의 검색 보강 언어 모델은 입력을 기반으로 한 번만 정보를 검색하기 때문에 이러한 상황에서는 제한적일 수 있음. 이 논문에서는 active retrieval augmented generation을 제안 FLARE : Forward-Looking..
Abstract 현재의 VLM은 image captioning과 visual question answering과 같은 task에서는 뛰어나지만, 긴 영상에서는 과도한 visual tokens로 인한 계산량이 많아지는 문제를 가지고 있다. 이 논문에서는 비디오 및 이미지 이해에 대한 토큰 생성 문제를 해결하기 위한 LLaMA-VID를 제안한다. LLaMA-VID는 각 프레임을 context token, content token 토큰을 사용하여 나타낸다. Context token은 사용자의 입력을 기반으로한 전반적인 image context를 인코딩한다. Content token은 각 프레임의 시각적 단서를 요약한다. 두가지 토큰을 사용함으로써 긴 비디오에 대한 계산적인 과부하를 줄이면서 중요한 정보를 보존..
Abstract ChatGPT와 같은 모델? GUI를 이해하고 상호작용하는 데 어려움. GUI 이해와 탐색에 특화된 180억 개의 파라미터를 가진 Visual Language Model (VLM)인 CogAgent를 소개함 CogAgent는 저해상도와 고해상도 이미지 인코더를 모두 활용하여 1120 x 1120 해상도의 입력을 지원하며, 작은 페이지 요소와 텍스트를 인식할 수 있음. Introduction 대부분의 applications은 GUI를 갖추고 있어 언어 기반 agent가 처리하기 어렵다는 문제를 가지고 있음. 상호 작용을 위한 표준 API의 부족 아이콘, 이미지, 다이어그램 및 공간 관계와 같은 중요한 정보는 직접적으로 언어로 전달하기 어려움. 웹 페이지와 같은 텍스트 기반 GUI에서도 캔버..
Abstract 온톨로지(ontology) : 지식을 체계적으로 구성하고 표현하는 방법론으로 온톨로지 지식베이스는 개체, 개념 관계 등의 객체들 간의 의미론적인 관계를 기술하는 시스템이다. 온톨로지는 지식을 계층 구조로 정의하여, 객체들 간의 의미와 관계를 명확히 표현하고 이해하기 쉽게 해준다. "체계적인 지식 표현 방법" 이러한 지식을 Pretrained Language Models가 알고 이해하는지를 알아보는 것이 중요하지만 기존의 PLM-probing 연구는 사실적인 지식에 중점을 두고 있다. PLMs가 온톨로지 지식을 저장하고 이해하는지, 단순한 암기가 아닌 지식의 의미를 파악하는지를 알아본다. - 엔티티 유형, 계층 구조 관계, 속성의 도메인 및 범위 제약 조건을 얼마나 잘 기억하는지에 대한 ..
Abstract 동일한 하이퍼파라미터 값으로도 시드를 랜덤으로 설정하면 다른 결과를 낼 수 있음.(성능의 차이가 생길 수 있음) 각 데이터셋마다 BERT의 시드만을 변경하며 실험을 진행함. 이전 결과와 비교하여 상당한 성능 향상을 확인하였고, 최상의 모델 성능이 실험 횟수에 따라 어떻게 변하는지 정량화해봄. 시드 선택에 영향을 받는 두 가지 요소: 가중치 초기화와 훈련 데이터 순서가 모두 검증 세트 성능의 분산에 비례하여 기여한다는 것을 발견함. 일부 가중치 초기화는 잘 수행되지만 작은 데이터셋에서는 대부분 학습 중간에 발산하는 것을 관찰하였고, 실험을 조기에 중단하는 방법을 제안함. 1. Introduction MRPC ( Microsoft Research Paraphrase Corpus) : 문장 쌍..
RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract언어 모델의 pre-training은 성능 향상을 가져왔지만, 서로 다른 언어 모델의 pre-training 방법을 직접적으로 비교하는 것은 어려움. (각 모델의 성능을 평가하거나 비교할 때 데이터셋의 규모나 품질이 다르기 때문)이 논문에서는 BERT pre-training의 효과를 확인하고 핵심 하이퍼파라미터 및 학습 데이터셋 크기의 영향을 측정하는 복제 연구를 진행한다. (replication study : 특정 연구의 결과를 확인하거나 재현하기 위해 이전 연구를 다시 수행하는 과정을 말함.)이 연구에서는 BERT가 실제로 충분히 훈련되지 않았으며, 이를 개선한 모델이 RoBERTa..