AbstractDPR(Dense Passage Retrieval)의 목표 query와 passages의 dense representations을 기반으로 대규모의 말뭉치에서 query와 관련된 passages를 검색하는 것 최근에는 dense retrieval 성능 향상을 위해 사전 학습된 언어 모델을 개선하는 연구를 진행. CoT-MAE (ConTextual Masked Auto-Encoder) : self-supervised, context-supervised masked auto-encoding을 통해 문장의 의미를 dense vector로 압축하는 비대칭 인코더-디코더 구조를 사용 self-supervised masked auto-encoding 모델이 입력 데이터(레이블이 없는 데이터)의 일부를..
Submitted on 17 Apr 2023 NeurIPS 2023 Abstract LLM을 Machine generated instruction following data로 instruction tuning하는 것은 new task에서 zero shot 능력이 향상되는 것이 입증됨. → Multi-modal에도! GPT-4를 활용해 multimodal language-image instruction-following data를 생성하고, 이를 활용해 instruction tuning한 LLAVA: Large Language and Vision Assistant 모델을 이 논문에서 소개함. 이는 vision encoder와 LLM을 연결한 end-to-end multimodal model. * End-t..
Abstract Large Language Model : 언어를 이해하고 생성할 수 있지만, hallucination이 존재하며 정확하지 않은 output을 제공하는 경향이 있음. 이를 해결하는 방법? 외부 정보를 검색하여 LLMs를 보강하는 것! 그러나 대부분의 Retrieval Augmented LM은 입력을 기반으로 정보를 한 번만 검색하는 retrieve-and-generate setup 사용. 긴 텍스트를 생성할 때는 계속해서 정보를 수집해야 하는데, 기존의 검색 보강 언어 모델은 입력을 기반으로 한 번만 정보를 검색하기 때문에 이러한 상황에서는 제한적일 수 있음. 이 논문에서는 active retrieval augmented generation을 제안 FLARE : Forward-Looking..
Abstract 현재의 VLM은 image captioning과 visual question answering과 같은 task에서는 뛰어나지만, 긴 영상에서는 과도한 visual tokens로 인한 계산량이 많아지는 문제를 가지고 있다. 이 논문에서는 비디오 및 이미지 이해에 대한 토큰 생성 문제를 해결하기 위한 LLaMA-VID를 제안한다. LLaMA-VID는 각 프레임을 context token, content token 토큰을 사용하여 나타낸다. Context token은 사용자의 입력을 기반으로한 전반적인 image context를 인코딩한다. Content token은 각 프레임의 시각적 단서를 요약한다. 두가지 토큰을 사용함으로써 긴 비디오에 대한 계산적인 과부하를 줄이면서 중요한 정보를 보존..
Abstract 온톨로지(ontology) : 지식을 체계적으로 구성하고 표현하는 방법론으로 온톨로지 지식베이스는 개체, 개념 관계 등의 객체들 간의 의미론적인 관계를 기술하는 시스템이다. 온톨로지는 지식을 계층 구조로 정의하여, 객체들 간의 의미와 관계를 명확히 표현하고 이해하기 쉽게 해준다. "체계적인 지식 표현 방법" 이러한 지식을 Pretrained Language Models가 알고 이해하는지를 알아보는 것이 중요하지만 기존의 PLM-probing 연구는 사실적인 지식에 중점을 두고 있다. PLMs가 온톨로지 지식을 저장하고 이해하는지, 단순한 암기가 아닌 지식의 의미를 파악하는지를 알아본다. - 엔티티 유형, 계층 구조 관계, 속성의 도메인 및 범위 제약 조건을 얼마나 잘 기억하는지에 대한 ..
Abstract 동일한 하이퍼파라미터 값으로도 시드를 랜덤으로 설정하면 다른 결과를 낼 수 있음.(성능의 차이가 생길 수 있음) 각 데이터셋마다 BERT의 시드만을 변경하며 실험을 진행함. 이전 결과와 비교하여 상당한 성능 향상을 확인하였고, 최상의 모델 성능이 실험 횟수에 따라 어떻게 변하는지 정량화해봄. 시드 선택에 영향을 받는 두 가지 요소: 가중치 초기화와 훈련 데이터 순서가 모두 검증 세트 성능의 분산에 비례하여 기여한다는 것을 발견함. 일부 가중치 초기화는 잘 수행되지만 작은 데이터셋에서는 대부분 학습 중간에 발산하는 것을 관찰하였고, 실험을 조기에 중단하는 방법을 제안함. 1. Introduction MRPC ( Microsoft Research Paraphrase Corpus) : 문장 쌍..
RoBERTa: A Robustly Optimized BERT Pretraining Approach 0. Abstract언어 모델의 pre-training은 성능 향상을 가져왔지만, 서로 다른 언어 모델의 pre-training 방법을 직접적으로 비교하는 것은 어려움. (각 모델의 성능을 평가하거나 비교할 때 데이터셋의 규모나 품질이 다르기 때문)이 논문에서는 BERT pre-training의 효과를 확인하고 핵심 하이퍼파라미터 및 학습 데이터셋 크기의 영향을 측정하는 복제 연구를 진행한다. (replication study : 특정 연구의 결과를 확인하거나 재현하기 위해 이전 연구를 다시 수행하는 과정을 말함.)이 연구에서는 BERT가 실제로 충분히 훈련되지 않았으며, 이를 개선한 모델이 RoBERTa..
네이버 부스트캠프 6주차 회고 1. 강의 복습 내용 이번주 강의는 이제까지 배웠던 여러 개념들을 다시 정리하는 강의였다. 복습이 잘 되어 좋았지만 이론과 실전은 너무나 다른 것을 너무나 느낀.. 한 주 였다.. 2. 과제 수행 과정 / 결과물 정리 미션 코드를 참고하며 프로젝트를 시도해보고 있다! 3. 프로젝트 진행과정 정리 4. 피어세션 정리 논문 리뷰.. 다들 너무 잘하신다 멋있다.. 나도 잘하고싶다~~~~~~~ 오늘 논문 리뷰하고 멘탈 와장창창... 다음주엔 더 잘 해보기로,, 45 학습 회고 6주차가 벌써 끝났다.. 배워야할게 너무 많지만 체력이 안좋은 나는 감자다,, 팀원분이 장난으로 감자라고 놀려도(장난 아닌거같긴함) 진짜 감자인걸 알아서 타격이 없다... 감자를 감자라고 부르지 그럼 뭐라고 ..
네이버 부스트캠프 5주차 회고 1. NLP 저번주와 비슷하게 이번주도 실습이 메인이고 강의가 서브인 것 같은 느낌이었다. 머리에 되게 많은 것을 넣으려니 저녁만 되면 머리가 아픈 기분이다.. 2. 과제 수행 기본 과제만 열심히 했다. 심화과제는 시도할 수 있을까? 사실 시간은 만들면 된다.. 의지가 없는 것인가? 그건 또 아니다... 부족한 부분을 채우고 싶다는 생각에 매일 카페 가서 커피를 마시며 배운 것과 이해가 안 되는 부분을 더 찾아보는데 뭔가 아직까지 나에게 이러한 시간이 더 필요한 것 같다. 어느 정도 정리가 된다면? 다시 심화 과제를 켜서 도전하고 싶다.. 그런 날이 왔으면 좋겠다. 3. 피어세션 매일 논문 리뷰를 한다. 얻어가는 게 엄청 많은 피어세션이다. 4. 학습 회고 5주 차 회고를..
네이버 부스트캠프 4주차 회고 1. NLP 4주차부터 시작되는 도메인별 강의.. 주재걸 교수님의 NLP강의를 수강하였고, 첫 주차라서 RNN, LSTM, GRU, Seq2seq(with attention) 에 대하여 배웠다. 직접 예시를 들어서 설명해주시니 이해하기 쉬웠고 재밌었던것 같다.(귀에 "가령~"이 맴돌아요....) 이번 주차는 강의에 비해 실습이 많아서 그 코드를 이해하는데 시간을 더 많이 쏟았던 것 같다. 2. 과제 수행 NLP1주차에는 기본과제1, 기본과제2를 제출하였다... 생각보다 잘 되는듯 안되는듯..? 그래도 잘 돌아가는 결과물을 보면 너무 뿌듯하다. 여튼 이번주도 기본과제 열심히해서 다 제출했다.. 오피스아워가 시급하다.. 얼른 해설을 들어보고싶다. 3. 피어세션 이번주 피어세..