티스토리 뷰
Abstract
DPR(Dense Passage Retrieval)의 목표
query와 passages의 dense representations을 기반으로 대규모의 말뭉치에서 query와 관련된 passages를 검색하는 것
최근에는 dense retrieval 성능 향상을 위해 사전 학습된 언어 모델을 개선하는 연구를 진행.
CoT-MAE (ConTextual Masked Auto-Encoder)
: self-supervised, context-supervised masked auto-encoding을 통해 문장의 의미를 dense vector로 압축하는
비대칭 인코더-디코더 구조를 사용
self-supervised masked auto-encoding
모델이 입력 데이터(레이블이 없는 데이터)의 일부를 가리고(마스킹) 해당 가려진 부분을 복원하도록 학습하는 방식.
텍스트 구간 내 토큰의 의미를 모델링.
context-supervised masked auto-encoding
입력 데이터의 일부를 가리고(masked) 해당 가려진 부분을 복원하는 과정에서 이전 또는 주변 문맥 정보를 함께 활용하여 학습하는 방법
이는 모델이 단일 텍스트 스팬이 아닌 해당 스팬 주변의 문맥을 고려하면서 텍스트를 재구성하도록 유도
텍스트 구간 간의 의미적 상관 관계를 모델링
Introduction
Passage retrieval : 대규모 말뭉치에서 query의 관련 passages를 검색하는 것. (web search, question answering, dialogue systems 등 )
오랫동안 BM25와 같은 sparse retrieval represented를 주로 사용.
최근에는 PLM의 발전으로 dense retrieval이 더 주목받고 있음.
Dense Retrieval models는 사전 훈련된 언어 모델을 기반으로 하고, siamese 또는 dual-encoder 구조를 사용하여 query와 document를 저차원 벡터 공간으로 인코딩하여 효과적인 검색을 수행.
*siamese encoder architecture : 동일한 인코더가 쿼리와 문서를 각각 인코딩. 인코딩된 representation은 유사성을 측정하기 위해 비교됨.
* dual-encoder architecture : 쿼리와 문서를 위한 별도의 인코더 사용. 각 인코더는 각각의 입력을 독립적으로 처리하여 임베딩 생성.
query와 document사이의 관련된 정도는 벡터 공간에서 코사인 유사도나 내적을 사용.
따라서 PLM을 기반으로 한 high quality text representation은 Dense Passage Retrieval에서 중요.
문장 간의 의미적 상호 관계를 고려하여 새로운 사전 훈련 방법을 도입하여 DPR의 text representation modeling을 개선하려고 함.
모델링 시, 텍스트 스팬 내 토큰의 의미와 텍스트 스팬 간의 의미적 상관 관계를 고려함.
(a) 문서에서 $T_A$와 $T_B$ 두 개의 이웃하는 텍스트 스팬을 샘플링하여 스팬 쌍을 형성함.
(b) 전체 프로세스에서 masked auto-encoding을 사용.
self-supervised masked auto-encoding : 인코더에서 스팬 내의 가려지지 않은 토큰만 고려하여 가려진 텍스트 스팬을 재구성
$T_A$와 $T_B$에 마스킹을 하고, 마스킹된 텍스트를 인코더에 넣어 원래 텍스트를 재구성 (MLM)
context-supervised auto-encoding : 디코더에서 스팬 내의 가려지지 않은 토큰과 이웃하는 스팬 임베딩, 즉 해당 컨텍스트를 고려하여 가려진 텍스트 스팬을 재구성.
Pretraining 시에는 디코더만 학습, Fine-tuning 시에는 인코더만 사용.
(장점)
CoT-MAE는 self-supervised 및 context-supervised masked auto-encoding 사용.
: context representation에 의해 연결되어 더 나은 text representation modeling을 학습하기 위해 같이 최적화된다.
( 모델이 텍스트 내부 구조와 문맥을 동시에 고려하여 더 나은 표현을 학습할 수 있음. 텍스트의 의미적 특징을 더 잘 파악하고 효과적으로 표현할 수 있도록 도와줌)
비대칭 인코더-디코더 구조
비대칭 구조는 인코더와 디코더 간의 파라미터 수나 구조에 대한 제약을 완화시킴으로써 모델의 유연성을 높일 수 있다.
(인코더와 디코더가 서로 다른 매개변수의 수, 구조를 가질 수 있음)
인코더와 디코더 측에서 서로 다른 마스킹 비율을 사용
마스크 비율이 사전 훈련에 도움이 될 수 있다는 것을 고려하여, CoT-MAE의 인코더와 디코더 각각에 최대 30% 및 45%의 마스크 비율을 채택합니다. 디코더 측에서 더 큰 마스크 비율은 컨텍스트 지도 가려진 자기 부호화의 어려움을 더욱 증가시키고, 인코더 측이 더 강력한 텍스트 인코딩 능력을 습득하도록 합니다.
CoT-MAE의 효과를 확인하기 위해 대규모 웹 검색 및 오픈 도메인 QA 벤치마크인 MS MARCO Passage Ranking (Nguyen et al. 2016), TREC Deep Learning (DL) Track 2020 (Craswell et al. 2020), 그리고 Natural Questions (NQ) (Kwiatkowski et al. 2019)에서 실험을 수행했습니다.
실험 결과는 CoT-MAE가 경쟁 기준선 검색기에 비해 상당한 향상을 이루었음을 보여줍니다. 또한, CoT-MAE 디자인의 탄탄함을 설명하기 위해 철저한 제거 실험을 수행했습니다.
Related Works
DPR (Karpukhin et al. 2020)은 밀집 검색 모델로 BM25 방법을 능가합니다. 그 이후, 사전 훈련 및 세밀 조정을 개선하는 기술을 포함하여 밀집 검색 성능을 향상시키기 위해 많은 연구들이 등장했습니다.
Pre-training tasks tailored for dense retrieval
한 분류(Lu et al. 2021; Gao and Callan 2021a; Liu and Shao 2022)는 보조 자기 지도 자동 인코딩 작업을 사용하여 인코더가 더 나은 텍스트 표현을 제공하도록 강제합니다. 예를 들어, (Lu et al. 2021; Gao and Callan 2021a)는 용량이 제한되고 주의 유연성이 제한된 약한 디코더를 사용하여 자동 인코딩을 수행하여 인코더가 더 나은 텍스트 표현을 제공하도록 밀어넣는 방법을 제안합니다. (Liu and Shao 2022)는 인코더와 약한 디코더에 대칭 마스킹 비율을 적용하는 방법을 제안합니다. 인코더에서 나온 문장 임베딩은 강하게 마스킹된 버전과 결합되어 디코더에 의해 원래 문장을 재구성합니다. 이러한 작업과 유사하게, 우리의 방법은 비대칭 인코더와 약한 디코더 아키텍처를 채택합니다. 다르게, 우리는 문맥 지도 자동 인코딩을 제안하는데, 여기서 인코더로부터 주어진 텍스트의 마스킹된 버전과 이웃 텍스트의 임베딩, 즉 문맥이 함께 디코더로 공급되어 주어진 텍스트를 재구성합니다.
Fine-tuning
많은 시도가 있었으며, 세밀한 조정 성능을 향상시키기 위해 다음과 같은 방법들이 탐구되었습니다: 어려운 부정적 사례를 찾는 것(Xiong et al. 2020; Zhan et al. 2021), 늦은 상호작용(Khattab and Zaharia 2020), 강력한 교사로부터 지식을 증류하는 것(Lin, Yang, and Lin 2021; Santhanam et al. 2021), 쿼리 클러스터링(Hofst¨atter et al. 2021), 데이터 증강(Qu et al. 2020), 그리고 검색기와 재랭커를 함께 최적화하는 것(Ren et al. 2021b; Zhang et al. 2022, 2021).
예를 들어, (Xiong et al. 2020)은 주기적으로 업데이트된 근사 최근 이웃(ANN) 인덱스를 사용하여 코퍼스를 검색하여 어려운 부정적 사례를 구축하는 것을 제안했으며, 이 방법은 매우 효과적이라는 것이 입증되었고 이후의 방법들에서 채택되었습니다. (Zhan et al. 2021)은 세밀하게 조정된 밀집 검색기를 활용하여 채굴된 어려운 부정적 사례의 품질을 향상시켰습니다. (Khattab and Zaharia 2020)은 늦은 상호작용을 제안했는데, 이는 인코더의 마지막 숨겨진 상태에 MaxSim 작업을 적용하여 쿼리와 문서 간의 세밀한 유사성을 모델링합니다. (Lin, Yang, and Lin 2021)은 ColBERT의 MaxSim 연산자로부터 검색기로 증류하였으며, 한편 (Santhanam et al. 2021)은 강력한 재랭커로부터 ColBERT로 증류하는 것을 제안했습니다. (Hofst¨atter et al. 2021)은 세밀한 조정 효율성을 향상시키기 위해 효율적인 주제 인식 쿼리 및 균형 임계값 샘플링 기술을 소개했습니다. (Qu et al. 2020)은 좋은 성능을 달성하기 위해 세 가지 효과적인 전략을 결합했는데, 이는 교차 배치 부정적 사례, 소음 제거된 어려운 부정적 사례, 그리고 데이터 증강입니다. (Ren et al. 2021b)은 검색기와 재랭커를 모두 적응적으로 향상시키기 위해 통합된 리스트 방식의 증류를 도입했습니다. (Zhang et al. 2022)은 검색 및 재랭킹 단계 기능을 통합하는 하이브리드 리스트 인식 트랜스포머 재랭킹(HLATR)을 설계했습니다. (Zhang et al. 2021)은 이중 인코더 검색기와 교차 인코더 재랭커로 구성된 적대적 검색기-랭커를 제시했는데, 이는 최소 최대 적대적 목적에 따라 공동으로 최적화됩니다. 저희는 사전 훈련에 의해 가져온 개선에 초점을 맞추고 있으며, (Gao and Callan 2021a,b; Ma et al. 2022)를 따라 우리의 사전 훈련 방법의 효과를 평가하기 위해 오픈 소스 세밀 조정 파이프라인 Tevatron(Gao et al. 2022b)을 재사용하고 있습니다.
Approach
마스크된 오토인코더 구조, CoT-MAE의 데이터 구축 및 모델 구조
Preliminary: Masked Auto-Encoding
BERT의 MLM은 라벨 없는 데이터로 훈련.
n개의 연속된 토큰을 가진 텍스트 T가 주어지면, 텍스트 시작 부분에 [CLS] 토큰이 추가.
$t_0$는 [CLS] 토큰.
[MASK]로 대체된 토큰을 m(T)로 표시하고 나머지 토큰을 T\m(T)로 표시
T\m(T)는 MLM loss를 사용하여 m(T)를 복원하기 위해 인코더를 통해 전달됨.
p(t| T\m(T)) : T에서 마스크된 토큰을 제외한 부분을 입력으로 받아 토큰 t를 예측하는 확률
인코더 또는 디코더의 l 번째 트랜스포머 레이어의 출력은 해당 레이어의 hidden state.
인코더의 마지막 레이어에서 [CLS] 위치의 hidden state인 $h_last0$는 T의 임베딩 표현으로 사용된다.
CoT-MAE: ConTextual Masked Auto-Encoder
라벨이 지정되지 않은 문서에서 훈련 데이터를 구축하는 방법.
문서가 주어지면 NLTK를 사용하여 텍스트 스팬으로 분할(max_length 설정).
그런 다음 샘플링을 사용하여 문서에서 두 개의 이웃하는 텍스트 스팬 TA와 TB를 선택하여 스팬 쌍을 형성. (두 텍스트 스팬은 서로 인접하거나 상호 관련이 있음)
sampling strategy
Near : 겹치지 않는 두 인접한 스팬을 쌍으로 형성하기 위한 샘플링
가정 : 문서 내에서 연속하는 두 문장은 서로의 내용이 연결되어 있거나 상호 관련이 있을 수 있다.
예시 : "오늘은 날씨가 별로 좋지 않다. 지금 밖에 비가 온다. 저녁까지 계속 비가 온다고 한다."
T_A : 지금 밖에 비가 온다.
T_B : 저녁까지 계속 비가 온다고 한다.
Olap : 일부 겹치는 부분을 가진 두 인접한 스팬을 쌍으로 형성하기 위한 샘플링
가정 : 부분적으로 겹치는 세그먼트를 고려하면 모델이 관련 정보를 더 풍부하게 학습할 수 있을 것이다.
예시 : "오늘은 날씨가 별로 좋지 않다. 지금 밖에 비가 온다. 저녁까지 계속 비가 온다고 한다."
T_A : 지금 밖에 비가 온다.
T_B : 저녁까지 계속 비가 온다고 한다.
Rand : 겹치지 않는 두 스팬을 무작위로 샘플링하여 쌍을 형성
가정 : 문서 내에서 무작위로 선택하여 쌍을 형성하면 모델이 다양한 유형의 정보를 학습할 수 있을 것이다.
예시 : "오늘은 날씨가 별로 좋지 않다. 지금 밖에 비가 온다. 저녁까지 계속 비가 온다고 한다."
T_A : 오늘은 날씨가 별로 좋지 않다
T_B : 저녁까지 계속 비가 온다고 한다.
(그냥 랜덤으로 고른거임.)
CoT-MAE : strong deep encoder와 weak shallow decoder를 갖춘 비대칭 인코더-디코더 구조를 사용
- strong deep encoder: 충분한 매개변수를 가지고 있어서 좋은 텍스트 표현 모델링 능력을 학습할 수 있습니다. 이는 모델이 텍스트의 의미와 특징을 잘 파악하고 효과적으로 표현할 수 있도록 도와줍니다. -> 사전 학습 모델을 사용
- weak shallow decoder: 인코더 보조. 매개변수가 적어서 디코딩 과정에서 마스킹된 토큰을 잘 복원하기 어려울 수 있지만, 이는 인코더로부터의 컨텍스트에 강하게 의존하게 만들어줍니다.
인코더와 디코더 쪽에서 서로 다른 마스크 비율을 사용
인코더 부분에서 TA에 random masking을 진행.
[MASK]토큰으로 대체된 토큰을 $ m_{enc} \left ( T_A \right )$ 로 표시하고 나머지 토큰을 $T_A$\$m_{enc} \left ( T_A \right )$로 표시. 디코더 파트에서도 마스킹 적용.
Self-supervised Pre-training
(인코더)
모델이 주어진 텍스트 일부를 마스킹하고, 나머지 부분을 기반으로 마스킹된 부분을 예측하도록 하는 방법
주어진 텍스트 T에서 일부 토큰을 마스킹하여 $ m_{enc}(T) $로 나타내고, 마스킹되지 않은 토큰을 $ T \backslash m_{enc}(T) $로 나타냅니다. 모델은 $ T \backslash m_{enc}(T) $을 인코더를 통해 처리하여 $ m_{enc}(T) $를 복원하려고 시도
Context-supervised Pre-training
(디코더)
TB의 일부 토큰을 마스킹하여 $ m_{dec}(TB) $로, 나머지 토큰은 $ TB \backslash m_{dec}(TB) $로 나타낸다.
TB의 컨텍스트 임베딩은 인코더의 마지막 레이어에서 TA의 [CLS] hidden state인 $ h_{last}^0 $로 정의.
$ TB \backslash m_{dec}(TB) $과 TA의 [CLS] hidden state $ h_{last}^0 $를 함께 디코더에 입력
디코더는 이러한 입력을 사용하여 TB의 마스킹된 부분 $ m(TB) $을 복원하려고 시도합니다.
context-supervised masked language model loss
AB
TA가 TB의 컨텍스트로 활용되어 모델이 TB를 복원하도록 하는 것을 의미
"[]" (concatenation operation)
Fine-tuning on Dense Passage Retrieval
fine-tuning 단계에서 인코더만을 사용하여 추가적인 작업을 수행. 인코더는 텍스트의 의미를 잘 표현하기 위해 사용
디코더를 사용하지 않는 이유
- 인코더는 텍스트의 의미를 잘 표현할 수 있음.
- CoT-MAE의 목표는 Dense Retrieval작업. Dense Retrieval 작업에서는 query 및 passagae 인코더가 중요
- CoT-MAE의 목적은 Dense Retrieval을 향상시키는 것이므로 디코더를 유지할 필요가 없습니다. 이에 디코더를 제거하여 모델을 더 간결하고 효율적으로 만들 수 있음.
CoT-MAE에서 인코더 가중치를 사용하여 Dense Retrieval을 위한 query 인코더 $ f_q $와 passage 인코더 $ f_p $를 초기화
(query, passage encoder : 각각의 표현을 생성하는 역할)
각각의 마지막 레이어의 [CLS] 임베딩을 사용하여 쿼리나 패스지의 표현을 나타냅니다. 이 [CLS] 임베딩은 해당 텍스트의 전체적인 의미를 요약한 벡터로 사용됩니다.
< q, p >의 유사도는 내적(inner product)으로 정의
Fine-tuning에서 contrastive loss사용
$p^+$ : positive passge
$p_l^-$ : negative passages
evaluation pipeline, Tevatron
- BM25 negatives를 사용하여 첫 번째 단계의 retriever를 훈련시킵니다.
- 두 번째 단계 retriever 훈련시킬 때, BM25 negatives와 첫 번째 단계 retriever 의해 발견된 어려운(negative) 예제들을 사용합니다. 이를 통해 모델은 더 어려운 예제들에 대해 더 강력한 성능을 발휘할 수 있도록 훈련됩니다.
- 두 번째 단계 retriever 최종 리트리버로 사용되어 평가됩니다. 이 모델은 훈련된 모델의 최종 성능을 측정하고, DPR에서의 검색 성능을 평가하는 데 사용됩니다.
Experiments
Pre-training
CoT-MAE의 인코더는BERT-base 모델 사용.
사전 훈련 데이터셋으로는 MS-MARCO passages(3.2M) 사용
NLTK를 사용하여 각 문서를 문장으로 분할하고 연속된 문장을 최대 128 길이의 스팬으로 그룹화합니다.
세 가지 샘플링 사용하고, 사전 훈련 과정 중에 서로 다른 에포크에서 두 개의 스팬을 선택하여 스팬 쌍을 형성합니다.
AdamW 옵티마이저를 사용하여 1200k 단계까지 사전 훈련을 진행하며, 학습률은 1e-4로 설정하고, 웜업 비율이 0.1인 선형 스케줄을 사용합니다. 8대의 Tesla A100 GPU에서 전역 배치 크기가 1024인 상태에서 4일 동안 훈련을 진행합니다. 사전 훈련 과정에서 컴퓨팅 예산이 높기 때문에 하이퍼파라미터를 조정하지 않고, 이를 향후 작업에 남겨둡니다. 사전 훈련 후에는 디코더를 폐기하고 인코더만을 남겨 미세 조정에 사용합니다.
Fine-tuning
우리는 사전 훈련된 CoT-MAE를 MS MARCO passage ranking (Nguyen et al. 2016), Natural Question (Kwiatkowski et al. 2019), 그리고 TREC Deep Learning (DL) Track 2020 (Craswell et al. 2020) 작업에 대해 미세 조정합니다. (Qu et al. 2020)에서 발표된 MS-MARCO 코퍼스를 사용하며, RocketQA(Qu et al. 2020)를 따라 DPR(Karpukhin et al. 2020)에 의해 생성된 NQ 버전을 사용합니다. 우리는 널리 사용되는 평가 파이프라인인 Tevatron (Gao et al. 2022b)을 재사용하며, 재현성을 지원하기 위해 공통 고정 시드(42)를 사용합니다. 사전 훈련 기술을 개선하는 데 초점을 맞추고 있기 때문에, 강력한 재랭커로부터의 증류(distillation)나 멀티-벡터 표현과 같은 향상된 방법은 사용하지 않습니다. (Gao and Callan 2021b; Hofst ̈atter et al. 2021)를 따라, MS-MARCO에 대해 MRR@10, Recall@50, Recall@1000, NQ에 대해 Recall@5, Recall@20, Recall@100, 그리고 TREC DL에 대해 nDCG@10을 평가 메트릭으로 사용합니다.
base line
우리의 기준선 방법에는 희소 검색 방법과 밀집 검색 방법이 포함되어 있습니다. 희소 검색 방법의 결과는 주로 (Qu et al. 2020)에서 가져온 것으로, BM25, docT5query (Nogueira and Lin 2019), DeepCT (Dai and Callan 2019), 그리고 GAR (Mao et al. 2020)를 포함합니다. 밀집 검색 방법의 결과는 주로 (Gao and Callan 2021b; Liu and Shao 2022; Ren et al. 2021b; Ma et al. 2022)에서 가져온 것으로, ANCE (Xiong et al. 2020), SEED (Lu et al. 2021), TAS-B (Hofst ̈atter et al. 2021), RetroMAE (Liu and Shao 2022) 등이 포함됩니다.
Main Results
MS-MARCO(Microsoft MAchine Reading COmprehension) 데이터셋은 마이크로소프트에서 공개한 대규모 검색 및 독해 이해를 위한 데이터셋으로 검색 엔진에서 사용되는 질문-답변 쌍을 포함하고 있음.
MS-MARCO 데이터셋은 수백만 개의 문서를 포함하고 있어 대규모 검색 작업에 적합
다양한 주제와 도메인에 관련된 질문-답변 쌍이 포함되어 있어 모델의 일반화 능력을 평가 가능
1. RocketQA
2. ColBERT
https://tv.naver.com/v/23650668
질의와 문서 간 관계를 구하는 것을 미뤄두고 미리 문서에 대한 모든 임베딩을 미리 구축해두는 방식
3. coCondenser
기존의 Condenser에 contrastive loss를 추가
Condenser는 masked language model (MLM)을 loss로 이용한다.
coCondenser는 MLM과 contrastive loss를 함께 이용
Condenser는 cls가 더 많은 정보를 가지도록 하는 pretraining 방법이다.
coCondenser는 의미적으로 유사한 텍스트간의 임베딩이 유사하도록 pretraining
CoT-MAE Pre-training 과정이 dense retriever 을 효과적으로 개선할 수 있다는 것을 보여준다.
텍스트 스팬 내 토큰의 의미와 이웃하는 텍스트 스팬 간의 의미적 상관 관계를 모두 고려하고, 데이터 구성 전략과 비대칭 인코더-디코더 구조 및 비대칭 마스킹 전략이 효과가 있음을 보여줌.
Analysis
Comparison with Distilled Retrievers
Impact of Mask Rate
인코더의 마스크 비율이 30%를 초과하지 않을 때, CoT-MAE의 성능은 디코더의 마스크 비율이 증가함에 따라 향상됨.
인코더의 마스크 비율이 45%로 매우 높아질 때, CoT-MAE의 성능이 약간 감소하는 것으로 나타.
(인코더에서의 부족한 컨텍스트 때문인 것 같다고 말함)
전반적으로, CoT-MAE는 다양한 마스크 비율에 대해 매우 견고하며, 적절한 큰 마스크 비율이 상대적으로 더 나은 성능을 달성할 수 있다는 점은 BERT 사전 훈련에서의 결과와 유사합니다.
Impact of Sampling Strategies
세 가지 전략 모두 사용하였을 때 성능이 가장 좋았음.(데이터 구성의 다양성이 사전 훈련에 도움이 될 수 있음)
Impact of Decoder Layer Number
디코더에 트랜스포머 레이어가 하나만 있는 경우, 디코더의 모델링 능력이 너무 약하여 컨텍스트 임베딩과 마스크 해제된 토큰 임베딩을 완전히 융합할 수 없어 정보의 비효율적인 활용으로 이어집니다.
레이어 수가 많을 때, 더 강력한 디코더 능력으로 인해 마스크된 자동 인코딩 작업은 컨텍스트 임베딩에 대한 의존성이 감소하며, 인코더 훈련에 대한 제약이 부족해지게 됩니다.
Impact of Decoder Weight Initialization
CoT-MAE의 인코더 구조는 BERT와 동일하므로 인코더는 사전 훈련된 BERT로 직접 초기화됩니다.
디코더는 두 개의 레이어만 가지고 있기 때문에 다양한 초기화 옵션이 존재합니다.
일반적으로, 제한된 매개변수를 가진 디코더가 수렴하기에 충분한 pre-training시 좋은 결과를 가져올 수 있음.
Qualitative Analysis
예시에서, BERT나 coCondenser의 passage는 쿼리와 토큰 수준의 중첩이 있지만 의미적으로 높은 관련성을 갖지 않습니다.
반면에, CoT-MAE는 의미적 이해에서 더 나은 성과를 보임.
이는 CoT-MAE 사전 훈련 방법이 이전의 사전 훈련 방법보다 더 효과적임을 보여준다.
'부스트캠프' 카테고리의 다른 글
Visual Instruction Tuning (LLaVA) (0) | 2024.02.04 |
---|---|
Active Retrieval Augmented Generation (0) | 2024.01.28 |
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models (3) | 2024.01.21 |
Do PLMs Know and Understand Ontological Knowledge? (0) | 2024.01.06 |
[논문 읽기] Fine-Tuning Pre trained Language Models:Weight Initializations, Data Orders, and Early Stopping (0) | 2023.12.25 |