
Abstract 동일한 하이퍼파라미터 값으로도 시드를 랜덤으로 설정하면 다른 결과를 낼 수 있음.(성능의 차이가 생길 수 있음) 각 데이터셋마다 BERT의 시드만을 변경하며 실험을 진행함. 이전 결과와 비교하여 상당한 성능 향상을 확인하였고, 최상의 모델 성능이 실험 횟수에 따라 어떻게 변하는지 정량화해봄. 시드 선택에 영향을 받는 두 가지 요소: 가중치 초기화와 훈련 데이터 순서가 모두 검증 세트 성능의 분산에 비례하여 기여한다는 것을 발견함. 일부 가중치 초기화는 잘 수행되지만 작은 데이터셋에서는 대부분 학습 중간에 발산하는 것을 관찰하였고, 실험을 조기에 중단하는 방법을 제안함. 1. Introduction MRPC ( Microsoft Research Paraphrase Corpus) : 문장 쌍..
부스트캠프
2023. 12. 25. 23:47