Entropy정보를 표현하는데 있어서 필요한 최소 (평균) 자원량 (→ 0 또는 1의 길이!)최소 자원량 ? 엄청 효율적으로 표현되어야함! 자주 사용되는 것은 자원 길이가 짧아야하고 거의 사용되지 않는 것은 길이가 길어야함!이를 그래프로 표현하면 -log그래프가 되는 것! $\sum_{i}^{}{P}_{i}*(-{log_{2}}^{P{i}})$ 기댓값이 최소 길이가 되어야하는것! 기댓값은 특정 확률 분포에서 평균적으로 기대할 수 있는 값! (모든 가능한 결과 값과 그 확률의 곱) 그럼 최소자원량이 최대가 될 때는? 확률이 Uniform할 때! (최악의 상황) Cross-Entropy두 확률 분포 사이의 차이를 측정하는 방법 $\sum_{i}P_{i}*{log_{2}}^{q_{i}}$q_i는? 내가 생..
정규화란?모델의 가중치에 제약을 주어 과적합을 방지하고 모델을 단순화하는 기법입니다. L1, L2 정규화를 살펴보기 전에 벡터의 norm먼저 살펴봅시다. 벡터의 norm벡터의 "크기"를 측정하는 방법으로 쉽게 말하면 원점에서 해당 점까지의 거리를 계산하는 방법입니다.("크기"라고 했으니 0 포함 양수 스칼라여야함.) Lasso(L1) 정규화와 Ridge(L2) 정규화에서는 각각 L1-norm과 L2-norm을 활용하고 아래와 같이 계산할 수 있습니다. * L2-norm (벡터의 물리적인 길이) (예시) $a = \begin{bmatrix}1 \\2\\3\end{bmatrix}$ ${||a||_{2}}= \sqrt{{a}^{T}a} = \sqrt{{1}^{2}+{2}^{2}+{3}^{2}} = (..
AbstractDPR(Dense Passage Retrieval)의 목표 query와 passages의 dense representations을 기반으로 대규모의 말뭉치에서 query와 관련된 passages를 검색하는 것 최근에는 dense retrieval 성능 향상을 위해 사전 학습된 언어 모델을 개선하는 연구를 진행. CoT-MAE (ConTextual Masked Auto-Encoder) : self-supervised, context-supervised masked auto-encoding을 통해 문장의 의미를 dense vector로 압축하는 비대칭 인코더-디코더 구조를 사용 self-supervised masked auto-encoding 모델이 입력 데이터(레이블이 없는 데이터)의 일부를..