티스토리 뷰
Abstract
- 온톨로지(ontology) : 지식을 체계적으로 구성하고 표현하는 방법론으로 온톨로지 지식베이스는 개체, 개념 관계 등의 객체들 간의 의미론적인 관계를 기술하는 시스템이다. 온톨로지는 지식을 계층 구조로 정의하여, 객체들 간의 의미와 관계를 명확히 표현하고 이해하기 쉽게 해준다. "체계적인 지식 표현 방법"
- 이러한 지식을 Pretrained Language Models가 알고 이해하는지를 알아보는 것이 중요하지만 기존의 PLM-probing 연구는 사실적인 지식에 중점을 두고 있다.
- PLMs가 온톨로지 지식을 저장하고 이해하는지, 단순한 암기가 아닌 지식의 의미를 파악하는지를 알아본다.
- 엔티티 유형, 계층 구조 관계, 속성의 도메인 및 범위 제약 조건을 얼마나 잘 기억하는지에 대한 조사 - PLMs가 온톨로지 지식을 실제로 이해하는지를 확인하기 위해, 온톨로지 entailment 규칙에 따라 주어진 지식으로 논리적 추론을 신뢰성 있게 수행할 수 있는지를 알아본다.
- 결과 : PLMs는 일부 온톨로지 지식을 암기하고 추론에 암시적인 지식을 활용할 수 있음을 보여준다. 그러나 암기와 추론의 성능 모두 완벽하지 않으며, 이는 지식과 이해가 불완전하다는 것을 나타낸다.
1. Introduction
- 이전 연구들은 PLMs이 사전 훈련 코퍼스에서 상당한 양의 지식을 인코딩할 수 있으며, PLMs내에서 지식 종류를 탐색
- 기존의 연구들은 주로 사례와 관련된 사실적인 지식에 중점을 두고 있으며 온톨리지 지식에 대한 체계적인 연구는 없음.
- 온톨로지 지식은 클래스의 속성 그들의 관계로 세계를 모델링.(Nilsson, 2006; Kumar et al., 2019).
- 온톨로지 지식이 심층 신경망 내부에 직접 주입되거나 외부에서 심층 신경망에 임베딩되어 활용될 수 있고 이는 다양한 자연어 처리 작업에서 중요한 역을 함.
- 온톨로지 지식을 직접 주입하는 방법 중 하나는, 지식 그래프를 구성하고 이를 자연어 처리 모델의 입력으로 사용하는 것입니다. 이를 위해서는 지식 그래프를 구축하고, 이를 자연어 처리 모델의 입력으로 변환하는 전처리 과정이 필요합니다. 또 다른 방법은 지식 그래프를 이용하여 자연어 처리 모델을 사전 훈련하는 것입니다. 이 경우, 지식 그래프를 이용하여 모델이 사전 훈련되므로, 모델이 지식 그래프를 이해하고 활용할 수 있게 됩니다.
- 외부에서 심층 신경망에 임베딩되는 방법 중 하나는, 사전 훈련된 임베딩을 사용하여 모델에 외부 지식을 주입하는 것입니다. 이를 위해서는 외부 지식을 모델의 입력으로 변환하고, 모델의 사전 훈련 단계에서 외부 지식을 함께 고려하여 모델을 훈련시킵니다. 또 다른 방법은 외부 지식을 모델의 출력에 반영하여 모델이 외부 지식을 활용하도록 하는 것입니다. 이를 통해 모델은 외부 지식을 내재화하고, 이를 활용하여 자연어 처리 작업을 수행할 수 있습니다.
- PLMs가 온톨로지 지식을 인코딩하고 이를 표면적으로 암기하는 것이 아니라 의미적으로 이해할 수 있는지를 알아보는 것이 중요함.
- 본 논문에서는 먼저 PLM의 온톨로지 지식에 대한 암기를 보인다.

먼저 PLM의 온톨로지 지식에 대한 암기를 조사한다.
구체적으로, 그림 1(a)에 나와 있는 것처럼, 같은 암기 테스트를 구성한다.
(1) 엔티티의 유형. 엔티티는 클래스로 분류될 수 있으며, 예를 들어 Lionel Messi는 사람(Person)이고, 아르헨티나 축구 국가대표팀은 스포츠 팀(Sports Team)입니다.
(2) 클래스 간의 계층적 관계, 예를 들어 사람은 동물의 하위 클래스입니다.
(3) 속성 간의 계층적 관계, 예를 들어 스포츠 팀의 구성원(Member of Sports Team)은 구성원(Member of)의 하위 속성입니다.
(4) 속성의 도메인 제약 조건. 이는 속성이 적용되는 주체에 대한 정보를 명시합니다. 예를 들어, 스포츠 팀의 구성원(Member of Sports Team)의 주체는 사람(Person)의 인스턴스여야 합니다.
(5) 속성의 범위 제약 조건. 도메인과 유사하게, 범위는 속성의 객체에 대한 정보를 명시합니다. 예를 들어, 스포츠 팀의 구성원(Member of Sports Team)의 객체는 스포츠 팀(Sports Team)의 인스턴스여야 합니다.
실험 결과는 PLM이 일정량의 온톨로지 지식을 저장한다는 것을 입증합니다.
- PLM이 온톨로지 지식을 이해하는지 자세하게 조사하기 위해, PLM이 온톨로지 지식이 논리적 추론을 올바르게 수행할 수 있는지를 조사한다.
- 그림1(b)에 나와 있는 것 처럼, 속성 제약 조건과 함께 주어진 사실(Lionel Messi, Member of Sports Team, Argentina National Football Team)을 이용하여, 리오넬 메시가 사람이고, 아르헨티나 축구 국가대표팀이 스포츠 팀임을 유추할 수 있다.
- 6가지 entailment 규칙을 따라 PLM의 온톨로지 지식에 대한 추론 능력을 조사한다.
- 실험 결과 PLM은 추론을 통해 암묵적인 온톨로지 지식을 적용하여 결론을 도출할 수 있지만, 추론의 정확도는 완벽하지 않다.
- 이 결과는 PLM이 온톨로지 지식에 대한 제한적인 이해를 가지고 있다는 것을 말한다.
- (1) PLM의 온톨로지 지식을 암기하고 온톨로지 entailment 규칙에 기반한 추론 능력을 평가하는 데이터 셋을 구축
- (2) 온톨로지 지식이 전제로 주어졌을 때 PLM의 추론 능력을 신중하게 분류함으로써 PLM의 추론 능력을 평가.
- (3) PLM은 일부 온톨로지 지식을 암기할 수 있지만 제한적인 이해를 가지고 있음을 발견함.
- 논문은 Pretrained Language Models (PLMs)이 클래스, 속성 및 그들의 관계를 포함하는 ontological knowledge를 가지고 이해하는지를 조사한다. 이전 연구들은 사실적인 지식에 초점을 맞추었지만, 본 연구는 PLMs가 ontological knowledge를 이해하는 능력을 조사하기 위해 기억과 논리적 추론을 통해 PLMs의 이해를 탐구한다. 본 논문에서 PLMs가 ontological knowledge를 기억하고 추론을 그에 따라 수행하는 능력을 평가하기 위한 데이터셋을 구축한다. 연구 결과, PLMs는 특정 ontological knowledge를 기억하고 추론에 암시적인 지식을 적용할 수 있지만, 그 성능은 완벽하지 않아 불완전한 지식과 이해를 시사한다. PLMs와의 ontological knowledge 조사에 대한 추가 연구를 촉진할 것으로 예상한다.
2. Benchmark Construction
- 온톨로지 구축 방법과 정밀한 분석을 위해 온톨로지 기반으로 한 암기 및 추론 task 생성 과정을 제시함.
2.1 Ontology Building
- 클래스와 인스턴스를 얻기 위해 DBpedia (Auer et al., 2007)를 사용한다.
(클래스, 속성 및 그들의 관계를 포함하는 ontological knowledge) - 구체적으로, 먼저 DBpedia의 모든 783개 클래스를 검색한 다음, SPARQL (hommeaux, 2011)을 사용하여 타입 관계를 이용하여 인스턴스를 쿼리하고, 서브클래스 관계를 이용하여 상위 클래스를 쿼리합니다. 우리는 각 클래스마다 20개의 인스턴스를 샘플링한다.
- DBpedia는 Wikipedia에서 추출한 지식 그래프 데이터를 기반으로 하는 오픈 소스 지식 베이스입니다. 이 데이터는 RDF 형식으로 제공되며, 다양한 분야의 정보를 포함하고 있습니다. DBpedia는 지식 그래프 데이터를 검색하고 쿼리하는 데 사용될 수 있으며, 다양한 응용 프로그램에서 활용될 수 있습니다.
- SPARQL은 RDF 데이터를 쿼리하고 조작하기 위한 표준화된 쿼리 언어입니다. 이 언어는 Semantic Web에서 사용되며, RDF 데이터 그래프에서 정보를 추출하고 쿼리하는 데에 활용됩니다. SPARQL은 데이터베이스 쿼리 언어인 SQL과 유사한 기능을 제공하지만, RDF 데이터 모델에 특화되어 있습니다. 이를 통해 웹 상의 연결된 데이터를 쉽게 쿼리하고 조작할 수 있습니다.
- 속성(Properties)은 다음과 같은 파이프라인을 사용하여 DBpedia와 Wikidata에서 수집한다.
- (1) Wikidata에서 속성을 얻고, 하위 속성을 사용하여 상위 속성을 찾습니다.
- (2) Wikidata의 property constraint를 사용하여 속성의 도메인 및 범위 제약 조건을 쿼리합니다.
- (3) 동등한 속성을 사용하여 Wikidata 속성을 DBpedia 속성과 일치시킵니다.
- (4) DBpedia에서 속성의 도메인 및 범위 제약 조건을 쿼리합니다.
- (5) 수집된 제약 조건을 위에서 수집한 클래스 집합을 어휘로 사용하여 정제합니다. 우리는 합리적인 도메인, 범위 및 상위 속성을 가진 50개의 속성을 선택합니다.
2.2 Construction of Memorizing Task

- Memorizing task는 다섯 가지 하위 작업으로 구성되며, 각각은 온톨로지 관계의 기억를 탐색한다.
- (1) TP : 주어진 인스턴스의 유형
- (2) SCO : 주어진 클래스의 상위 클래스
- (3) SPO : 주어진 속성의 상위 속성
- (4) DM : 주어진 속성의 도메인 제약 조건
- (5) RG : 주어진 속성의 범위 제약 조건.
- 각 하위 작업은 그림1(b)에 나와 있는 것처럼 cloze-completion 문제로 구성된다.
- TP, SCO 및 SPO에는 여러 개의 올바른 답변이 있으며, 이는 클래스 또는 속성의 연쇄를 형성한다.
- DM 및 RG에는 한 가지 올바른 답변만 있다. (예 : Animal은 Member of Sports Team의 속성의 도메인 제약 조건으로 너무 넓기 때문에 도메인으로 Person을 적용)
- 각 하위 작업에 대한 데이터셋을 구축하고, 2.1절에서 구축한 온톨로지를 사용하여 10개의 샘플을 훈련용으로, 10개의 샘플을 검증용으로 보류하여 few-shot 지식 조사를 용이하게 한다.
- "Construction of Memorizing Task"는 Pretrained Language Models (PLMs)의 ontological knowledge를 평가하기 위해 특정 ontological 관계의 기억을 평가하는 작업을 구성하는 것을 의미합니다. 이를 위해 다섯 가지 하위 작업이 구성되며, 각각은 특정한 ontological 관계의 기억을 평가합니다. 이를 통해 PLMs가 ontological knowledge를 기억하고 이해하는 능력을 평가할 수 있습니다.
2.3 Construction of Reasoning Task
- Resource Description Framework Schema (RDFS)에서 명시된 entailment rules을 기반으로 추론 작업을 구성한다.
- RDFS(Resource Description Framework Schema)는 웹 상의 정보를 표현하고 교환하기 위한 데이터 모델입니다. 이는 웹 상의 리소스와 리소스 간의 관계를 설명하고, 이를 통해 웹 상의 정보를 표현합니다. RDFS는 웹 온톨로지 언어인 RDF(Resource Description Framework)의 확장으로, 리소스 간의 속성, 클래스, 상속, 제약 조건 등을 정의하여 정보를 구조화합니다. 이를 통해 컴퓨터가 정보를 이해하고 처리할 수 있도록 돕습니다. RDFS는 웹 상의 정보를 의미론적으로 표현하고 상호작용할 수 있도록 하는 데 중요한 역할을 합니다.
- 표 2에 나열된 규칙을 따르는 추론 능력을 조사하는 여섯 개의 하위 작업을 제안합니다.
- rdfs2/3/7 규칙의 경우, 각 속성에 대해 쌍의 인스턴스 사이에 사용될 패턴을 설계합니다. 예를 들어 Member of Sports Team의 경우 "[X] is a player at [Y]."와 같이 설계합니다. 여기서 [X]와 [Y]는 각각 주어와 목적을 나타냅니다.

- 각 entailment rule은 추론 과정을 설명하는데, P1 ^ P2 |= H 형식으로 되어 있고, P1, P2는 전제이고 H는 가설이다.
- 기억 작업과 유사하게, 추론 작업을 가설을 마스킹하여 cloze-completion으로 구성한다.(그림 1(b) 참조).
- Cloze-completion은 주어진 문장이나 텍스트에서 일부 단어가 빠진 상태로 주어지고, 빠진 부분을 채우는 작업입니다. 이는 자연어 처리 분야에서 많이 사용되며, 주어진 문맥에서 빠진 단어를 추론하는 능력을 평가하는 데 유용합니다. 예를 들어, "나는 ___ 에서 밥을 먹었다"라는 문장에서 빈칸에 들어갈 단어를 추론하는 것이 cloze-completion입니다. 이를 통해 모델이 문맥을 이해하고, 빈칸에 들어갈 올바른 단어를 추론할 수 있는 능력을 평가할 수 있습니다. Cloze-completion은 자연어 이해, 생성, 기계 번역 등 다양한 자연어 처리 작업에서 활용됩니다.
- 명시적으로 주어진 것 : 전제는 모델의 입력에 명시적으로 포함되며, 자연어 진술로 추론이 이루어진다.
- 암묵적으로 주어진 것 : 전제는 명시적으로 주어진 것이 아니라 암묵적 지식으로서 모형에 의해 기억된다. 모형은 추론을 수행하기 위해 암묵적 지식을 활용할 필요가 있으며, 이는 맥락의 효과를 완화시키고 지식에 대한 이해를 요구한다.
- 주어진 것이 아님 : 전제는 모델에 의해 명시적으로 주어지지도 않고 기억되지도 않는다. 모델이 추론을 하지 않는 기준선 역할을 한다.
- 따라서, 두 개의 전제에 대해 3x3의 서로 다른 설정이 존재한다. 이것은 Talmor et al.(2020)이 사용한 실험 설정을 개선한 것으로, 전제가 입력에 명시적으로 포함되는지 여부만 구별한다. 3.2.3절에서 자세히 설명할 암기 과제의 탐색 결과에 의해 전제의 암기를 결정한다.
- Table 2에서는 추론 작업을 위한 entailment rules로 여기서 Symbol aaa와 bbb는 임의의 속성을 나타내며, Symbols xxx, yyy, zzz는 어떤 클래스를 나타내고, uuu와 vvv는 어떤 인스턴스를 나타낸다.
- 주황색으로 강조된 conclusion의 구성 요소는 입력에서 마스킹될 것이며, P1은 동일한 구성 요소를 포함하는 전제를 나타낸다.
3. Probing Methods
- 다양한 자연어 처리 작업에 입력 인코더로 활용될 수 있는 인코더 기반 PLM(BERT(De- vlin et al., 2019) 및 RoBERTa(Liu et al., 2019))를 조사한다.
- Prompt는 BERT의 mask-filling 특성과 일치하여 우리의 작업의 직관적인 방법이다.
- 실험을 용이하게 하기 위해 주요 프롬프트 방법을 포함하는 오픈소스 프레임워크인 OpenPrompt(Ding et al., 2022)를 사용한다.
3.1 Probing Methods for Memorization
3.1.1 Prompt Templates
- Manual Templates : 인간이 디자인한 템플릿으로 작성된 매뉴얼 프롬프트는 제로샷 프로빙(Zero-shot probing)에서 널리 사용되고 있다. PLM은 훈련 없이도 작업을 수행할 수 있기 때문입니다. 매뉴얼 템플릿은 표 3에 나와 있는 것처럼 작업에서 모든 온톨로지 관계를 위해 설계되었습니다.
- "Prompt"는 Pretrained Language Models (PLMs)의 내부 지식을 평가하기 위해 사용되는 입력 텍스트이다. Prompt는 일반적으로 특정 작업을 수행하기 위해 PLMs에게 제공되는 입력으로 사용됩니다. 예를 들어, PLMs가 특정 단어의 의미를 이해하고 있는지 확인하기 위해, 해당 단어를 포함한 문장을 Prompt로 사용할 수 있습니다. Prompt는 PLMs의 내부 지식을 평가하는 데 중요한 역할을 합니다.

- 매뉴얼 프롬프트의 단점 중 하나는 프롬프트 템플릿에 대한 변형이 성능에 큰 영향을 미칠 수 있다는 것입니다.
- 이는 매뉴얼 프롬프트가 사람이 디자인한 고정된 언어 구문을 사용하기 때문에, 템플릿에 대한 작은 변화가 PLMs의 성능에 큰 영향을 미칠 수 있다는 것을 의미한다.
- 이를 대체하기 위한 일반적인 대안은 수동으로 정의된 템플릿 대신 학습 가능한 소프트 토큰(Liu et al., 2021; Li and Liang, 2021)으로 구성된 소프트 프롬프트를 사용하는 것이다.
- 소프트 프롬프트를 사용하여 보여주기위해, PLM의 매개변수를 고정시키고 학습 세트에서 무작위로 초기화된 소프트 토큰을 조정합니다.
3.1.2 Candidates Scoring
- 후보 c가 n개의 토큰 c1, c2, ..., cn으로 토큰화될 수 있으며, 여기서 ci는 모델의 어휘 V에 속하는 것으로, i = {1, ..., n}, n 1이다.
- 이 후보는 마스크된 프롬프트에서 예측하는 로그 확률에 기반하여 점수가 매겨진다.
- 각 구성 토큰 ci의 로그 확률을 얻기 위해 n개의 다른 [MASK] 토큰 또는 동일한 [MASK] 토큰을 사용할 수 있으며, 그런 다음 후보 c의 로그 확률을 계산할 수 있습니다.
- 여기서 [MASK] 토큰은 PLMs에서 입력 문장의 일부를 가리키는 특수한 토큰이다. 후보 단어 c는 n개의 토큰으로 구성되어 있으며, 각각의 토큰 c_i의 로그 확률을 계산하기 위해 n개의 다른 [MASK] 토큰 또는 동일한 [MASK] 토큰을 사용할 수 있다. 이렇게 하면 PLMs는 각각의 토큰 c_i가 [MASK] 토큰으로 대체되었을 때, 해당 토큰이 무엇인지를 예측하게 된다.
그런 다음, 각각의 토큰 c_i의 로그 확률을 계산한 후, 후보 단어 c의 로그 확률을 계산할 수 있습니다. 이를 위해, 후보 단어 c의 각각의 토큰 c_i의 로그 확률을 더하거나, 최대값을 취하거나, 첫 번째 토큰의 로그 확률을 사용하는 등의 방법을 사용하여 후보 단어 c의 로그 확률을 계산할 수 있습니다. - 간단히 말해서, 우리는 프롬프트를 설명할 때 하나의 [MASK] 토큰을 사용합니다.
- Multiple Masks : 후보 c가 n개의 토큰으로 구성되어 있을 때, 마스크된 입력에서 n개의 [MASK] 토큰을 사용하며, i번째 [MASK] 토큰은 [MASK]i로 표시됩니다.
- 후보 확률은 세 가지 다른 풀링 방법을 사용하여 계산할 수 있다.
- (1) 평균: 구성 토큰의 로그 확률의 평균(Klein and Nabi, 2020),
- (2) 최대: 모든 구성 토큰의 로그 확률 중 최대값,
- (3) 첫 번째: 첫 번째 구성 토큰의 로그 확률.
- 형식적으로, 후보 c의 점수 s는 다음과 같이 계산됩니다.

- Single Mask : 각 토큰의 독립적인 예측을 얻기 위해 하나의 마스크 토큰을 사용한다.
- 각 구성 토큰 ci의 로그 확률은 동일한 마스크에서 ci를 복원하는 로그 확률과 동일하며, 후보는 제안된 풀링 방법을 통해 점수가 매겨진다.
3.1.3 Metrics
- 후보들을 로그 확률 점수에 따라 순위를 매기고 상위 K Recall (R@K) 및 평균 상호 순위 (MRR)를 평가 지표로 사용한다.
- MRR은 첫 번째 정답을 검색하는 능력만을 평가하므로, 모든 정답을 검색하는 모델의 능력을 평가하기 위해 평균 상호 순위를 계산할 때 모든 골드 라벨의 평균 순위를 추가로 사용하고 MRRa로 표시합니다.
- "골드 라벨"은 기계 학습 및 자연어 처리 분야에서 모델의 예측을 평가하기 위해 사용되는 정답 또는 올바른 라벨을 가리킵니다. 이는 모델의 예측이나 출력이 실제 정답과 얼마나 일치하는지를 측정하는 데 사용됩니다.

- 여기서 n은 데이터 세트의 샘플 수이고 Gi는 i번째 샘플의 골드 라벨 세트이다.
- 각 샘플의 MRRa는 해당 샘플의 정답 레이블에 대한 상호 순위의 역수의 평균으로 계산된다.
- MRRa는 각 샘플에 대해 계산된 값들의 평균을 나타내는 지표로, 각 샘플에서는 모델이 정확한 답을 몇 번째로 위치시켰는지를 고려한다. 이때, 정확한 답이 높은 순위에 위치할수록 점수가 높아진다. MRRa는 모델이 정확한 답을 상위에 위치시키는 능력을 평가하는 지표로 사용된다
3.2 Probing Method for Reasoning
- 텍스트 입력에서 전제와 가설을 연결하는 방법, 모델의 가설 기억을 제외하는 방법, 그리고 모델이 기억하는 지식의 수준에 따라 전제 집합을 분할하는 방법을 설명한다.
- 3.1.2절에서 제안된 후보 점수화 방법과 3.1.3절에서 제안된 평가 지표를 따른다.
3.2.1 Prompt Templates
- Manual Conj. 그림 1(b)와 같이, 전제와 가설 사이에 연결 부사 therefore를 사용한다.
- 입력에 명시적으로 전제가 없는 경우에도 템플릿이 다른 전제 설정에서의 탐사 결과에 미치는 영향을 제외하기 위해 유지된다.
- 입력에 명시적으로 전제가 없는 경우에도, 연결어 therefore를 사용하는 이유로 연결어를 사용함으로써 전제가 없는 경우에도 일관된 실험 결과를 얻을 수 있도록 하기 위한 것이다.
- Soft Conj. 입력에 명시적으로 제시된 전제 사이와 전제와 가설 사이에 소프트 토큰을 추가함으로써 이를 수행할 수 있다.
- 따라서 입력은 "P1 <s4> P2 <s5> H"가 됩니다. P1, P2 및 H에서 사용된 소프트 템플릿은 메모리제이션 작업에서 학습된 소프트 프롬프트에서 로드되고 소프트 연결어와 함께 세밀하게 조정됩니다.
3.2.2 Reasoning with Pseudowords
- PLMs의 추론 능력을 테스트할 때, 우리는 가설 프롬프트에서 구체적인 인스턴스, 클래스 및 속성을 pseudowords로 대체하여 가설의 메모리제이션을 방지한다. (이전에 본 구체적인 정보를 기억하고 그것을 활용하는 것을 방지하고, 대신에 추론 능력을 평가)
- Pseudowords는 특정 어휘적 의미가 없는 인공적으로 구성된 단어로 예를 들어 서브클래스의 추이에 대한 추론 프롬프트 (즉, 규칙 rdfs9)는 "[X]는 사람입니다. 사람은 동물입니다. 따라서, [X]는 특정한 [MASK]입니다."와 같이 [X]가 Pseudowords인 경우가 있다.
- Pseudowords를 생성하기 위해 특별한 의미를 갖지 않는 임베딩을 만들었다.
- [MASK] 토큰으로부터 주어진 거리에서 임베딩을 샘플링한다.
- [MASK] 토큰은 어휘 목록의 모든 단어를 예측하고 문장의 어디에서든 나타날 수 있기 때문에, 이러한 방식을 사용합니다. 샘플링 거리 d는 정적 임베딩 공간에서 [MASK]와 다른 토큰 사이의 최소 L2 거리(유클리드 거리로, 두 점 사이의 직선 거리)보다 작게 설정됩니다.

- 여기서 zt는 토큰 t의 정적 임베딩이며, alpha (0, 1).
- 두 Pseudowords 간의 거리가 최소 샘플링 거리 d 이상이어야 서로 구별될 수 있도록 한다.
- PLMs의 가설 기억을 평가하기 위해 서로 다른 의미를 가진 가상 단어들을 구별하기 위함이다.
만약 두 Pseudowords 간의 거리가 충분히 멀지 않다면, 모델은 이들을 서로 혼동할 수 있다. 따라서, 충분히 먼 거리를 유지함으로써, 모델이 이들을 서로 구별하고 각각의 의미를 이해하도록 유도할 수 있다. 이를 통해 모델이 단순히 특정 단어를 기억하는 것이 아니라, 의미론적으로 이해하고 있는지를 평가할 수 있습니다.
3.2.3 Classifying Premises : Memorized or not
- 입력에 명시적으로 제공되지 않을 때 모델이 전제를 기억하는지 여부를 결정하기 위해, 우리는 전제 세트를 정렬하고 분할하기 위해 기억 작업에서 올바른 답변의 순위를 기반으로 한 분류 방법을 사용한다.
- 전제 세트의 첫 번째 절반은 기억된 것으로 간주되고, 두 번째 절반은 그렇지 않는다. 각 규칙은 두 개의 전제로 구성되며, 이를 별도로 분류한다.
- memorized task에서 테스트된 하위 클래스, 하위 속성, 도메인 또는 범위의 지식을 포함하는 P1의 경우, 평가 중에 이전에 계산된 상호 순위를 활용할 수 있다.
- P1에 대한 평가를 수행할 때, 이전에 계산된 상호 순위를 활용함으로써, 모델이 특정 지식을 얼마나 잘 기억하고 있는지를 확인할 수 있있고, 상호 순위는 모델이 특정 지식을 얼마나 빨리 인식하고 추론하는지를 나타내는 지표로 사용된다.
- 전제는 상호 순위에 따라 내림차순으로 정렬된다. pseudowords 지식을 포함하는 P2에 대해 동일한 테스트를 수행하여 모델의 특정 예측에 대한 선입견을 조사하고 P2가 기억되었는지 여부를 분류한다.
- P2는 pseudowords 지식을 포함하는 전제로, 이를 평가하기 위해 모델이 특정 예측에 대한 선입견을 가지고 있는지를 조사하고, P2가 기억되었는지 여부를 분류한다.
예를 들어, 모델이 특정 예측에 대해 더 높은 상호 순위를 부여하는 경우, 이는 모델이 해당 예측에 대한 선입견을 가지고 있다는 것을 나타낸다. 또한, P2가 기억되었는지 여부를 분류하기 위해, 이전에 계산된 상호 순위를 사용하여 P2를 평가한다. 이를 통해, 모델이 P2를 기억하고 있는지 확인할 수 있다. - 마지막으로, 각 전제가 주어진 entailment rule 및 방법에 따라 전제를 결합하여 테스트 세트를 구성한다.
- PLMs가 전제를 기억하고 있는지 여부를 분류하는 방법에 대한 내용으로, PLMs의 기억과 이해 수준을 평가하는 데 사용된다.
이 방법은 두 가지 유형의 전제를 분류합니다. 첫 번째 유형은 모델이 기억한 것으로 분류되고, 두 번째 유형은 모델이 기억하지 않은 것으로 분류됩니다.
이를 위해 각각의 규칙에 대해 두 가지 종류의 전제를 사용하여 모델을 평가하고, 각 전제가 모델에 의해 어떻게 처리되는지를 확인한다. 따라서, PLMs가 어떤 종류의 지식을 기억하고 있는지, 어떤 종류의 지식을 기억하지 못하는지를 이해할 수 있습니다.
4. Results and Findings
- 이 섹션에서는 PLMs 의 기억 및 추론 작업의 테스트 세트에서의 성능을 소개하고 결과를 분석하여 일련의 결과를 제시한다.
- 그런 다음, 다양한 프롬프트의 효과를 분석한다. (부록C)
4.1 Memorizing Task
- Memorizing task에 사용된 기준 모델은 학습 세트에서 나타나는 빈도에 따라 골드 레이블 목록을 예측한 후, 학습 세트에서 골드 레이블이 아닌 후보들의 무작위 목록을 예측한다. 이는 사전 지식과 무작위 추측을 결합하여 무작위 기준 모델보다 강력하다.

- 표 4: 기억 작업의 성능 (%). B/L은 base/large를, C/U는 cased/uncased를 나타냅니다. 프롬프트 템플릿(manT는 수동 템플릿, softT는 소프트 템플릿) 간의 차이는 유지되며, [MASK] 토큰의 수 및 풀링 방법과 같은 다른 설정에 대해서는 최상의 결과를 제공하는 것을 사용하고 부록 B에서 그 영향을 논의합니다.
- "cased" 모델은 입력된 텍스트의 대소문자를 유지하고, "uncased" 모델은 입력된 텍스트를 모두 소문자로 변환하여 처리한다.
- (1) DM을 제외한 모든 작업에서 PLM의 최상의 성능이 기준 모델보다 우수합니다. 그러나 DM에서는 기준 모델이 더 높은 MRR을 달성합니다. 세 가지 지표를 모두 고려할 때, PLM의 최상의 성능은 여전히 기준 모델의 성능을 능가합니다.
- (2) DM을 제외하고 BERT 모델은 모든 하위 작업과 모든 지표에서 기준 모델보다 훨씬 우수한 성능을 달성합니다. 각 지표의 증가 평균을 살펴보면, BERT 모델은 기준 모델을 43–198% 능가합니다. DM에서는 BERT-base-uncased 및 BERT-large-cased만 1% 및 7%의 작은 마진으로 기준 모델을 능가합니다.
- (3) RoBERTa 모델은 일반적으로 BERT보다 성능이 떨어지며, DM을 제외한 모든 하위 작업에서 기준 모델과 비교하여 38–134%의 개선을 보입니다.
- (4) 기준 모델보다 상당한 개선이 있음에도 불구하고, 모든 하위 작업에서 결과는 여전히 완벽하지 않습니다.
- PLMs can memorize certain ontological knowledge but not perfectly.
PLM은 특정 존재론적 지식을 기억할 수 있지만 완벽하게 기억할 수는 없다. - 위의 관찰 결과를 바탕으로, PLM은 관련된 온톨로지 관계에 대한 어느 정도의 기억력을 가지고 있으며, 프롬프트를 통해 해당 지식에 접근할 수 있어 강력한 기준 모델을 능가할 수 있다.
- 이는 사전 훈련 과정에서 언어 모델이 개체에 대한 사실 뿐만 아니라 그들의 온톨로지적 관계도 학습하기 때문에 지식을 더 잘 구성하는 데 필수적이라는 것을 증명한다.
- 그러나 이러한 기억력은 완벽하지 않으므로, 온톨로지에 대한 인식을 강화하기 위한 추가적인 노력이 필요하다.
-
Large models are not necessarily better at memorizing ontological knowledge.
큰 모델이 존재론적 지식을 암기하는 데 반드시 더 뛰어난 것은 아니다.
- Petroni et al. (2019)에 따르면, 크기가 더 큰 모델은 더 많은 지식을 저장하고 지식 조사 작업 및 하위 NLP 작업에서 더 나은 성능을 달성하는 것으로 보인다.
- 그러나 표 4에서 볼 수 있듯이, 대부분의 경우 BERT-large-uncased는 더 작은 변형보다 성능이 나쁘며, RoBERTa-large는 TP 및 DM에서 RoBERTa-base보다 성능이 좋지 않은 것을 볼 수 있다.
- 이는 모델 파라미터의 규모가 온톨로지적 지식의 저장을 반드시 결정하지는 않음을 보여줍니다.
4.2 Reasoning Task
- 우리는 추론 실험에서 다중 마스크 및 평균 풀링의 사용을 고정했습니다. 왜냐하면 이러한 방법들이 기억 작업에서 일반적으로 다른 설정들보다 우수한 성과를 보이기 때문이다.

- 우리는 다양한 템플릿을 사용하여 MRR 지표의 평균을 내고, BERT-base-cased와 RoBERTa-base의 결과를 그림 2에 나타냈습니다.
- 어떤 전제도 주어지지 않은 경우, 실제 정답의 순위는 보통 낮다.
- 이는 모델이 가설에 대해 거의 이해를 하지 못한다는 것을 보여준다.
- 이는 유사어의 정보가 조사되기 때문에 합리적입니다. 전제가 암시적으로나 명시적으로 주어진 경우, 특히 P1의 경우, MRR 지표가 다양한 정도로 향상된다.
- 또한 결과는 BERT-base-cased가 우리가 고려하는 온톨로지적 함의 규칙에 대해 RoBERTa-base보다 더 나은 추론 능력을 가지고 있다는 것을 보여준다.

- 전제의 다른 조합을 사용하는 BERT-base-case와 RoBERTa-base에 의한 MRR이다. EX는 명시적으로 주어진 것을, IM은 암묵적으로 주어진 것을, NO는 주어지지 않은 것을 나타낸다. 다른 메트릭도 유사한 경향을 보여준다.
- 명시적으로 주어진 것 : 전제는 모델의 입력에 명시적으로 포함되며, 자연어 진술로 추론이 이루어진다.
- 암묵적으로 주어진 것 : 전제는 명시적으로 주어진 것이 아니라 암묵적 지식으로서 모형에 의해 기억된다. 모형은 추론을 수행하기 위해 암묵적 지식을 활용할 필요가 있으며, 이는 맥락의 효과를 완화시키고 지식에 대한 이해를 요구한다.
- 주어진 것이 아님 : 전제는 모델에 의해 명시적으로 주어지지도 않고 기억되지도 않는다. 모델이 추론을 하지 않는 기준선 역할을 한다.
- 따라서, 두 개의 전제에 대해 3x3의 서로 다른 설정이 존재한다. 이것은 Talmor et al.(2020)이 사용한 실험 설정을 개선한 것으로, 전제가 입력에 명시적으로 포함되는지 여부만 구별한다. 3.2.3절에서 자세히 설명할 암기 과제의 탐색 결과에 의해 전제의 암기를 결정한다.
- PLMs have a limited understanding of the semantics behind ontological knowledge. PLM은 존재론적 지식 뒤에 있는 의미론에 대한 이해가 제한적이다.

- 보다 일반적인 결론에 도달하기 위해, 우리는 모든 entailment rule과 PLM을 평균화하여 그림 3에서 전반적인 추론 성능을 설명하고, 다음과 같은 사실을 발견했다
- (1) P1이 입력 텍스트에서 명시적으로 주어지면, 모델은 실제 정답의 순위를 크게 향상시킬 수 있다.
- P1은 그 문맥에서 실제 정답을 포함하고 있기 때문에, 이러한 향상이 논리적 추론을 통해 얻어졌는지 아니면 단순히 프라이밍을 통해 얻어졌는지에 대한 의문을 제기한다 (Misra et al., 2020).
- (2) 명시적으로 P2를 제공하면, 실제 정답에 존재하지 않을 수 있는 추가 토큰들을 도입하여, P1/P2 = EX/EX가 P1/P2 = EX/IM보다 나쁘게 만든다.
- (3) 전제가 암시적으로 주어질 때, MRR 지표가 주어지지 않을 때보다 더 높다. 이는 PLM이 어느 정도로는 암시적인 온톨로지적 지식을 활용하고 올바른 함의 규칙을 선택하여 추론을 할 수 있다는 것을 시사한다.
각 샘플에서는 모델이 정확한 답을 몇 번째로 위치시켰는지를 고려한다. 이때, 정확한 답이 높은 순위에 위치할수록 점수가 높아진다. - (4) 그러나 어떤 전제 조합도 거의 완벽한 추론 성능(MRR 지표가 1에 가까운)을 제공할 수 없으며, 이는 PLM이 온톨로지적 지식을 약하게만 이해한다는 것을 시사한다.
- Paraphrased properties are a challenge for language models. 구문 분석된 속성은 언어 모델의 과제입니다.
- 그림 2(d)에서 rdfs7 규칙의 전제 P1은 특정 속성의 수동으로 설계된 패턴인 실제 정답의 어구화된 버전을 포함하고 있습니다.
- 그림 2(c)에 나타난 rdfs5 규칙과 비교하면, 거기서 P1은 올바른 속성의 표면 형태를 포함하고 있습니다.
- BERT-base-cased의 rdfs7의 MRR은 P1이 명시적으로 주어지고 P2가 주어지지 않을 때, 암시적으로 그리고 명시적으로 주어졌을 때 각각 23%, 49% 및 29% 감소합니다.
- 반면에 RoBERTa-base의 rdfs7의 MRR은 P2가 주어지지 않을 때 증가하지만, P2가 암시적으로 주어졌을 때와 명시적으로 주어졌을 때 각각 40%와 15% 감소합니다.
- 이는 PLM이 어떤 속성의 의미론을 이해하지 못하고 있으며, 따라서 온톨로지적 지식을 제한적으로 이해하고 있음을 시사합니다.
4.3 Effectiveness of Prompts
- 프롬프트 템플릿이 성능에 어떤 영향을 미치는지에 대해 논의한다.
- 논문에서는 두 가지 유형의 prompt를 사용한다.. 첫 번째는 사람이 수동으로 디자인한 "Manual Templates"이고, 두 번째는 학습 가능한 "Soft Templates"이다. Soft Templates는 수동으로 디자인된 템플릿보다 더 복잡한 관계를 나타낼 수 있다.
실험 결과, Soft Templates를 사용하면 대부분의 subtask에서 PLMs의 성능이 향상되었다. 그러나 일부 subtask에서는 Manual Templates가 더 나은 결과를 보였다. 이러한 결과는 prompt의 유형이 PLMs의 성능에 영향을 미치는 것을 보여준다.
또한, RoBERTa 모델은 Manual Templates보다 Soft Templates에서 더 큰 성능 향상을 보였다. - RoBERTa 모델은 BERT 모델과 달리 데이터를 더 많이 사용하여 pre-training을 수행하기 때문에 더 많은 정보를 인코딩할 수 있다.
Soft Templates는 수동으로 디자인된 템플릿보다 더 복잡한 관계를 나타낼 수 있기 때문에 Soft Templates를 사용하면 RoBERTa 모델이 더 많은 정보를 인코딩할 수 있으며, 이로 인해 더 나은 성능을 보일 수 있다고 생각한다. 반면, Manual Templates는 더 간단한 관계를 나타내는 경우에 더 효과적일 수 있을거다. - 표 4는 소프트 템플릿을 사용하면 일반적으로 TP, SCO 및 SPO와 같은 기억 작업의 성능이 향상되는 것을 보여준다.
- 이는 PLM에서 지식을 추출하는 것이 쉽지 않다는 것을 시사한다.
- 한편, DM과 RG에서 소프트 템플릿을 사용하는 모델은 몇 개뿐이며, 상대적으로 미미한 개선만 있다.
- 이는 도메인 및 레인지 제약 조건의 수동 템플릿과 의미론이 다른 관계보다 복잡하기 때문이다.
- 따라서 모델이 세 개의 소프트 토큰으로 이를 포착하는 것이 어렵다.
- 또한 RoBERTa 모델은 수동 템플릿의 성능이 낮기 때문에 BERT 모델보다 소프트 템플릿에서 더 많은 이점을 얻는 것으로 보입니다.
- 각 관계에 대해 훈련된 소프트 템플릿은 추론에 거의 도움이 되지 않는다.
- 그림 4에서 다양한 모델 및 추론 작업을 평균화하여 성능을 요약한 결과, 추론 성능을 향상시키는 것은 온톨로지적 관계를 설명하는 소프트 템플릿이 아닌 훈련된 연결 토큰임을 발견했다.
- 그림에서 보면 "softT+softC"와 "softT+manC"의 경우보다 "manT+softC"의 경우가 성능이 더 좋은 것을 확인할 수 있다.
이는 소프트 템플릿과 연결 토큰을 조합한 경우보다 수동으로 디자인된 템플릿과 소프트 토큰을 조합한 경우가 더 나은 성능을 보인다. - 이는 PLM과의 자연어 추론이 단순히 모든 전제를 연결하는 대신 학습 가능한 토큰을 연결로 추가함으로써 개선될 수 있다.

5. Preliminary Evaluation of ChatGPT
- 디코더 전용 모델인 ChatGPT가 공개되었으며, 상식적인 지식과 추론 능력에서 놀라운 능력을 보였다.
- 따라서 우리는 ChatGPT의 온톨로지 지식을 이해하기 위해 추가적인 예비 평가를 수행한다.
- ChatGPT는 디코더 전용 모델이므로, 섹션 3에서 설명한 것과는 다른 방법을 사용한다.
- 마스크를 채우는 대신, 우리는 ChatGPT에게 20개의 후보 선택지로 구성된 객관식 질문을 직접 묻고 정확도를 평가한다.
5.1 Probing for Memorization Ability
- 골드 라벨을 정답으로 사용하고 부정적인 후보 19개를 무작위로 추출하여 선택지 세트 형성
- 예를 들어 TP 작업을 살펴보면, "라이오넬 메시의 유형은 무엇입니까? (a) 축구 선수, (b) 작품, (c) ..."와 같은 프롬프트로 GPT-3.5-turbo API에 쿼리를 보내고 나머지 후보들을 이어서 사용한다.
- TP 및 SCO 작업에 대해 500개의 테스트 케이스를 샘플링하고, 다른 작업에 대해서는 완전한 테스트 세트를 사용합니다.
- 비교를 위해, 일반적으로 온톨로지 지식을 기억하고 이해하는 데 경쟁력 있는 BERT-base-uncased를 사용하여 수동 프롬프트와 동일한 후보 집합을 사용하여 실험을 수행한다.
- 제시된 결과인 표 5에서 ChatGPT가 온톨로지 지식과 관련된 대부분의 기억 작업에서 BERT-base-uncased를 능가한다는 것을 나타냅니다.
- ChatGPT는 대규모의 대화형 데이터를 사용하여 pre-training되었으며, 다양한 문맥에서의 문장 생성에 특화되어 있기 때문?

5.2 Probing for Reasoning Ability
- GPT-3.5-turbo API에서 임베딩을 입력할 수 없기 때문에, 우리는 의미를 전달하지 않는 단일 문자인 X와 Y를 pseudowords를 대신하여 사용한다.
- 그러나 ChatGPT는 이러한 pseudowords에 대한 충분한 문맥 없이는 유효한 예측을 생성할 수 없다.
- 따라서 P2는 pseudowords의 특성이나 관계를 설명하기 위해 명시적으로 제공되어야 한다.
- 그런 다음, 우리는 P1의 다른 형태로 20개의 후보 중 올바른 답을 선택하는 ChatGPT의 능력을 탐구합니다.
- 이 작업에서, 모델이 기억 작업에서 주어진 20개의 후보 중에서 올바른 답을 올바르게 선택할 수 있다면, P1은 기억된 것으로 간주됩니다.
- 표 6에서 제시된 결과를 기반으로, ChatGPT는 P1이 암시 적으로나 명시 적으로 주어진 경우 모두 높은 정확도를 보여주어 온톨로지 지식을 추론하고 이해하는 능력이 강력하다는 것을 시사합니다.
- ChatGPT가 기억하는 지식이 다른 모델과 크게 차이나기 때문에 (5.1절에서 보여진 것과 같이), P1이 주어지지 않거나 암시 적으로 주어진 경우에는 성능을 직접 비교할 수 없습니다.
- 따라서, P1이 명시 적으로 주어진 경우에만 ChatGPT와 BERT-base-uncased를 비교합니다.
- 결과는 ChatGPT가 명시적 추론에서 BERT-base-uncased보다 크게 우수하다는 것을 보여줍니다 (97.1% 대 88.2%).
6. Related Work
- Knowledge Probing : 대규모 말뭉치에서 사전 훈련을 받은 후, 언어 모델이 다양한 지식을 부호화하는 것으로 나타났다.
- 최근 연구들은 PLM(Pretrained Language Models)을 언어 지식(Vulic et al., 2020; Hewitt and Manning, 2019), 세계 지식(Petroni et al., 2019; Jiang et al., 2020; Safavi and Koutra, 2021), 실용적 지식(Huang et al., 2022) 등을 클로즈 프롬프트(Beloucif and Biemann, 2021; Petroni et al., 2020)나 선형 분류기(Hewitt and Liang, 2019; Pimentel et al., 2020)와 같은 방법을 통해 조사했다.
- PLM 내에서 폭넓은 지식을 탐구했음에도 불구하고, 이전의 지식 탐사 작업은 체계적으로 온톨로지 지식을 연구하지 않았습니다.
- 이 간극을 극복하여 PLM이 온톨로지 지식에 대해 얼마나 잘 알고 있는지와 표면 형태 뒤의 의미를 조사했습니다.
- Knowledge Reasoning : 추론은 기존 지식과 규칙을 활용하여 새로운 결론을 도출하는 과정이다.
- PLM(Pretrained Language Models)을 사용하여 산술 (Wang et al., 2022; Wei et al., 2022), 상식 (Talmor et al., 2019, 2020; Wei et al., 2022), 논리 (Creswell et al., 2022) 및 상징적 추론 (Wei et al., 2022)과 같은 추론 작업을 수행하는 데 진전이 보고되었습니다.
- 이러한 능력은 downstream 데이터셋에서 분류기를 세밀하게 조정함으로써 (Talmor et al., 2020) 또는 적절한 프롬프트 전략을 사용함으로써 (예: CoT(Chain of Thought) 프롬프팅 (Wei et al., 2022) 및 생성된 지식 프롬프팅 (Liu et al., 2022)) 발휘될 수 있습니다.
- 이는 부정에 둔감하다는 점 (Ettinger, 2020; Kassner and Schütze, 2020)과 같은 어휘 단서에 과민하다는 점 (Helwe et al., 2021; Misra et al., 2020)에도 불구하고, PLM이 암시적 지식과 명시적 자연어 문장에 대한 추론을 할 수 있는 잠재력을 가지고 있다는 것을 시사합니다.
- 본 연구에서는 PLM이 암시적 온톨로지 지식을 활용하여 논리적 추론을 수행하는 능력을 조사하여, 기억을 넘어서 의미를 이해하는지를 확인하였습니다.
7. Conclusion
- 본 연구에서는 PLM(Pretrained Language Models)이 온톨로지 지식을 부호화하고 표면 형태를 넘어 의미를 이해하는지 체계적으로 조사했습니다.
- 실험 결과, PLM은 암시적 지식을 따르는 온톨로지 entailment 규칙에 따라 일부 온톨로지 지식을 기억하고 추론할 수 있으며, 이는 PLM이 온톨로지 지식에 대한 인식과 이해 수준을 가지고 있다는 것을 시사합니다.
- 그러나 기억과 추론의 정확도가 완벽하지 않으며, 페러프레이즈된 지식을 처리하는 데 어려움이 있음이 확인되었습니다.
- 이러한 관찰 결과는 PLM의 온톨로지 지식과 이해가 제한적이라는 것을 나타냅니다.
- 따라서 온톨로지 지식과 이해를 향상시키는 것은 언어 모델의 미래적인 연구 목표가 될 수 있습니다.
- ChatGPT를 탐구한 결과, 기억과 추론 작업 모두에서 성능이 향상되어 더 나은 발전 가능성을 시사합니다.
- Limitations : 우리 연구의 목적은 PLM(Pretrained Language Models)의 온톨로지 지식을 평가하는 것입니다.
- 그러나 현실 세계에는 많은 클래스와 속성이 존재하며, 우리는 그 중 일부만 다루고 있습니다. 따라서 실험 분석을 위한 데이터셋의 범위는 제한적입니다.
- 실험 결과, 모델이 얻은 지식과 이해는 완벽하지 않으며, 온톨로지 지식 기억과 이해 모두에서 개선할 여지가 있으며, 파라프레이징을 처리하는 더 나은 능력이 필요함을 나타냅니다.
- 이러한 관찰 결과는 기존의 사전 훈련 방법을 개선하여 언어 모델이 관련 작업에서 더 나은 성능을 발휘할 수 있도록 고민해야 한다는 것을 시사합니다.
'부스트캠프' 카테고리의 다른 글
Active Retrieval Augmented Generation (0) | 2024.01.28 |
---|---|
LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models (3) | 2024.01.21 |
[논문 읽기] Fine-Tuning Pre trained Language Models:Weight Initializations, Data Orders, and Early Stopping (0) | 2023.12.25 |
[논문 읽기] RoBERTa: A Robustly Optimized BERT Pretraining Approach (0) | 2023.12.18 |
[Boostcamp] 6주차 회고 (0) | 2023.12.15 |