It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset

18 Oct 2023 

 본 문서에서는 EMNLP 2023에 게재될 논문 “It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset”을 소개합니다. 논문의 상세 정보는 아래와 같습니다.


Math Word Problem (MWP)

수학 서술형 문제 풀이 과제, 즉 MWP는 주어진 수학 서술형 문제를 푸는 과제입니다.  밑의 그림은 수학 서술형 문제의 예시를 보여줍니다.

문제(question)는 자연어 문제, 기호, 수식을 포함합니다. 답(answer)은 고유한 숫자 또는 문자열 값을 나타냅니다. 그리고 중간 해답(intermediate solution)은 추론 단계를 보여주며 다양한 형식이 될 수 있습니다. 따라서 이 MWP 과제는 자연어 문장과 논리적 추론에 대한 깊은 이해가 필요한 도전적이고 흥미로운 과제입니다.

Multi-aspect Diversity

대규모 언어 모델(large language model)은 다양한 추론 작업에서 괄목할 만한 성능을 보여주고 있습니다. 특히, GPT-4의 도입으로 대표적인 MWP 벤치마크로 널리 사용되는 GSM8K 데이터 세트에서 92%라는 놀라운 정확도를 달성했습니다.  이러한 결과로 인해 LLM은 수학적 추론에 탁월한 능력을 발휘한다는 믿음이 생겼습니다.

그러나 우리가 제시하는 데이터셋 DMath에서는 정확도가 크게 떨어집니다. DMath의 문제는 위의 그림에서 표시된 다른 데이터셋와 마찬가지로 초등학교 수준에 맞추어져 있지만 여러 측면의 다양성이 더 높기 때문에 낮은 성능을 보입니다. 이 논문에서, 저희는 수학 서술형 문제 데이터셋이 갖춰야 할 네 가지 다양성을 정의하고 이를 확장하는 데 중점을 두고 있습니다.


본 논문에서 정의한 4가지 다양성은 다음과 같습니다.

1) 문제 유형의 다양성

문제 유형을 정의하고, 다양한 수학 개념을 다루기 위해 미국과 한국의 초등학교 수학 교육 지침을 참고했습니다. 이를 통해 중요한 네 가지 추론 능력을 산술(arithmetic), 관계(relationship), 기하(geometric), 가능성(possibility)으로 구분합니다. 산술적 추론(arithmetic reasoning)은 네 가지 기본적인 수학 연산을 포함합니다. 관계 추론(relationship reasoning)은 다양한 현상에서 사물 간의 관계를 파악하는 능력을 필요로 합니다. 기하 추론(geometric reasoning)은 기하학적 도형의 성질과 관계를 이해하는 능력을 필요로 합니다. 가능성 추론(possibility reasoning)은 불확실성을 수치로 표현할 수 있는 능력이 필요합니다. 이러한 추론 분류에 맞추어 산술 추론의 산술연산(ARI), 관계 추론의 비교(COM)와 대응(COR), 기하 추론의 기하(GEO), 가능성 추론의 가능성(POS)의 5가지 문제 유형을 정의했습니다.


2) 어휘 사용 패턴의 다양성

데이터셋의 어휘 사용 패턴이 매우 다양하다는 것을 나타내는 높은 CLD 점수를 획득했습니다. 이는 DMath가 사람이 직접 만든 문제로만 구성되어 있기 때문입니다. 따라서 자연어와 표현 트리(expression tree)에 대한 언어적 다양성이 다른 데이터에 비해 높습니다. 또한, BLEU 점수를 사용하여 시드 샘플과 증강 샘플 간의 유사성을 검증하고 유사성이 높은 일부 샘플을 제거합니다. 시드와 증강 문제 간의 BLEU 점수 통계는 밑의 그림에서 볼 수 있습니다.

3) 언어의 다양성

 DMath는 영어와 한국어, 즉 두 개의 언어로 이루어져 있습니다. 기존 데이터셋은 주로 영어와 중국어 등 단일 언어를 기반으로 합니다. 따라서 본 논문의 데이터셋은 언어가 LLM에 미치는 영향을 검증하는 데 유용합니다. 밑의 표는 각 언어별 성능을 나타냅니다. 영어와 한국어 문제가 내용은 동일하지만 서로 다른 언어로 표현되어 있음에도 불구하고 영어 기반 프롬프트 방식이 한국어 기반 프롬프트 방식보다 더 나은 성능을 보이는 것을 관찰할 수 있습니다. 이상적으로는 언어 이해가 수학적 추론과 무관하다면 동일한 정확도를 보여야 합니다.

4) 중간 풀이 과정의 다양성

 DMath는 표현식 트리(expression tree)와 Python 코드의 두 가지 솔루션 형태를 제공합니다.  밑의 그림은 예시를 보여줍니다.

솔루션 형태는 모델 성능에 영향을 미치지만, 기존 연구에서는 이에 초점을 맞추지 않았습니다. 우리의 실험은 문제에 따라 특정 해법 형태가 선호된다는 것을 보여줍니다.

Data Construction

 DMath는 수집(Collection),  증강(Augmentation), 주석(Annotation), 검증(Validation), 번역(Translation)의 순서로 구축되었습니다. 자세한 내용은 논문을 참고해주시길 바랍니다. 밑의 그림은 전체 과정을 요약한 것입니다.

Experimental Results

다음 내용은 DMath를 통해 LLM의 수리적 추론 능력을 분석한 결과입니다.

미세조정(Fine-tuning) 접근과 프롬프팅(Prompting) 접근을 사용하였습니다. 미세조정 접근에 사용된 모델은 RoBERTa, GPT-2, CodeGPT이고, 프롬프팅 접근에 사용된 모델은 GPT-3, ChatGPT, GPT-4입니다. 또한, zero-shot, zero-shot CoT, few-shot CoT, PAL 프롬프팅 방법을 사용하였습니다. 사용된 평가지표(metric)은 답 정확도(Acc., Answer accuracy)입니다.


1) 각 모델마다 취약한 문제 유형이 다름

표는 MWP 모델에 대한 정확도 비교 결과를 보여줍니다. 주목해야 할 가장 중요한 점은 가장 낮은 성능을 보이는 문제 유형이 주어진 MWP 모델마다 다르다는 것입니다. 도형(GEO)와 가능성(POS)는 모두 세계 지식(world knoweldge)에 의존하기 때문에 미세 조정 접근 방식의 성능에 영향을 미칩니다. 광범위한 세계 지식으로 훈련된 프롬프트 접근 방식을 사용하는 모델은 도형(GEO)에서 더 나은 성능을 보이지만 가능성(POS)의 경우 경우의 수와 같은 문제에서 성능이 떨어집니다.


2) 각 문제마다 선호되는 prompt type이 다름

위 표는 표현식 형태(expression form)별 MWP 모델의 정확도 비교 결과를 보여줍니다. NL 프롬프트는 자연어 프롬프트를 의미합니다. 파이썬 코드 프롬프트의 경우 PAL 방식을 사용합니다. 여기서는 문제에 따라 특정 프롬프트 유형이 선호되는 것을 보여주고 있습니다. 미세 조정 접근 방식에서는 출력 시퀀스의 길이가 가장 큰 영향을 미칩니다. 그리고 프롬프트 방식에서는 각 중간 풀이 과정의 특징이 선호도에 영향을 미칩니다.

Conclusion

마지막으로 결론을 말씀드리도록 하겠습니다. 이 논문에서는 초등학교 수준의 수학 서술형 문제 10,000개 모음인 DMath를 제안했습니다.  DMath는 주로 문제 유형(problem type), 어휘 사용 패턴(lexical usage pattern), 언어(language), 표현 형식(expression form)에 대한 다각도의 다양성을 추구했습니다. DMath 및 기타 데이터셋에 대한 다양한 MWP 모델을 평가한 결과, 선행 연구에서는 MWP 모델의 논리적 추론 능력이 주로 산술적 추론에 집중되어 있음을 관찰했습니다. 따라서 모델의 DMath는 다양한 추론 능력을 검사하는 데 더 도움이 됩니다.