김지우 박사과정, 김영빈 석사과정, 백일웅 학사과정 EMNLP 2023 국제 학술대회 논문 채택

08 Oct 2023

DIAL 연구실 소속 인공지능학과 김지우(박사과정, 제1저자), 김영빈(석사과정, 제2저자) 학생, 백일웅(학사과정, 제3저자) 학생, 박진영 (제4저자) 교수, 이종욱(교신저자) 교수가 참여한 “It Ain't Over: A Multi-aspect Diverse Math Word Problem Dataset” 논문이 자연어처리 분야 최우수 국제 학술대회인 The 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP)에 최종 게재가 승인되었으며 오는 12월에 발표될 예정입니다.


본 연구는 LLM(Large Language Model)의 수학적 추론 능력을 분석하고, 이를 개선하기 위한 새로운 10K 데이터셋 DMath (Diverse Math Word Problems)를 제안합니다. 수학 문장형 문제 (MWP, Math Word Problem) 과제는 자연어 모델에게 자연어 문장에 대한 깊은 이해와 논리적 추론을 요구하는 복잡하고 흥미로운 과제이자 자연어 모델의 추론 능력을 평가하기 위해 주로 사용되어 온 과제입니다. 최근 들어 거대 언어 모델(LLM)이 등장하면서 기존 수학 문장형 문제 벤치마크에서 높은 성능을 거두었으며, 이를 통해 LLM이 좋은 수학적 추론 능력을 가지고 있다고 알려져 있습니다. 그러나 이는 제한적인 벤치마크로 인한 결과로 본 논문에서는 기존 벤치마크의 낮은 다양성을 지적하며 이를 높여야 함을 보입니다. 본 논문은 수학 문장형 문제 데이터셋이 가져야 하는 다양성을 총 네 가지로 정의합니다. 이는 추론 유형(problem types), 어휘 사용 패턴(lexical usage patterns), 언어(languages), 그리고 중간 풀이 과정(intermediate solution forms)입니다. 추론 유형을 정의하기 위해 본 연구는 미국과 한국의 수학 교육 과정을 참고하였고, 산술 연산(arithmetic calculation), 비교(comparison), 상관관계(correspondence), 도형(geometry), 확률(possibility)로 정의하였습니다. 이전 연구들은 산술 연산에 집중하였기 때문에 다른 유형의 수학적 추론 능력에 대해 LLM이 어떤 결과를 내보이는지 알려진 바가 적었습니다. 본 연구의 실험 결과 LLM의 추론 능력은 추론 유형에 따라 많은 차이를 보입니다. 어휘 사용 패턴, 언어, 중간 풀이 과정에 대해서도 높은 다양성을 추구하였고, 이러한 특징으로 인해 DMath는 이전 연구들보다 더 도전적인 데이터셋이라고 볼 수 있습니다. 또한 데이터를 구성하고 구축하는 과정에서 43명의 사람들이 참여했으며, 정교한 검증을 통해 높은 품질을 추구하였습니다. 높은 다양성으로 인해 DMath는 LLM의 다양한 추론 능력을 검사하고 평가하는데 도움이 될 수 있습니다. 관련 데이터는 https://github.com/JiwooKimAR/dmath 에서 확인하실 수 있습니다. 본 논문에 관한 자세한 내용을 알고 싶으시다면, 다음 주소를 참고해주세요. https://dial.skku.edu/blog/2023_dmath 


The math word problem (MWP) is a complex task that requires natural language understanding and logical reasoning to extract key knowledge from natural language narratives. Previous studies have provided various MWP datasets but lack diversity in problem types, lexical usage patterns, languages, and annotations for intermediate solutions. To address these limitations, we introduce a new MWP dataset, named DMath (Diverse Math Word Problems), offering a wide range of diversity in problem types, lexical usage patterns, languages, and intermediate solutions. The problems are available in English and Korean and include an expression tree and Python code as intermediate solutions. Through extensive experiments, we demonstrate that the DMath dataset provides a new opportunity to evaluate the capability of large language models, i.e., GPT-4 only achieves about 75% accuracy on the DMath dataset.