이종욱 교수, 2022년 4월 전자정보연구정보센터(EIRIC) “라이징스타” 선정
14 Apr 2022
이종욱 교수가 2022년 4월 전자정보연구정보센터(EIRIC) 라이징스타에서 소개되었습니다. “라이징스타”는 국내외의 전자정보 분야의 우수 연구자를 선별하며, 연구자의 연구 경험담 및 관련 분야 동향까지 연구활동에 대한 전반적인 내용을 인터뷰합니다.
EIRIC 라이징스타 바로가기 -> https://www.eiric.or.kr/manpower/rising_view.php?Seq=41
아래는 인터뷰 일부입니다.
▶ 간략한 소개 부탁드립니다.
성균관대학교 소프트웨어학과 부교수로 재직 중인 이종욱입니다. 저는 2012년도에 포항공과대학교에서 컴퓨터공학 박사학위를 받고, 펜실베니아 주립대학교에서 박사후연구원으로 2년 정도 있었습니다. 이후에는 한국외국어대학교 컴퓨터공학과에서 조교수로 2년 정도 재직하다가 2016년부터 성균관대학교 소프트웨어학과로 옮겨 부교수로 재직 중에 있습니다.
▶ 주요 연구 분야에 대한 소개 부탁드립니다.
제가 주로 연구하고 있는 분야는 추천과 검색입니다. 추천과 검색은 개인화 기술과 밀접하게 관련이 있는데요. 수많은 데이터 중에서 사용자가 원하는 소량의 정보를 효과적으로 찾을 수 있도록 하는 기반 기술이라고 볼 수 있습니다. 검색은 흔히 말하는 웹 검색엔진을 떠올리면 됩니다. 사용자가 어떤 키워드 형태로 질의를 입력했을 때 그 질의에 맞는 문서를 찾아내는 것이 검색의 목적이라고 할 수 있습니다. 예를 들면 ‘성균관대 맛집’을 검색했을 때, 이 키워드와 관련된 수많은 문서 중에서 소량의 적합 문서를 순위화하여 효과적으로 제공할 수 있어야 합니다.
추천의 경우는 사용자가 본인이 무엇을 원하는지를 명시적으로 표시하지 않습니다. 가령 내가 어떤 맛집을 찾는다고 했을 때 어떤 특정한 맛집을 찾겠다는 것을 명시적으로 지정하지 않고 ‘나는 그냥 맛집을 찾고 싶은데 알아서 찾아달라’는 암시적 요구를 하면 추천 시스템은 사용자의 과거 로그들을 활용해서 사용자의 취향을 판단하고, 그 취향에 맞게 주어진 문맥 안에서 의미 있는 소량의 정보를 제공하는 것을 목적으로 합니다. 이처럼 추천시스템은 사용자가 무엇을 원하는지를 구체적으로 표시하지 않기 때문에 검색보다는 어려운 문제일 수 있습니다. 하지만 사용자 본인이 정확히 무엇을 원하는지 모르는 경우도 꽤 많아서 추천 결과가 사용자에게 100% 만족을 주지 못하더라도 어느 정도의 만족도를 높여 주기만 하면 마치 시스템이 나를 알아주는 친구처럼 친밀감도 느낄 수 있고, 특히 추천 결과가 생각보다 유의미하면 시스템에 대한 만족도가 크게 상승할 수 있는 이점이 있습니다. 이와 같은 특성으로 최근에는 추천시스템에 대한 연구도 많이 진보하고 있고, 특히 산업계에서 활발하게 활용이 되고 있습니다.
이 외에도 저희 연구실에서 진행하는 연구들이 몇 가지 더 있습니다. 대표적으로 자연어처리 관련해서도 연구를 진행하고 있습니다. 사실 자연어처리는 검색 기술과 관련이 매우 높습니다. 기본적으로 다루고자 하는 데이터가 문서 데이터이다 보니 자연어에 대한 이해가 반드시 필요할 수밖에 없고 그러다 보니 저희 연구실에서도 자연스럽게 자연어처리에 대한 연구를 진행하게 되었습니다. 저희 연구실에서 진행하는 자연어처리 연구는 대표적으로 ‘자연어 형태의 수학 문제 풀이’가 있습니다. 예를 들어 ‘철이와 영희가 각각 과자 3개 과일 5개를 갖고 있을 때 과자와 과일의 합을 묻는 문제’를 단순히 3+5로 덧셈풀이를 하는 것이 아니라 문장의 의미를 이해하고 이를 수식으로 표현해서 풀어내는 방식입니다. 이처럼 자연어 형태의 수학 문제를 컴퓨터가 잘 이해하고 수식 형태로 변환하는 문제를 자연어 수학 문제풀이라고 하며, 이와 관련해서 저희 연구팀이 작년에 정보통신기획평가원 주관의 인공지능 그랜드 챌린지에 출전을 하였고, 운 좋게도 우수한 성과를 얻었으며, 이 대회를 계기로 현재 관련 연구를 중점적으로 진행하고 있습니다. 또 다른 연구 주제는 은유 탐지 연구입니다. 언어학자들에 따르면 사람들은 언어를 사용할 때 독특한 특성을 가지고 있다고 합니다. 대표적으로 은유적인 표현, 반어적인 표현 또는 모순적인 표현을 들 수 있는데요. 예를 들어 ‘발레리나가 백조처럼 춤을 춘다’ ‘토론이 날카로워졌다’ 같은 문장을 과연 컴퓨터가 이해하고 이 문장이 은유적인 표현인지 아닌지를 탐지할 수 있는지에 대한 연구입니다.
마지막으로 다루고 있는 연구 주제는 기계학습입니다. 앞에서도 말씀드린 검색 추천이나 자연어처리 연구를 하다 보니 자연스레 기계학습 또는 딥러닝에 대한 근본적인 이해가 필요하다는 생각이 들었습니다. 그래서 이와 관련해서도 연구를 진행하고 있습니다. 대표적으로 보통 지도학습을 하게 되면 레이블이 주어진 데이터를 가지고 학습을 하는데, 그 레이블을 항상 정답으로 생각하고 학습을 합니다. 하지만 그 레이블조차도 정답이 아닌 경우가 꽤 존재할 수 있습니다. 예를 들면 어떤 주어진 영상이 치타 그림이라고 했을 때 사실 전문가가 아닌 이상 이것이 치타인지 표범인지를 정확하게 구분해내는 게 힘든데 제 영상 분류 문제에서는 치타와 표본을 정확하게 분류하는 것을 요구합니다. 그러다 보니 사람들이 제공하는 레이블의 활용이 필요하며, 그 레이블이 틀리게 제공되는 경우가 꽤 있을 수 있습니다. 그러한 레이블에 어떠한 노이즈가 일부 존재하고 있는 상황에서도 기계학습 모델이 효과적으로 학습을 잘 할 수 있을지에 대한 연구를 진행하고 있습니다. 또한 검색과 추천을 분류 분류로 정의할 경우, 매우 많은 클래스를 가진 분류 분류로 볼 수 있습니다. 이와 같은 극단적인 수의 클래스를 가진 분류 문제에 대해서도 관심을 가지고 성능을 개선하는 방법에 대해서 연구를 진행하고 있습니다. 이와 같은 연구 주제는 검색과 추천에서 다루는 데이터에 흔하게 발생하는 이슈이다 보니 검색과 추천의 정확도 향상을 위해서도 관련이 높다고 생각합니다.