자연어 처리 기반의 추천시스템을 활용한 Demand Forecasting및 Trend Forecasting 방법론

이경전 , 정백 , 김수현 , 이건호 , 백태훈. (2022). 자연어 처리 기반의 추천시스템을 활용한 Demand Forecasting및 Trend Forecasting 방법론. 한국지능정보시스템학회 추계학술대회.

Abstract

추천시스템을 통해 추천된 Product들은 User가 구매할 확률이 높은 Product를 예측하여 추천하는 것으로, 인공지능 시스템이 도출한 미래 예측 데이터로 볼 수 있다. AI System Output으로써 추천된 Product를 빈도분석한다면 상품별 수요 예측이 가능할 것이다. 또한, Product명을 자연어를 그대로 학습시킨 자연어 처리 기반의 추천시스템을 활용한다면, AI System Output의 추천된 Product명을 의미 있는 단어로 수동 필터링하여 상품 구매 트렌드를 예측할 수 있을 것이다. 본 연구에서는 Product명을 학습할 수 있도록, Product명 확인이 가능한 결제사 데이터를 사용하였다. 그리고 User가 구매한 Product명을 학습하는 자연어 처리 기반의 추천시스템으로, 미래 예측 데이터를 도출하여 Demand Forecasting 및 Trend Forecasting 방법론을 실험하였다. 먼저, 데이터를 1년 단위, 월 간격으로 학습하여 월단위로 미래 예측 데이터를 도출하였다. 21년 6월부터 22년 5월 데이터를 활용한 추천시스템의 결과는 22년 6월 구매 예측 데이터로, 21년 7월부터 22년 6월 데이터를 활용한 추천시스템의 결과는 22년 7월 구매 예측 데이터로 볼 수 있다. 이처럼 월단위로 도출된 상품별 구매 예측 데이터를 빈도분석을 하여 Demand Forecasting으로 적용할 수 있다. 예를 들어, 신제품으로 출시된‘숯불순살치킨’의 미래 예측 데이터로 빈도분석 할 때, 6월 구매 측 8건, 7월 12건, 8월 14건으로 수요를 예측할 수 있고, 이는 신제품에 대한 수요가 점차 증가될 것이라고 판단할 수 있다. 또한, 자연어 처리 방식으로 학습하고 도출된 Product명을 의미 있는 단어로 필터링하여 검색할 경우, Trend Forecasting으로 적용할 수 있다. 예를 들어, 여름철 상품 트렌드 분석을 위해 ‘ICE’ 또는 ‘아이스’가 들어간 상품을 필터링 하여, 미래 예측 데이터를 빈도분석한 결과, 6월 32건, 7월 57건, 8월 60건으로 더운 여름철 점차 아이스와 관련된 상품의 수요가 증가하는 것을 확인할 수 있었다. 지금까지의 추천시스템은 대부분 B2C의 Personalized Recommender System으로써 User에게 상품을 추천하는 시스템으로만 사용되어왔다. 그러나 본 연구에서는 추천된 Product를 AI System Output으로 빈도분석하여, B2B Service의 Demand Forecasting 및 Trend Forecasting으로도 활용이 가능함을 확인하였다. 특히, Product명을 그대로 학습하는 자연어 처리 기반 시스템은, Product명을 의미 있는 단어로 분석하여 다양한 서비스를 제공할 수 있다는 이점을 확인할 수 있었다.

Policy Perceptron: 정책 분류 자동화를 위한 인공지능 모형 개발

이경전 , 황보유정 , 정백 , 유지웅 , 배성원 , 임채원. (2022). Policy Perceptron: 정책 분류 자동화를 위한 인공지능 모형 개발. 한국행정학회 하계학술발표논문집 (pp. 2593-2606).

Abstract

정책 변동이 점진적인지 아니면 급격하게 일어나는 것인지에 대한 논의가 오랫동안 이어져 온 것과 관련하여, 과거 공공의제 변동의 특성을 연구함과 동시에 글로벌 공공정책 비교를 통해 협력 체계를 구축하는 비교 아젠다 프로젝트(Comparative Agendas Project, CAP)가 진행되어 왔다. 비교 아젠다 프로젝트의 참여국은 공통기준인 거시경제, 교육, 보건 등의 주요 의제(Major Topic) 23개와 하위 의제(Subtopic) 213개로 범주를 마련해왔다. 한국에서도 1987년 이후 2019년까지 공중 아젠다, 미디어, 입법부, 행정부에 관한 데이터 분석과 구축을 정책 분석가의 수작업으로 진행해왔는데, 수작업으로 진행되는 정책 분류작업은 정책 전문가에 따라 다르게 해석될 수 있으며, 상황에 따라 단순 휴먼 에러가 발생할 수 있기에 정책 분류작업에서 실수를 줄일 수 있는 방법이 필요하다. 본 연구는 현재까지 전문가의 수작업으로 구축된 데이터베이스를 기반으로 인공지능 알고리듬을 활용하여 정책 분류 자동화를 지원하는 딥러닝 모델을 개발하는 것을 목표로 한다. 딥러닝 모델 중 자연어 기반 KoBERT를 사용하여, 정책 분류 자동화를 위한 인공지능 모형인 Policy Perceptron을 개발하였다. 퍼셉트론(Perceptron)은 인공 신경망 모형의 하나로서 딥러닝의 시초가 되는 알고리듬으로, 본 연구는 인공지능 모형 Policy Perceptron을 개발함으로써 정책 분류의 첫 알고리듬으로서의 의미를 가진다. 본 연구의 방법은 총 3단계로, ① 기존 구축된 비교 아젠다 데이터의 품질 향상을 위해 크롤링 기법을 통해 데이터를 추가한 DB 구축 단계, ② 알고리듬 정확도 향상을 위한 데이터 전처리 단계, ③ Policy Perceptron 모형 구축 및 성능 확인 단계로 구성된다. 먼저, 행정, 입법, 미디어 데이터를 통합하여 최종 데이터 셋을 구성하고, 입법과 미디어 데이터의 경우는 각각 국회 의안정보시스템 홈페이지와 조선일보 홈페이지에서 크롤링 기법을 통해 데이터를 추가 획득하였으며, 수집된 데이터를 통해 전처리 단계를 수행하였다. Policy Perceptron의 정확도 향상을 위한 불용어 처리 및 텍스트 요약 수행을 위해 카카오 브레인에서 공개한 통합 자연어 프레임워크인 Pororo(Platform of Neural Models for Natural Language Processing)를 사용하여 텍스트 요약을 진행하였다. Policy Perceptron의 적절한 학습을 위하여 데이터의 수가 10개 미만인 Subtopic은 제외하는 방식을 사용하였다. 최종적으로 Major Topic은 23개, Subtopic은 184개로 확정되었으며, Major Topic을 분류하고 다음으로 Subtopic을 분류하는 2중 분류 모델을 설계하였다. 1차 Policy Perceptron은 전체 데이터에 Major Topic을 레이블링으로 학습하고 2차 Policy Perceptron은 전체 데이터를 Major Topic에 따라 분류하여 각각 학습한다. 최종적으로 구현된 Policy Perceptron의 성능을 평가하기 위해서, 인공지능 성능 평가에 가장 기본적으로 사용하는 정확도(Accuracy)로 확인하였다. Top-1의 경우 정확도가 62.4%로 나타났으며, Top-3의 경우 71.6%의 정확도를 보였다. 정책 분류 자동화 인공지능 모형 개발은 동일한 모델로 정책을 분류할 수 있다는 데에 큰 의의가 있다. 본 연구에서 개발한 Policy Perceptron 모델은 향후 사람의 정책 분류 의사결정을 돕는 보조 시스템으로 활용 가능하며, 인공지능이 정책 범주를 제시함으로써 판단 시간을 줄여주고 정책 분류의 생산성을 높여줄 것이다. 더 나아가 정부 정책 외에도 지방자치 정책 등 더 다양한 분야의 정책을 분류하고 비교·평가함으로써 국정운영의 방향을 모색하는데 기여할 수 있을 것이다.

악성 댓글 분류 시스템 모니터링 연구: 네이터 클린봇 분석

유지웅, 황보유정, 손동성, 이경전, 악성 댓글 분류 시스템 모니터링 연구: 네이터 클린봇 분석, 2020 한국지능정보시스템학회 춘계학술대회, 2020.

Abstract

인공지능 기기의 오작동 및 편향성 문제 등 여러 부정적 영향에 대해 우려하는 목소리가 적지 않다. 본 논문에서는 네이버의 악성 댓글 분류기 ‘클린봇’을 분석하여 안정적으로 악성 댓글을 분류하는지 확인한다. 네이버 뉴스에서 댓글과 답글을 포함한 90,541건의 댓글을 수집하였고, 악성 댓글 분류 시스템 모니터링 절차에 따라 분석하여 안정성을 확인하였다.
수집된 댓글 중 클린봇에 의해 차단된 댓글은 총 1802건이다. 하지만 연구원들이 직접 분류한 결과 False Positive는 2864건으로 클린봇이 882건의 악성 댓글을 차단하지 못한 것을 알 수 있었다. 또한 False Negative는 8건이 잘못 차단되었다. 즉, 클린봇은 댓글을 대체로 과소하게 차단한다고 추측할 수 있다. Verification단계에서는 클린봇이 어떤 모델을 사용하고 있는지 추론하였으며, 같은 댓글임에도 불구하고 다른 결과가 나타나는 것을 통해 확정적인 규칙 기반 모델을 사용하지는 않은 것으로 판단하였다. 모델의 안정성을 평가하기 위해 댓글에서 사용된 비속어를 수집하여 비속어 사전을 구축하고, 이를 기반으로 변형된 비속어를 클린봇모델이 안정적으로 차단했는지 확인한 결과 변형된 비속어를 포함하는 악성 댓글의 차단율은 약 26.83%로 나타났다.