Predicting MBTI For Internet Users

논문의 목적

별도의 복잡한 심리검사 없이 인터넷에 남겨진 글만으로 사용자의 MBTI를 예측하는 것.

차별점

하이퍼 파라미터 튜닝에 그리드 서치와 강화학습 기법을 혼합한 지능형 옵티마이저를 사용 했다는 점.

아쉬운 점

SVM에서 linear kernel을 사용하면 하이퍼 파라미터가 1개뿐이라 하이퍼 파라미터 튜닝을 1개만 한 것이 아쉬웠다. 지능형 옵티마이저는 다양한 하이퍼파라미터에도 사용할 수 있기에 추후 다른 데이터와 하이퍼 파라미터가 많은 다른 모델을 이용하여 적용을 해볼예정이다.

기존대비 얼마나 효과가 있는지?

기존의 연구들은 4가지타입인 즉 E-I, S-N 등을 이진 분류하는데 그쳤다. 하지만 그래프를 보면 I다음엔 S보다 N이 많이나오는 등 서로의 특성은 독립이 아니다. 이 연구는 4가지 특성을 이진분류 하는 것이 아닌 16가지의 클래스를 한번에 예측하는 방법을 제안하였고 4가지 특성을 이진분류하여 합친 결과보다 뛰어난 성능을 보였다.

장/단점은 무엇인지?

장점:

하이퍼 파라미터 튜닝 부분에서의 장점은 그리드 서치로 모든 범위를 탐색하는 것은 너무 많은 비용이 든다. 강화학습을 섞은 이 방법을 사용하면, 넓은 범위에서 그리드 서치로 1차 탐색 후 좁은 범위에서 강화학습으로 2차 학습을 진행함으로써 좀 더 적은 비용으로 효율적으로 하이퍼 파라미터를 찾을 수 있다.

단점:

Local maximum에 빠질 수 있다. 그리드 서치로 전 범위를 탐색했다면 발견했을 Global maximum을 놓칠 수 있다. (정확도를 기준으로 하므로 maximum) 다만 전 범위를 탐색했다면 어마어마한 비용 감당해야하지만 이 방법은 적은 비용으로 적당한 수준의 Local maximum을 얻는 방식으로 타협 가능하다.

이 방법론이 실제 어디에 활용될 수 있는지?

MBTI 데이터를 기준으로 한다면 OTT서비스의 마케팅, 기업체 채용시 자기소개서 등을 통한 MBTI 추정 등에 쓰일 수 있다.'

하이퍼 파라미터 튜닝법을 기준으로 한다면, 하이퍼 파라미터 튜닝이 필요한 모든 데이터에 적용할 수 있다고 생각한다.

본 연구의 방법론에 문제점은 없다고 생각하는가? / 한계점은 무엇인가?

본 연구는 영어로 된 문장들을 사용하여 진행되었다. 하지만 한글과 영어의 텍스트 처리에 많은 차이가 있으며 한글의 텍스트 처리가 훨씬 어렵다. 예를들어 영어는 단어 단위로 띄어쓰기가 이루어져서 띄어쓰기를 기준으로 토큰화를 진행해도 되지만 한글의 경우 조사, 어미등이 붙기 때문에 처리 과정 자체가 다르다. 즉, 본 연구의 프로세스로 한글 데이터에 곧바로 적용하는 것은 어렵다. 한글에 적용하는 연구는 추후 진행해볼 예정이 있다.

추후 연구 방안

현재의 모델은 단어들의 순서는 전혀 고려하지 않은 모델인데 (예를들어 "나는 외향적인 성격이다"와 "외향적인 나는 성격이다" 같은 데이터) 추후 단어들의 순서와 전후문맥들을 고려한 모형으로 발전시키고 싶습니다.


표제어 추출(Lemmatization)이란?

눈으로 봤을 때는 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이겠다는 것입니다.

불용어란?

예를 들어 I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우가 있습니다. 이러한 단어들을 불용어(stopword)라고 합니다

TF-IDF 벡터화란?

TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단

지능형 옵티마이저에 관해서?

그리드 서치로 1차적으로 넓은 볌위에서 최적값이 존재할 범위를 추리고, 이후 좁은 범위에서 강화학습을 통한 최적값 찾기의 과정이 "자동적"으로 일어나기에 지능형 옵티마이저라고 명명하였다. 기존의 한가지 방법을 사용할 때보다 비용이 적어 효율이 높다.

DQN 이란?

강화학습 : 어떤 상태에서 어떤 행동을 취하는 것이 가장 큰 보상을 받을 수 있는지. 이를 위해 Q 함수를 사용하는데

간단한 비유로 게임을 할 때 Q라는 사람을 옆에 두고 매번 Q의 의견을 물어서 플레이에 참고하는 것.

이러한 Q함수를 깊은 신경망을 통해 구성한 것이 DQN이다.