1. 비정형자료에서의 다중척도방법 연구

  • 지금까지의 통계 및 기계학습 방법은 주로 유클리드 자료를 분석하는데 집중
  • 빅데이터 시대가 도래함에 따라 세상에는 그래프, 매니폴드와 같은 비유클리드 자료가 빠른 속도로 축적
  • 비유클리드 자료 : 벡터공간구조를 가지지 않아 그리드나 배열형태로 저장할 수 없는 자료들을 통칭

(유클리드) digits, time-series, audio, acoustics, images, natural language ...

(비유클리드) 3D point cloud data(manifold data), molecules, gene expression data, social networks, e-commerce networks, traffic data ...

  • 비유클리드 자료를 분석하는 것은 매우 중요한 일이지만 분석하는 것은 쉽지않다. 유클리드자료에서 당연하게 정의할 수 있는 개념들이 쉽게 일반화되지 않기 때문.
  • 또한 컨볼루션과 같은 몇가지 수학적 연산들도 일반화 하기 어려워 합성곱 신경망(CNN)과 같은 분석기법을 비유클리드 자료에 곧바로 적용할 수 없다.

  • 유클리드 자료와 다르게 비유클리드 자료는 그리드구조로 정의할 수 없어서 생기는 문제점.

  • 언급한 문제점을 해결하기 위한 접근법 2가지 : 1. 임베딩 기법 2. 스펙트럼 분석

임베딩 기법

  • 비유클리드 자료를 유클리드 자료로 변환한 후에 통계 및 기계학습 방법론을 적용하는 2단계 전략을 취함.

    즉, 기존의 통계 및 기계학습 방법론을 유지한채 비정형자료를 변형하는 기술

  • 임베딩은 그래프 혹은 매니폴드의 형태로 표현된 자료간의 연결정보(link, networks, realations) 및 유사성(distance, similarity)을 최대한 유지하면서 자료를 저차원의 유클리드 공간으로 끼워넣는 기법을 의미

  • 스펙트럼 방법들에 비하여 확장성이 뛰어나고 구현하기 쉬운 장점이 있음

스펙트럼 분석

  • 유클리드 자료에서 정의가능한 개념들 (대역폭, 주파수, 합성곱 등)을 비유클리드공간으로 추상화한 후에 추상화된 개념을 그래프자료에 적용할 수 있는 통계 및 기계학습 방법론을 새롭게 설계하는 전략

    즉, 비정형자료는 유지한 채 통계 및 기계학습 방법론을 재설계하는 기술