시계열을 바라보는 가장 자연스러운 문제 구도는 '각각의 timestep, t 에서 다음 event까지의 시간을 예측하는 것'이다. 

이를 TTE라고 부른다. 

 

그렇지만, 다음 event가 발생하지 않아서 누락된 데이터가 있을 수 있고 이를 censored data라고 한다. 

그럼 이런 censored data분석에 쓰이는 모델이 무엇이 있을까? 

 

sliding box model

TTE를 직접 예측하는 것 대신에, 특정 사건이 t(영역)시점에 발생할 것인지를 예측한다. 

영역내의 사건발생 유무와 확률을 예측할 수 있다. 

 

  • 장점: 단순함, 명확성, 작동원리 이해 쉬움과 유연성(Xgboost나 랜덤포레스트 등 char-level RNN까지 활용가능)
  • 단점: 예측이 유익하지 못함. 예시 -> '30일동안 이벤트가 발생하지 않는다면 예측된 확률이 과연 유효한가?'

sliding box model보다 더 신뢰도가 높고 해석가능한 결과를 얻을 수 있다.

WTTE-RNN

  • 이산형, 연속형 자료에 모두 적함 가능
  • censored data 학습 가능
  • 일시적인 feature와 시간에 따른 변화하는 공변량 이용가능
  • 장기간의 일시적 패턴 학습가능

https://github.com/YBIGTA/Deep_learning/blob/master/ML/wtte/%5B2017.08.12.%ED%86%A0%5DWTTE-RNN%20%EC%A0%95%EB%A6%AC%EC%9E%90%EB%A3%8C.md

+ Recent posts