시계열을 바라보는 가장 자연스러운 문제 구도는 '각각의 timestep, t 에서 다음 event까지의 시간을 예측하는 것'이다.
이를 TTE라고 부른다.
그렇지만, 다음 event가 발생하지 않아서 누락된 데이터가 있을 수 있고 이를 censored data라고 한다.
그럼 이런 censored data분석에 쓰이는 모델이 무엇이 있을까?
sliding box model
TTE를 직접 예측하는 것 대신에, 특정 사건이 t(영역)시점에 발생할 것인지를 예측한다.
영역내의 사건발생 유무와 확률을 예측할 수 있다.
- 장점: 단순함, 명확성, 작동원리 이해 쉬움과 유연성(Xgboost나 랜덤포레스트 등 char-level RNN까지 활용가능)
- 단점: 예측이 유익하지 못함. 예시 -> '30일동안 이벤트가 발생하지 않는다면 예측된 확률이 과연 유효한가?'
sliding box model보다 더 신뢰도가 높고 해석가능한 결과를 얻을 수 있다.
WTTE-RNN
- 이산형, 연속형 자료에 모두 적함 가능
- censored data 학습 가능
- 일시적인 feature와 시간에 따른 변화하는 공변량 이용가능
- 장기간의 일시적 패턴 학습가능
'데이터분석 > 시계열데이터분석' 카테고리의 다른 글
Linear mixed model(LMM) (0) | 2022.10.18 |
---|---|
시계열 데이터 분석 - 머신러닝, 딥러닝 (0) | 2022.10.12 |
시계열 데이터 분석 - 전통적인 시계열 분석 (0) | 2022.10.12 |