数据漂移的分类

  

  第一种 叫做特征漂移或者是协变量漂移,它指的是在 $p(y|x)$ 不变的情况下,$p(x)$ 变化的情况。 比如我训练模型的时候用的主要是中年人的数据,但是在线上的主要用户却是青少年居多,那么很可能我没有那么好的数据

  第二种叫做 label shift 也经常被叫做 prior shift, 顾名思义,就是 $y$ 的概率进行了漂移,但是 $p(x|y)$ 却没怎么变化。这里通常在做一些反因果的推断的时候比较又用比如 $x$ 是疾病的表现,$y$ 是疾病,那么疾病导致表现就可以认为是不变的,但是如果我们看到某一个疾病的出现更多了,那么可能是有什么突然的密集感染等等。

  第三种就是 $p(y|x)$ 改变了,$p(x)$ 却没怎么变,这一类 shift 被称作 concept shift,概念漂移。比如说同样是搜索武汉这个城市,在疫情前爆发前和疫情爆发后,和在疫情被控制之后,大家想看到的内容是不一样的。

 

 

 

 https://www.bilibili.com/video/BV1Ta411Z71A/?spm_id_from=333.999.0.0&vd_source=3ed772508ddeb48d236a6a9feb8a75a3

 

 https://www.bilibili.com/read/cv18322985

 

 

==================