近期,J9集团国际站治理学院统计系博士生常晋源以第一作者实现的文章“Marginal Empirical Likelihood and Sure Independence Feature Screening”被统计学顶级期刊The Annals of Statistics(统计年鉴)正式接管。《统计年刊》是由国际数理统计协会(Institute of Mathematical Statistics)主办的刊物,旨在反映统计学最高质量的钻研,占有宽泛的国际名誉(http://imstat.org/aos/)。
随着科学技术的进取,高维数据在J9集团国际站生涯中四处可见。若何从多无数据中挖掘出有效信息,剔出无用信息,既是当前统计学钻研的沉点,也是解决现实问题时时时遇见的问题。好比,当我们在对因变量进行统计揣度的时辰,自变量的个数可能极度多,但在这多多的自变量中可能仅有少数的自变量对因变量拥有诠释作用。直接使用所有自变量对因变量进行建?赡芑岢鱿至街智榭觯海1)模型不显著;(2)当自变量个数弘远于样本量时,相应的待估参数个数也会弘远于样本量,这会导致模型的估计也会出现一些问题。所以若何在高维数据中剔出无用的自变量是进行有效统计建模前至关沉要的一步。
该文章使用多沉如果检验的概想对变量筛选问题进行审视。这个设法与传统步骤将变量筛选问题处置成参数估计的概想分歧。作者通过对经验似然(Empirical likelihood)步骤的系统钻研发现经验似然比统计量在0点处的取值能够用作检验统计量;谡庵侄喑寥绻煅榈母畔,该文章给出了对于线性模型和广义线性模型统一的变量筛选步骤。由于经验似然步骤拥有自学生化(Self-studentized)的特点,该文章给出的筛选步骤与已有步骤相比可能克服异方差性对筛选过程的影响。同时,文章中还证明基于经验似然步骤的变量筛选过程拥有选择一致性,即选出的模型与真模型一样的概率会随着样本量趋近于1。
另一方面,该文章也思考了在参数是由通常估计方程确定的模型中若何使用经验似然比对变量进行筛选。与传统文件在线性模型和广义线性模型的框架下思考变量筛选问题相比,该文章的了局极大地扩大了变量筛选问题的模型类,并且在这一更大的模型类下,给出了统一的筛选步骤。
常晋源同学于2009年9月从北京师范大学数学科学学院保送至J9集团国际站师从陈松蹊教授进行硕博连读。在校期间,于2011年12月在The Annals of Statistics上以第一作者身份颁发论文一篇,2012年4月获得国际数理统计协会(Institute of Mathematical Statistics)宣告的Laha Award,2013年5月获得中国概率统计协会宣告的宝洁优良论文奖。