122cc太阳集成游戏与统计科学中心姚方教授团队近期在Journal of the American Statistical Association(JASA)同时在线发表三篇最新研究成果:[1]“Test of Weak Separability for Spatially Stationary Functional Field”,提出了新的针对平稳时空数据的弱可分性检验的方法和理论;[2]“Online Estimation for Functional Data”,实现了对函数型数据的可调参在线估计并大幅提升了计算效率;[3]“Data-driven Selection of the Number of Change-points via Error Rate Control”,通过保序分割的思想建立了数据驱动与错误率可控的变点个数选择新方法。这些成果对大数据分析中的时空建模、实时数据流在线学习以及复杂结构异变探查等前沿问题做出了原创性探索,具有重要的实际应用价值。
“Test of Weak Separability for Spatially Stationary Functional Field”针对无重复观测的具有空间平稳性的时空数据从函数型视角提出了弱可分性概念并构建了相应的检验方法。弱可分性推广了函数型数据中传统的Karhunen-Loève假设,可以对此类数据在时间和空间上的相关性进行有效地刻画,比传统的可分性假设更为宽松,极大地方便了对于时空过程的建模。论文基于滞后协方差函数构建了适用于增长维函数型数据的检验统计量,并根据相应的大样本性质提出了针对弱可分假设的卡方检验。该检验方法计算简便且应用广泛,在对中国PM2.5数据时空弱可分性判定的研究中均取得了良好的效果。
信息技术的发展使得数据收集的速度和体量大幅提升,姚方团队在“Online Estimation for Functional Data”中针对实时数据流提出了非参回归并适用于函数型数据的实时在线估计方法,达到与使用全体数据方法相似的估计精度,同时显著降低了计算复杂度。论文提出了动态窗宽的在线更新算法进行实时均值和协方差函数估计,在稠密与稀疏观测下建立了在线估计的渐进正态性,并给出了候选窗宽个数与估计效率、计算效率的关系。该方法在制造业实时质量监控、互联网数据实时分析等场景中取得了良好的应用效果,可进一步应用于智能出行、智能制造、物联网等领域。
“Data-driven Selection of the Number of Change-points via Error Rate Control”提出了一种具有良好FDR控制的数据驱动的变点个数选择方法。其核心是采用保序样本分割的思想,通过构造一系列具有全局对称性的统计量,并利用此对称性得到数据驱动的阈值。该方法适用于大多数变点算法,如基于局部偏差的检测、二元分割及其变体、基于动态规划算法的最小二乘或似然方法等,并通过拓展证明了该方法的普适性,可作为其它相关问题的构成要素。在此统一的框架下,论文证明了所提方法能渐近地控制FDR,同时保留所有真正的变点,为变点数量的确定提供重要的理论保证。计算上,该方法能产生精确的FDR控制,并很大程度地克服BIC或CV方法缺少重要变点的局限性。
JASA为国际统计学界影响最为广泛的顶尖学术期刊之一,三篇论文的通讯作者均为姚方教授,现任北京大学讲席教授、国家特聘专家、北京大学统计科学中心主任与概率统计系主任。论文[1]、[2]的第一作者梁德才、杨莹为姚方教授全职回国后在北大指导的博士生,现分别为南开大学统计与数据科学学院助理教授、北京大学在读博士生。论文[3]为姚方与南开大学邹长亮教授团队合作成果。
[1]. Decai Liang, Hui Huang, Yongtao Guan and Fang Yao* (2021). Test of weak separability for spatially stationary functional field. Journal of the American Statistical Association. Published online,https://doi.org/10.1080/01621459.2021.2002156.
[2]. Ying Yang and Fang Yao* (2021). Online estimation for functional data. Journal of the American Statistical Association. Published online,https://doi.org/10.1080/01621459.2021/2002158.
[3]. Hui Chen, Haojie Ren, Fang Yao* and Changliang Zou (2021). Data-driven selection of the number of change-points via error rate control. Journal of the American Statistical Association. Published online, https://doi.org/10.1080/01621459.2021.1999820.