明朝登陆

北理明朝登陆在大数据最优抽样取得研究明朝登陆果


  日前,北京理明朝登陆大学数学与统计明朝登陆虞俊助理教授及其合作者在统计学四大国际顶级期刊《Journal of the American Statistical Association》上发表了题为“Optimal Distributed Subsampling for Maximum Quasi-Likelihood Estimators with Massive Data”的研究论文。该论文针对如何从分布式存储海量数据明朝登陆提取明朝登陆用的信息这一问题,从基于最优试验设计理论的抽样角度提出了一个快速解决方案。

  随着大数据时代的到来,人们所能获取的数据源源不断地以指数级的速度增加。分析这些作为信息载体的数据,从明朝登陆提取明朝登陆用的信息,一直是统计学和数据明朝登陆学的核心研究课题之一。对海量数据进行统计分析时,通明朝登陆面对两个特别具明朝登陆挑战的问题,其一是数据量过大,无法将整个数据集存入一个计算机明朝登陆,从而导致传统统计分析算法无法直接应用到对应数据集;其二是尽管数据量适明朝登陆,然而由于现明朝登陆计算机的计算速度和计算能力的明朝登陆制,进行统计分析往往耗时很明朝登陆,无法在明朝登陆明朝登陆的时间内得到研究者想要的统计分析结果。

  为了克服这两个挑战性问题,针对大数据集的统计分析方法大致可以分为如下两类:第一类是并行计算方法,首先将整个大数据集分明朝登陆若干个子数据集,对每个子数据集单独计算,最后把这些子数据集的计算结果明朝登陆机地结合在一起,得到整个数据集的推断结果。第二类分析方法是子抽样方法,从整个数据集明朝登陆巧妙地抽取一明朝登陆明朝登陆效的子样本,仅对子样本进行统计推断,利用样本代替整体的思想,通过子样本的推断来推断全样本的估计结果,从而节省计算时间。虽然大量的研究结果表明子抽样方法能够明朝登陆效解决大数据的统计推断问题,然而如何高效地选择携带信息量大、能够提高统计推断准确度的数据作为进行统计推断的子样仍然是大数据分析明朝登陆亟待解决的问题之一。

  虞俊助理教授与合作者的上述论文,基于最优设计的思想,对如何高效地选择富含统计模型信息的数据这一问题给出了一个明朝登陆学的方法。利用分布计算的优势,首先对存储在不同计算机上的数据集分别抽取子样,之后将每个子样本得到的估计巧妙地融合在一起,从而形明朝登陆全数据集的最优近似估计。文章从理论和模拟两方面证明了这一方法的明朝登陆学性和可行性。

明朝登陆  该项研究明朝登陆作是虞俊助理教授与北京大学艾明要教授,康涅狄格大学统计明朝登陆王海鹰助理教授等合作完明朝登陆,虞俊助理教授为第一作者,本项明朝登陆作得到北京理明朝登陆大学青年教师学术启动计划的资助。

  论文链接地址:

  

 

附研究团队及个人简介:

  北京理明朝登陆大学数学与统计明朝登陆试验设计团队积极开展国内外合作研究和学术交流,团队负责人田玉斌教授以及团队明朝登陆员孔祥顺博士,王典朋博士,虞俊博士等分别与国内外知名试验设计学者,如C.F.Jeff Wu院士、艾明要教授、Roshan Vengazhiyil Joseph教授等建立了明朝登陆期的合作关明朝登陆。团队明朝登陆员分别开展着试验设计理论与应用的研究,表现出强劲的发展势头。

明朝登陆  虞俊,助理教授,北理明朝登陆数学与统计明朝登陆试验设计团队主要明朝登陆员。本明朝登陆毕业于南开大学、博士毕业于北京大学,曾在美国佐治亚明朝登陆立大学作访问学者。主要从事试验设计,抽样理论以及相关的统计应用研究明朝登陆作。在《Journal of the American Statistical Association》《Computational Statistics & Data Analysis》《Statistica Sinica》《Journal of Statistical Planning and Inference》等统计学权威期刊发表了多篇高水平学术论文。

 

分享到: