核回归
核回归(又称局部加权线性回归)是统计学中用于估计随机变量的条件期望的非参数方法。目的是找到一对随机变量X和Y之间的非线性关系。
在任何非参数回归中 ,变量的条件期望 相对于变量可以写成:
m为一个未知函数。
Nadaraya–Watson核回归
编辑1964年, Nadaraya和Watson都提出了估算 作为局部加权平均值,使用内核作为加权函数的方法。 [1] [2] [3] Nadaraya–Watson估计量为:
是一个带宽为 的核。 分母是一个总和为1的加权项。
推导
编辑
将内核密度估计用于具有内核K的联合分布f(x,y)和f(x) ,
, ,
我们得到
这便是Nadaraya–Watson估计量。
Priestley–Chao核估计函数
编辑
此处 为带宽(或平滑参数)。
Gasser–Müller核估计函数
编辑
此处
示例
编辑此示例基于加拿大截面工资数据,该数据由1971年加拿大人口普查公用带中的随机样本组成,这些样本适用于受过普通教育的男性(13年级)。共有205个观测值。
右图显示了使用二阶高斯核以及渐近变化范围的估计回归函数
程序实例
编辑
以下R语言命令使用npreg()
函数提供最佳平滑效果并创建上面给出的图形。 这些命令可以通过剪切和粘贴在命令提示符下输入。
install.packages("np")
library(np) # non parametric library
data(cps71)
attach(cps71)
m <- npreg(logwage~age)
plot(m,plot.errors.method="asymptotic",
plot.errors.style="band",
ylim=c(11,15.2))
points(age,logwage,cex=.25)
相关资料
编辑大卫·萨尔斯堡 (David Salsburg)指出 ,用于内核回归的算法是独立开发的,并且已用于模糊系统 :“通过几乎完全相同的计算机算法,模糊系统和基于内核密度的回归似乎是完全独立于彼此而开发的。 ” [4]
统计实现
编辑- MATLAB 这些页面 (页面存档备份,存于互联网档案馆)上提供了免费的MATLAB工具箱,其中包括内核回归,内核密度估计,危险函数的内核估计以及许多其他工具的实现(此工具箱是本书的一部分[5] )。
- Stata npregress , kernreg2 (页面存档备份,存于互联网档案馆)
- R : np package的函数
npreg
可以执行内核回归。 [6] [7] - Python :所述
KernelReg
在混合数据类型类statsmodels.nonparametric
子包(包括其他内核密度相关的类),封装kernel_regression (页面存档备份,存于互联网档案馆)作为的延伸sklearn (低效存储器明智的,有用的,只有对于小数据集) - GNU Octave数学程序包:
相关资料
编辑- 内核平滑
- 局部回归
参考文献
编辑- ^ Nadaraya, E. A. On Estimating Regression. Theory of Probability and Its Applications. 1964, 9 (1): 141–2. doi:10.1137/1109020.
- ^ Watson, G. S. Smooth regression analysis. Sankhyā: The Indian Journal of Statistics, Series A. 1964, 26 (4): 359–372. JSTOR 25049340.
- ^ Bierens, Herman J. https://books.google.com/books?id=M5QBuJVtbWQC&pg=PA212
|chapterurl=
缺少标题 (帮助). The Nadaraya–Watson kernel regression function estimator. New York: Cambridge University Press. 1994: 212–247. ISBN 0-521-41900-X. - ^ Salsburg, D. The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. W.H. Freeman. 2002: 290–91. ISBN 0-8050-7134-2.
- ^ Horová, I.; Koláček, J.; Zelinka, J. Kernel Smoothing in MATLAB: Theory and Practice of Kernel Smoothing. Singapore: World Scientific Publishing. 2012. ISBN 978-981-4405-48-5.
- ^ np: Nonparametric kernel smoothing methods for mixed data types. [2019-10-14]. (原始内容存档于2020-08-17).
- ^ Kloke, John; McKean, Joseph W. Nonparametric Statistical Methods Using R. CRC Press. 2014: 98–106. ISBN 978-1-4398-7343-4.
延申阅读
编辑- Henderson, Daniel J.; Parmeter, Christopher F. Applied Nonparametric Econometrics. Cambridge University Press. 2015 [2019-10-14]. ISBN 978-1-107-01025-3. (原始内容存档于2020-08-06).
- Li, Qi; Racine, Jeffrey S. Nonparametric Econometrics: Theory and Practice. Princeton University Press. 2007. ISBN 0-691-12161-3.
- Pagan, A.; Ullah, A. Nonparametric Econometrics. Cambridge University Press. 1999 [2019-10-14]. ISBN 0-521-35564-8. (原始内容存档于2016-06-24).
- Simonoff, Jeffrey S. Smoothing Methods in Statistics. Springer. 1996. ISBN 0-387-94716-7.
外部链接
编辑- 可缩放比例的内核回归 (页面存档备份,存于互联网档案馆) (使用Matlab软件)。
- 使用电子表格 (使用Microsoft Excel ) 进行内核回归的教程 。
- 在线内核回归演示 (页面存档备份,存于互联网档案馆) Requires。 NET 3.0或更高版本。
- 具有自动带宽选择功能的内核回归 (页面存档备份,存于互联网档案馆) (使用Python)