设计矩阵

设计矩阵（英语：design matrix、model matrix、regressor matrix）在统计学和机器学习中，是一组观测结果中的所有解释变量的值构成的矩阵，常用X表示。设计矩阵常用于一些统计模型，如一般线性模型，方差分析中。

定义

通常情况下，设计矩阵的第i行代表第i次观测的结果，第j列代表第j种解释变量。如此一来，线性回归模型就可以用矩阵乘法表达为

y=X\beta

其中 $X$ 是设计矩阵， $\beta$ 是对应每一种解释变量的系数组成的系数向量， $y$ 是每一个观测对应的预测值构成的向量。^[1]

算数平均的设计矩阵是一个全为1的列向量。

本节给出了一个简单线性回归的例子，其中有一个解释变量和有七个观测值。这七个数据点是 $\left\{y_{i},x_{i}\right\},i=1,2,\cdots ,7$ 。该简单线性回归模型可以表示为：

y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i},\,

其中 $\beta _{0}$ 为y轴的截距， $\beta _{1}$ 是回归线的斜率。该模型可以表示为矩阵形式：

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&x_{1}\\1&x_{2}\\1&x_{3}\\1&x_{4}\\1&x_{5}\\1&x_{6}\\1&x_{7}\end{bmatrix}}{\begin{bmatrix}\beta _{0}\\\beta _{1}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

其中设计矩阵中的第一列用以估计y轴的截距，而第二列包含与相应y值相关的x值。

本节给出了一个有两个协变量（解释变量）的多元回归例子： $w$ 和 $x$ 。假设数据由七个观测值组成，对于每个待预测的观测值 $y_{i}$ ，两个协变量的值 $w_{i}$ 和 $x_{i}$ 也被观察到。该模型可以表示为：

y_{i}=\beta _{0}+\beta _{1}w_{i}+\beta _{2}x_{i}+\varepsilon _{i}

该模型可以表示为矩阵形式：

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&w_{1}&x_{1}\\1&w_{2}&x_{2}\\1&w_{3}&x_{3}\\1&w_{4}&x_{4}\\1&w_{5}&x_{5}\\1&w_{6}&x_{6}\\1&w_{7}&x_{7}\end{bmatrix}}{\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

右侧的 $7\times 3$ 矩阵即为设计矩阵。

在单方向方差分析中，此时的模型为

y_{ij}=\mu +\tau _{i}+\varepsilon _{ij}

限制： $\tau _{1}$ 为0

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&0&0\\1&0&0\\1&0&0\\1&1&0\\1&1&0\\1&0&1\\1&0&1\end{bmatrix}}{\begin{bmatrix}\mu \\\tau _{2}\\\tau _{3}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

^ Everitt, B. S. Cambridge Dictionary of Statistics 2nd. Cambridge, UK: Cambridge University Press. 2002. ISBN 0-521-81099-X.

Verbeek, Albert. The Geometry of Model Selection in Regression. Dijkstra, Theo K. (编). Misspecification Analysis. New York: Springer. 1984: 20–36. ISBN 0-387-13893-5.