Propiedades de los estimadores mínimo cuadráticos ordinarios
En las aplicaciones empíricas, solo se dispone de una muestra y no tiene ningún sentido hablar de las propiedades de las estimaciones obtenidas con estos datos. De lo que se trata es de analizar cuáles son las que poseen sus distribuciones muestrales.
Los estimadores MCO de los coeficientes \beta son variables aleatorias con una distribución de probabilidad (distribución muestral).
Para hacernos una idea, vamos a considerar que disponemos de los datos correspondientes a las variables gasto en consumo (y) e ingreso semanal disponible (x) de 60 individuos que forman una población «ficticia».

De esta población se extraen múltiples muestras y para cada una de ellas se estiman los valores de los coeficientes del modelo:
y_{t} = \beta_0 + \beta_1 x_{t} + \varepsilon_{t}
Evidentemente, cada vez que cambia la muestra, los valores obtenidos para b_0 y b_1 varían porque, aún manteniendo fijos en el muestreo los valores del ingreso (tal como se establece en las hipótesis del MRLNC), los valores del gasto en consumo cambian y, por tanto, para cada muestra tendremos una media de la variable explicada y una covarianza entre el regresando y la variable explicativa diferentes.
Si se repite este muestreo aleatorio un número lo suficientemente grande de veces, en base al teorema central del límite, la distribución muestral de cualquier b_i se aproxima a una normal.

Las propiedades estadísticas hacen referencia a las características de estas distribuciones muestrales, es decir, a la esperanza y a la varianza de los estimadores.
En términos generales, para elegir un buen estimador no solo debe considerarse si en promedio (esperanza) proporciona o no una estimación exacta del parámetro, es decir, si es insesgado o sesgado; sino también si su dispersión o variabilidad (varianza) en torno al parámetro es elevada o no lo es (optimalidad y eficiencia). Además, es importante analizar si la probabilidad de que su valor esté próximo al del parámetro, crece a medida que aumenta el tamaño de la muestra (consistencia) porque, en caso contrario, el método de estimación mínimo cuadrático ordinario no sería apropiado.
Propiedades de los estimadores MCO de los parámetros \beta
Si el modelo es clásico, las medias de las distribuciones muestrales de los coeficientes estimados son los verdaderos valores de los parámetros (E(b_i) =\beta_i) y, entre el conjunto de estimadores lineales e insesgados de \beta , su dispersión (\sigma^2_{b_i}) es mínima. Cuando el tamaño de la muestra es lo suficientemente grande, esta distribución está estrechamente concentrada en torno al verdadero valor del parámetro por lo que, en este caso, la probabilidad de que los estimadores coincidan con los parámetros es alta.
Lineal
En el MRLNC se supone que los valores de los regresores son fijos en el muestreo (son no estocásticos). En este caso, el vector b puede expresarse como una función lineal de los valores del regresando en la muestra y, por tanto, puede afirmarse que el vector b es lineal en Y.
Forma matricial
b = \color {red} (X´X) ^{-1} X´ \color{black} Y = \color {red} (X´X) ^{-1} X´ \color{black} \begin{pmatrix} y_1 \\ y_2 \\ ··· \\ y_T \end {pmatrix}
Insesgado
Bajo las hipótesis del MRLNC puede demostrarse que la media de las distribuciones muestrales de los coeficientes estimados (E(b_i)) son los verdaderos valores de los correspondientes parámetros (\beta_i), es decir, puede demostrarse que son estimadores insesgados.
Dicho de otra manera, bajo el supuesto de que la esperanza de las perturbaciones es nula, de que los regresores son no estocásticos y de que los parámetros \beta se mantienen constantes a lo largo de la muestra, por término medio, los coeficientes estimados (b_i) proporcionan una estimación exacta de los coeficientes \beta_i.

Forma matricial
E(b) = E \begin{pmatrix} b_0 \\ b_1 \\ ··· \\ b_k \end{pmatrix} = \begin{pmatrix} E(b_0) \\ E(b_1) \\ ··· \\ E(b_k)\end{pmatrix} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ ··· \\ \beta_k\end{pmatrix} =\beta
Óptimo
Un estimador es óptimo si, entre todos los posibles estimadores lineales e insesgados del parámetro que estima, es el que posee la mínima varianza.

En un modelo clásico, se supone que las esperanzas de las perturbaciones son nulas, la matriz de varianzas – covarianzas del vector de perturbaciones es escalar (hipótesis de homocedasticidad e incorrelación), los regresores son no estocásticos y los coeficientes \beta son constantes a lo largo del período muestral, por lo que se puede demostrar (teorema de Gauss-Markov) que los b_i poseen la menor varianza ( \sigma^{2}_{b_i} ) entre los posibles estimadores lineales e insesgados de \beta_i.
Forma matricial
Los elementos situados en la diagonal principal de la matriz de varianzas-covarianzas de los estimadores son sus varianzas y los no diagonales, sus covarianzas.
V(b) = \sigma^2 (X´X)^{-1} = \begin{pmatrix} \color{red} \sigma^2_{b_0} & \sigma_{b_0 b_1} & \sigma_{b_0 b_2} & ··· & \sigma_{b_0 b_k} \\ \sigma_{b_1 b_0} & \color{red} \sigma^2_{b_1} & \sigma_{b_1 b_2} & ··· & \sigma_{b_1 b_k} \\ ··· & ··· & ··· & ··· & ··· \\ \sigma_{b_k b_0} & \sigma_{b_k b_1} & \sigma_{b_k b_2} & ··· & \color{red} \sigma^2_{b_k}\end{pmatrix}
Si el modelo es clásico, los elementos diagonales de esta matriz son más pequeños que los de otros estimadores lineales e insesgados de \beta.
Eficiente
Un estimador insesgado es más eficiente que otro si su varianza es más pequeña y una forma de compararlas es a través del error cuadrático medio (ECM) que se utiliza para medir, en promedio, qué tan alejado está el estimador del correspondiente parámetro.
Si los estimadores son insesgados, su sesgo es nulo y el más eficiente será el que tenga la varianza más pequeña.
En lenguaje matemático:
ECM (b_i) = E( b_i – \beta_i)^2 = Sesgo^{2} (b_i) + \sigma ^2 _ {b_i} = \sigma ^2 _ {b_i}
En un modelo clásico, se supone que las esperanzas de las perturbaciones son nulas, la matriz de varianzas – covarianzas del vector de perturbaciones es escalar (hipótesis de homocedasticidad e incorrelación), los regresores son no estocásticos y los coeficientes \beta son constantes a lo largo del período muestral, por lo que se puede demostrar (teorema de Gauss-Markov) que son óptimos (menor varianza entre los posibles estimadores lineales e insesgados de \beta_i) y, por tanto, los más eficientes.
Consistente
Un estimador es consistente si, cuando el tamaño de la muestra es grande, la probabilidad de que su valor esté próximo al del parámetro es muy alta.

La distribución muestral de un estimador varía al cambiar el tamaño de la muestra y a medida que aumenta, si el estimador es consistente, se va estrechando en torno al verdadero valor del parámetro. Esto significa que si es posible recolectar un número muy grande de datos, el estimador estará muy próximo al verdadero valor del parámetro ya que su sesgo (si existe) y su varianza disminuyen al aumentar el número de observaciones de tal forma que, cuando el tamaño de la muestra tiende a infinitito, tienden a cero.
En las aplicaciones empíricas, se dispone de una única muestra de tamaño T y no es posible repetir el muestreo. Por esta razón, en la práctica, la única forma de garantizar que un estimador es consistente es estudiando si se dan las condiciones para que, desde un punto de vista teórico, se pueda demostrar que cuando la muestra es muy grande, el estimador proporciona estimaciones perfectas.
En el modelo clásico se supone que los regresores son no estocásticos, que los parámetros son constantes y que las esperanzas de las perturbaciones son nulas, lo que permite asegurar que el límite probabilístico de b_i es \beta_i .
En lenguaje matemático:
Plim \thinspace b_i = \beta_i
Consecuencia
La consistencia del vector b permite deducir que, si la muestra es grande, los valores de los errores de estimación se aproximan a los de las perturbaciones aleatorias ya que cuánto más próximos estén los valores de b_i a los de \beta_i , más se acercarán los de los errores a los de las perturbaciones.
\varepsilon_t = y_t – E(y_t) = y_t – (\beta_0 + \beta_1 x_{1t} + ··· + \beta_k x_{kt})
e_t = y_t – \widehat{y}_t = y_t – (b_0 + b_1 x_{1t} + ··· + b_k x_{kt})
Si b_i \approx \beta_i \thinspace \forall i = 0,1, ···, k \rightarrow e_t \approx \varepsilon_t
Propiedades del estimador de la varianza de la perturbación
En el modelo clásico, el estimador insesgado de la varianza de las perturbaciones es la cuasivarianza muestral de los errores de la estimación, esto es el cociente entre la suma de cuadrados de errores y sus grados de libertad:
S^2 = \frac{SCE}{T- k – 1}
Insesgadez y consistencia
En el MRLNC se asume que los regresores son no estocásticos y que la perturbación es una variable aleatoria de media y covarianzas nulas (hipótesis de incorrelación) y varianza constante (hipótesis de homocedasticidad) lo que permite demostrar que, por término medio, S^2 proporciona una estimación exacta de la varianza de la perturbación (\sigma^2).
E(S^2) = \frac{E(SCE)}{T – k – 1} = \sigma^2
La probabilidad de que el valor de este estimador esté próximo al verdadero valor del parámetro, aumenta a medida que crece el número de observaciones, lo que garantiza su consistencia.
Propiedades de los estimadores de las varianzas de los estimadores
Las varianzas poblacionales de los estimadores b_i son desconocidas al no conocerse el valor que toma la varianza de la perturbación ( \sigma^2 ). Para estimarlas, se sustituye la varianza de la perturbación (\sigma^2) por su estimador insesgado y consistente (S^2):
S^{2}_{b_i} =S^{2} x^{ii}
Forma matricial
Los elementos situados en la diagonal principal de la matriz de varianzas-covarianzas estimada de los estimadores son sus varianzas estimadas y los no diagonales, sus covarianzas estimadas.
\widehat {V(b)} = S^2 (X´X)^{-1} = \begin{pmatrix} \color{red} S^2_{b_0} & S_{b_0 b_1} & S_{b_0 b_2} & ··· & S_{b_0 b_k} \\ S_{b_1 b_0} & \color{red} S^2_{b_1} & S_{b_1 b_2} & ··· & S_{b_1 b_k} \\ ··· & ··· & ··· & ··· & ··· \\ S_{b_k b_0} & S_{b_k b_1} & S_{b_k b_2} & ··· & \color{red} S^2_{b_k}\end{pmatrix}
Insesgadez y consistencia
Las varianzas estimadas de los estimadores (S^2_{b_i}) se obtienen sustituyendo a la varianza de la perturbación por su estimador insesgado y consistente, por tanto, si el modelo es clásico, gozan de las mismas propiedades.
E (S^2_{b_i}) = \color {red} E(S^2) \color {black} x^{ii} =\color {red} \sigma^2 \color {black} x^{ii} = \sigma^2_{b_i}