[Azure Machine Learning] La dicotomía Varianza-sesgo (Bias-Variance)

En el aprendizaje automático supervisado, un algoritmo aprende un modelo a partir de los datos de entrenamiento. El objetivo de cualquier algoritmo de aprendizaje automático supervisado es estimar lo mejor posible una función que pueda mapear las variables de salida según un conjunto de datos de entrada. El error de predicción para cualquier algoritmo de aprendizaje automático se puede dividir en tres partes:

  • Error de sesgo
  • Error de varianza
  • Error irreducible

El error irreducible no puede reducirse independientemente del algoritmo utilizado. Es el error introducido desde el encuadre elegido del problema y puede ser causado por factores como variables desconocidas que influyen en el mapeo de las variables de entrada a la variable de salida.

Error de sesgo

Los sesgos son los supuestos o simplificaciones que se hacen por un modelo para hacer que la función sea más fácil de aprender. En general, los algoritmos lineales tienen un alto sesgo por lo que son rápidos de aprender y más fáciles de entender, pero en general son menos flexibles. A su vez, tienen un rendimiento predictivo más bajo en problemas complejos.

  • Bajo sesgo: sugiere menos suposiciones sobre la forma de la función.
  • Alto sesgo: sugiere más suposiciones sobre la forma de la función.

Los ejemplos de algoritmos de aprendizaje automático de bajo sesgo incluyen: Decision Trees, k-Nearest Neighbors y Support Vector Machines. Los ejemplos de algoritmos de aprendizaje automático de alto sesgo incluyen: Linear Regression, Linear Discriminant Analysis and Logistic Regression.

Error de varianza

La varianza es la cantidad estimada de cambio de la función si se utilizaran datos de entrenamiento diferentes. Idealmente, no debería cambiar demasiado de un conjunto de datos de entrenamiento al siguiente, lo que significa que el algoritmo es bueno. Los algoritmos de aprendizaje automático que tienen una gran varianza están fuertemente influenciados por las especificaciones de los datos de entrenamiento.

En general, los algoritmos de aprendizaje automático no lineales, que son los que tienen mucha flexibilidad para ajustar los datos, tienen una alta probabilidad de poseer una gran variación. Los ejemplos de algoritmos de aprendizaje automático de baja varianza incluyen: Linear Regression, Linear Discriminant Analysis and Logistic Regression. Los ejemplos de algoritmos de aprendizaje automático de alta varianza incluyen: Decision Trees, k-Nearest Neighbors and Support Vector Machines.

El dilema

El objetivo de cualquier algoritmo de aprendizaje automático supervisado es lograr un sesgo bajo y una varianza baja. A su vez, el algoritmo debe lograr un buen rendimiento de predicción. Considerando los algoritmos mencionados anteriormente como ejemplos podemos concluir en lo siguiente:

  • Los algoritmos de aprendizaje automático lineales a menudo tienen un sesgo alto pero una varianza baja.
  • Los algoritmos de aprendizaje automático no lineales a menudo tienen un sesgo bajo pero una varianza alta.

Hay una estricta relación entre la complejidad del algoritmo y la dicotomía varianza-sesgo. Esto se puede entender mucho mejor si apreciamos correctamente la relación entre la complejidad de los algoritmos de aprendizaje y los errores que se pueden encontrar en los datos de entrenamiento y datos de validación.

La parametrización de los algoritmos de aprendizaje automático es a menudo una batalla para equilibrar el sesgo y la varianza. A continuación, se muestran dos ejemplos de configuración para algoritmos específicos:

  • El algoritmo k-nn (k-nearest neighbors) tiene un sesgo bajo y una varianza alta, pero el intercambio puede modificarse aumentando el valor de k, lo que aumenta el número de vecinos que contribuyen a la predicción y, a su vez, aumenta el sesgo del modelo.
  • El algoritmo SVM (Support Vector Machine) tiene un sesgo bajo y una varianza alta, pero se puede cambiar aumentando el parámetro que influye en el número de violaciones del margen permitido en los datos de entrenamiento, lo que aumenta el sesgo pero disminuye la varianza.

No hay escapatoria a la relación entre sesgo y variación en el aprendizaje automático:

  • Aumentar el sesgo disminuirá la varianza.
  • Aumentar la varianza disminuirá el sesgo.

Existe una relación de intercambio entre estas dos preocupaciones, el sesgo y la varianza proporcionan las herramientas para comprender el comportamiento de los algoritmos de aprendizaje automático en la búsqueda del mejor rendimiento predictivo.

Agregue un comentario

Su dirección de correo no se hará público.