Introducción Machine Learning y diferencias con IA & Deep Learning

https://unsplash.com/

MACHINE LEARNING

PREPARACIÓN DE LOS DATOS

  • Representación de las variables en distintas gráficas. Esto puede sernos de gran utilidad para tener una noción de los valores de cada variable. Con ello podemos detectar posibles fallos en los datos como valores negativos en variables que no lo admiten, encontrar outliers, ver si las variables siguen una distribución normal o no… En resumen, información que nos pueda ser útil para su comprensión.
  • Detección de valores nulos. Habrá veces que sea conveniente sustituirlos por valores calculados como la media de los demás de esa misma columna, o bien tener en cuenta otras variables para conseguir una media seccionada. Quizá sea mejor introducir un nuevo valor por defecto, o incluso puede que convenga dejarlos nulos tal y como venían. De nuevo, todo ello será más sencillo si conocemos bien los datos.
  • Reducción del número de variables. Posiblemente existan variables que no aporten información nueva al conjunto, por lo que podríamos prescindir de ellas. O bien, que su información pueda ser exactamente deducible a partir de otras variables. Por el contrario, a pesar de aportar un mínimo de información extra, quizá nos sea conveniente perder esa aportación para evitar un sobre ajuste en el modelo y que la respuesta del mismo sea más sencilla o apropiada. En cualquier caso, para detectar estas posibles variables que podrían ser eliminadas, sería posible hacerlo tanto de manera manual (si no son demasiadas las variables de entrada), o de manera automática con ayuda de otros modelos creados con este fin.
  • Regularización.En lugar de reducir el número de variables, este método consiste en reducir los valores o los rangos de los parámetros. Pretende controlar la complejidad del algoritmo añadiendo un término de penalización en la función objetivo del modelo. Suele usarse cuando tenemos muchas variables de entrada y cada una de ellas aporta información útil para predecir la variable de salida, y/o cuando nuestro modelo se adapta de manera casi perfecta a la muestra de entrada, pero empeora enormemente con las nuevas predicciones, es decir, cuando no es capaz de generalizar correctamente.
  • Crear variables nuevas a partir de los datos. Lo explicamos mejor con un ejemplo. Supongamos que en los datos tenemos la columna “países” que únicamente toma los valores “España”, “Francia” y “Portugal”. En lugar de añadir la variable “países” de tipo String, podríamos añadir las variables “país_España”, “país_Francia”, “país_Portugal” de tipo binarias, es decir, que tomen los valores uno o cero en función de si la entrada pertenece a ese país o no respectivamente. Siempre todo dependerá del modelo que se vaya aplicar.

ELECCIÓN DEL MODELO

  • Aprendizaje supervisado: Toman como entrada una muestra de datos de los que se conoce el resultado a predecir. Con ella se entrena el algoritmo que trata de identificar patrones y encontrar un modelo de predicción, el cual habrá que ir corrigiendo en caso de que las predicciones no se realicen correctamente. Algunos ejemplos de este tipo de algoritmos serían los árboles de decisión, los algoritmos de clasificación de Naive Bayes, regresión por mínimos cuadrados, regresión logística, SVM (Support Vector Machines)…
  • Aprendizaje no supervisado: Los algoritmos de este tipo se encargan de organizar y clasificar los datos en función de las propiedades que haya conseguido detectar el modelo a raíz del estudio de las relaciones y correlaciones de los datos. Algunos ejemplos serían los algoritmos de clustering, análisis de componentes principales, descomposición en valores singulares…

COMPROBACIÓN DEL RESULTADO

HERRAMIENTAS PARA COMENZAR

CONCLUSIÓN

--

--

--

Apostamos por un modelo de consultoría orientado a hacer accesibles las mejores soluciones de Analítica y de Big Data para cualquier tipo de empresa

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
BI Geek

BI Geek

Apostamos por un modelo de consultoría orientado a hacer accesibles las mejores soluciones de Analítica y de Big Data para cualquier tipo de empresa

More from Medium

Data Science at LINE MAN Wongnai

Using advanced data analysis in the food industry to predict its quality

Spark Selects: Doorbells and Data Science; The Insides of a Prediction Model, Part 1

Airbnb new user’s bookings — Where will a new guest book their first travel experience?