Tipos de algoritmos Machine Learning

¿Qué es el Machine Learning o aprendizaje automático?

Existen dos tipos de algoritmos de Machine Learning que son imprescindibles a la hora de resolver problemas del día a día mediante procesos automatizados.

En este post, explicamos cuál es el significado de los algoritmos Machine Learning y qué tipos existen dentro de dos categorías:

  • Algoritmos de aprendizaje automatizado.
  • Algoritmos de aprendizaje no supervisado.

Además te damos un ejemplo de cada uno de ellos para que veas cómo se pueden aplicar en el día a día este tipo de inteligencia artificial para optimizar tus procesos al máximo.

En NODRIZA tech, trabajamos con este tipo de algoritmos para optimizar nuestros procesos y conseguir la máxima efectividad.

algoritmos-machine-learning

¿Qué es el Machine Learning?

La inteligencia artificial que se sustenta completamente sobre las matemáticas y la computación, permite resolver problemas cotidianos a través del análisis crítico y el aprendizaje continuo.

Ello es posible gracias al uso de algoritmos, que no son más que un conjunto ordenado de operaciones que trabajan en la búsqueda de patrones y relaciones, la clasificación, la segmentación y también la regresión de los datos.

Siempre, y esto es muy importante, utilizando el dato como unidad básica de conocimiento. En esto consiste el Machine Learning o aprendizaje automático: un subcampo de las ciencias de la computación y una rama principal de la inteligencia artificial, cuyo objetivo es desarrollar técnicas que permitan que las computadoras aprendan de forma automatizada.

Existen dos grandes tipologías de algoritmos de Machine Learning y la diferencia principal radica en la forma en la que cada algoritmo “es entrenado”. Así que tendríamos los algoritmos de aprendizaje supervisado y de los de aprendizaje no supervisado.

Tipos de algoritmos de Machine Learning

Algoritmos de aprendizaje automatizado

La capacidad de aprendizaje de los algoritmos supervisados reside en que lo hacen basándose en observaciones pasadas, es decir, utilizan el pasado para establecer reglas de actuación. Dentro encontramos dos subtipos: los de clasificación y los de regresión.

1. Algoritmos de clasificación

Utilizando un conjunto de datos de entrenamiento le enseñamos a que aprenda que cada observación pertenece a una u otra categoría dependiendo de determinadas características muy concretas.

Se entiende mucho mejor con un ejemplo, así que imaginemos que queremos detectar operaciones bancarias fraudulentas.

Para ello tenemos un fichero de datos con cientos de miles de operaciones bancarias y conocemos cuáles de ellas han resultado ser fraudulentas. Este algoritmo identifica que las operaciones fraudulentas suelen tener algunas cosas en común (importe, cuenta de origen y destino, periodicidad…) y, en base a ello, va aprendiendo a identificar cuáles son fraudulentas y cuáles no a través de un aprendizaje reforzado.

Finalmente, cuando el modelo ha sido entrenado, le daremos una operación y podrá clasificarla en una u otra tipología con una determinada probabilidad de acierto.

2. Algoritmos de regresión

En este subtipo la tarea no consiste en aprender a clasificar, sino en aprender a hallar el tipo de relación entre dos o más variables en base a un conjunto de observaciones. 

Si por ejemplo, queremos ver la relación que existe entre el número de años de experiencia y el salario que percibe una persona, cogemos a un montón de individuos, apuntamos sus años de experiencia y su salario y lo analizamos globalmente.

Finalmente determinamos que, generalmente, a más años de experiencia, mayor salario, pero hasta un determinado punto en el que añadir experiencia ya no suma incremento salarial. Y con esto dibujaremos una curva que, con cierto margen, nos podría permitir predecir el salario de una persona en base a sus años de experiencia laboral. 

Evidentemente este es un análisis muy simple, ya que el modelo fallaría por el hecho de que el salario depende de otras muchas cosas más. Pero bastaría con determinar cuáles más lo son y añadir más variables al modelo. De hecho el modelo será tan bueno como lo sea la capacidad del modelador para encontrar y gestionar las relaciones entre variables.

Algoritmos de aprendizaje no supervisado

La limitación que tienen los algoritmos de aprendizaje supervisado es que los datos deben estar previamente etiquetados, sin embargo, en la mayor parte de ocasiones ocurre que no tenemos un conjunto de datos con etiquetas que nos digan a qué categoría pertenece cada observación.

Así pues, se buscó una forma para que los algoritmos aprendiesen de una forma mucho más intuitiva: aquí ya no le decimos las clases, es el propio algoritmo quien las genera ya que su aprendizaje se basa en encontrar puntos en común en las características del juego de datos, hallando similitudes, y utilizándolas luego para predecir clases sobre nuevos datos.

Nuevamente existirían otros dos subtipos: clustering y reducción de la dimensionalidad.

1. Algoritmos de clustering

Este subtipo se basa en agrupar las observaciones en grupos muy parecidos de acuerdo a características particulares.  

Por ejemplo. Pensemos en la población de un municipio: globalmente es complicado apreciar grupos de personas afines, solo sabemos que es una masa muy heterogénea. Pero si analizamos cada persona una a una, podremos agrupar por conjuntos de personas que tengan una edad similar, un nivel de estudios parecido, el mismo nivel de ingresos, etc.

Cuando el algoritmo haya aprendido (generado los grupos), le daremos los datos de una persona concreta y nos dirá a qué grupo pertenece, de ahí que esta tipología sea muy utilizada en el mundo del marketing y la publicidad.

2. Algoritmos de reducción de la dimensionalidad

Como su propio nombre indica, su manera de funcionar es reducir el número de variables, dejando solo unas pocas que representan muy bien el comportamiento general de la muestra de datos

Para que se entienda mejor; imaginemos que contamos con 25 indicadores que nos dicen si una empresa va bien. No sólo es complicado actuar sobre todos ellos, también lo es el simple hecho de llevar su seguimiento.

Así que se quiere “simplificar” para obtener unos pocos sobre los que sí podamos actuar, que sean muy buenos y que además representen el comportamiento global de la empresa sin que con ello se pierda información por el camino.

En definitiva, y para que sirva a modo de resumen, hemos hecho un repaso de las tipologías de algoritmos de Machine Learning más importantes con el objetivo de tener una visión global de cómo funcionan y conocer qué posibilidades existen a la hora de trabajar con ellos.

Pero la elección de una u otra, o incluso la combinación de varias, dependerá de los datos que se tengan, de cuántas observaciones existan y de los objetivos que se pretendan conseguir con la utilización de estas técnicas. Aunque esto es ya más complejo y lo comentaremos en futuros artículos.