promocionado como la próxima gran cosa, un análisis predictivo está listo para dominar el panorama de análisis avanzado en los próximos años. El estudio salarial de Analytics India 2017 realizado por AnalytixLabs & la revista Analytics India (aim) revela que los profesionales de análisis avanzado/modelado predictivo están mejor pagados en comparación con sus compañeros.,
salario anual en Lacs
fuente: AnalytixLabs & AIM
así que vamos a entender en detalle cómo construir un modelo predictivo y conocer los algoritmos más importantes a aprender en el análisis predictivo.
el análisis predictivo es una rama del análisis avanzado de datos que implica el uso de diversas técnicas como el aprendizaje automático, algoritmos estadísticos y otras técnicas de minería de datos para pronosticar eventos futuros basados en datos históricos.,
el modelo se aplica a los datos actuales para predecir cuál sería el siguiente curso de acción o sugerencia para el resultado.
Hay varios algoritmos disponibles en las categorías de minería de datos, Aprendizaje automático y estadísticas cuando ensambla su modelo de análisis predictivo. A medida que explora los datos, se vuelve más fácil tomar decisiones adicionales.
¿Cómo construir un modelo predictivo?,
construir un modelo predictivo es simple:
- obtener los datos – de diferentes fuentes desde cualquier herramienta ETL
Ejemplo: refer iris data – https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
- dividir el conjunto de datos en dos partes (datos de muestra y verificación)
construir los datos de muestra:
los datos de la muestra que proporciona la información sobre las especies de flores y sus mediciones.,
generalmente, hay muchos modelos de análisis predictivo y se pueden categorizar en 2 tipos:
- Clasificación – predecir un valor que es discreto a través de la categoría y finito sin orden
- regresión – predecir un valor que es continuo a través de cantidad numérica e infinito con orden:
los algoritmos ampliamente utilizados en el análisis de datos son regresión lineal y red neuronal
regresión lineal: el modelo de regresión simple asume que la relación lineal existe entre las variables de entrada y de salida.,
red neuronal: una red neuronal inspirada en el cerebro humano, una red de neuronas que están interconectadas que es un conjunto de unidades computacionales, que toma un conjunto de entradas y transfiere el resultado a una salida predefinida. Las unidades computacionales se ordenan en capas de modo que las características de un vector de entrada se pueden conectar con la característica de un vector de salida.
la idea detrás de esto es a menudo entrenar redes neuronales para modelar las relaciones dentro de los datos proporcionados.,
- Crear un modelo basado en las reglas establecidas por el algoritmo durante la fase de entrenamiento.
- pruebe el modelo en el conjunto de datos de verificación: los datos se alimentan al modelo y los valores predichos se comparan con los valores reales. Por lo tanto, el modelo se prueba para la precisión.
- utilice el modelo en los nuevos datos entrantes y tome medidas basadas en la salida del modelo.
otros algoritmos importantes:
los modelos predictivos vienen en varias formas. Hay diferentes métodos que se pueden utilizar para crear un modelo, y la mayoría de ellos se están desarrollando todo el tiempo.,
los modelos predictivos más comunes son:
modelos lineales: es un algoritmo estadístico muy utilizado para construir un modelo de relación entre dos variables. Una variable se llama variable predictora cuyo valor se obtiene a través de experimentos, mientras que la otra variable se llama variable de respuesta cuyo valor se deriva de la variable predictora.
árboles de decisión (también conocidos como árboles de clasificación y regresión o CART): es un gráfico utilizado para representar las posibilidades y su resultado en forma de árbol., Los nodos del gráfico representan un evento o elección y los bordes del gráfico representan las reglas o condiciones de decisión.
máquinas de vectores de soporte (SVM) en aprendizaje automático: la máquina de vectores de soporte busca los puntos más cercanos y se conoce como «vectores de soporte» » el nombre es el resultado del hecho real de que los puntos son como vectores de los que la línea más simple «depende» o está «soportada» por los puntos más cercanos.
Una vez que detecta los puntos más cercanos, dibuja una línea conectándolos haciendo resta vectorial (punto a-punto B)., La máquina de vectores de soporte declara que la mejor línea de separación es la línea que biseca-y es perpendicular a — la línea de conexión.
Naive Bayes: es un algoritmo de aprendizaje automático utilizado principalmente para problemas de clasificación. Se basa en el teorema de probabilidad de Bayes o alternativamente conocido como regla de Bayes o ley de Bayes. Se utiliza para la clasificación de texto que implica conjuntos de datos de entrenamiento de alta dimensión.
es un algoritmo simple y conocido por su eficacia para construir rápidamente modelos y hacer predicciones mediante el uso de este algoritmo., El algoritmo Bayes ingenuo se considera principalmente para resolver problemas de clasificación de texto. Por lo tanto, recomendamos aprender el algoritmo a fondo.,
ejemplos: filtración de spam, clasificación de artículos de noticias y análisis sentimental
Teorema de Bayes representado por la siguiente ecuación:
- : probabilidad (probabilidad condicional) de ocurrencia de un evento dado que el evento es verdadero
- y: probabilidades de la ocurrencia de un evento y respectivamente
- : probabilidad de la ocurrencia del evento dado que el evento es verdadero
conclusión
en un futuro próximo la creciente demanda de análisis predictivo puede hacer que profesionales de otras corrientes se unan al carro., Si desea obtener una ventaja sobre sus compañeros y ser parte de esta nueva avenida de crecimiento, puede explorar nuestro curso de análisis de negocios certificado por NSE, así como PGD en Ciencia de datos.