Análisis de Datos con Netmx
Durante mi especialización en analítica de datos y herramientas de inteligencia artificial, tuve la oportunidad de trabajar en un proyecto muy significativo con una empresa llamada Net MX. Esta compañía se dedica a proporcionar soluciones de manejo seguro de datos en línea, y su producto estrella es Qpass. Qpass es un sistema de gestión inteligente de control de acceso que se utiliza en diversas industrias y maneja grandes volúmenes de datos.

Para comenzar el proyecto, NetMx nos explicó que necesitaban utilizar los datos recopilados para tomar decisiones y optimizar sus procesos. Como primer paso, nos proporcionaron algunas bases de datos para trabajar. En el proceso, realizamos un ETL que incluyó el análisis y limpieza de los datos, un análisis descriptivo con visualizaciones correspondientes, un análisis predictivo y la implementación de los resultados obtenidos en un deployment. Este enfoque nos permitió abordar el proyecto de manera sistemática y eficiente para cumplir con los objetivos de NetMx.
Análisis y limpieza de datos

En esta etapa del proyecto, utilizamos una herramienta de software llamada Alteryx para llevar a cabo el análisis de las bases de datos que nos proporcionaron. Originalmente, contábamos con alrededor de 30 archivos de bases de datos, pero tuvimos que realizar una discriminación de aquellas que tenían suficiente información para trabajar en ellas, descartando las que contenían pocos datos. Después de este proceso, quedaron aproximadamente 10 bases de datos. Uno de los mayores desafíos que encontré durante este proceso fue la falta de un elemento unificador que relacionara todas las bases de datos, lo cual es de suma importancia al trabajar con varias bases de datos. Por lo tanto, me dediqué a buscar este elemento usando Alteryx, ya que resultaría sumamente valioso para esta tarea.
Análisis exploratorio

Durante nuestro análisis exploratorio, empleamos la herramienta de software SAS para examinar el comportamiento inicial de los datos. En la primera serie de gráficos, notamos una falta significativa de información en los ID de los clientes. Sin embargo, en la segunda serie de gráficos, observamos una distribución normal en las fechas, aunque notamos una ausencia de datos a partir de cierto punto. Según nos informaron, la pandemia interrumpió la toma de lecturas y la información disponible proviene de residencias en España, lo cual puede explicar la coincidencia en las fechas.
Además, realizamos un análisis de la cantidad de información disponible para cada categoría y, a partir de los gráficos obtenidos, se determinó que existen datos faltantes y que los tipos de visita más comunes son los proveedores y los espontáneos.
Análisis Predictivo

Se realizó un análisis predictivo mediante una serie de tiempo para analizar el comportamiento de los visitantes. Se optó por utilizar la información de los visitantes espontáneos, dado que no podemos controlar este tipo de visitas, por lo que resulta crucial anticiparlas. Para esta tarea, decidí utilizar la herramienta de software Python, ya que me resulta muy cómodo y práctico crear modelos ARIMA en esta plataforma.
Deployment
Finalmente, concluí que era necesario mejorar la extracción de los datos, ya que tal y como están las bases de datos, es prácticamente imposible utilizarlas para obtener información útil. A pesar de esto, con la información recopilada y el análisis realizado, pudimos plasmar todos los resultados en la página web creada, como se puede observar en las imágenes. Además, se presentaron recomendaciones a NetMx basadas en la información recopilada. En particular, se sugirió ajustar los lugares de estacionamiento para tener más cajones, ya que estaban diseñados para camionetas y sedanes grandes, mientras que la tendencia actual es utilizar autos compactos. También se identificó que los visitantes espontáneos representan un gran porcentaje, por lo que se recomienda hacer análisis de series de tiempo (ya con los datos recopilados de manera ajustada) para prever el número de visitantes esperados y tomar medidas en consecuencia.





