El mercado de herramientas a tus pies
EL MAPA DE HERRAMIENTAS DE CIENCIA DE DATOS
ÍNDICE
2- Tipos de softwares de ciencia de datos y Big Data 4
Softwares estadísticos sin programación 5
Softwares estadísticos con programación 5
Softwares ciencia de datos. + Estadística 5
Softwares ciencia de datos. + Deep learning 6
3- Los softwares que necesitas dominar primero como científico de datos 7
Las herramientas son un objeto brillante que reluce y nos encandila. Siempre nos enamoramos de la última herramienta de mercado, pero la realidad es que la esencia de analizar los datos es la clave del éxito del científico de datos.
En esta lección vas a conocer los softwares de ciencia de datos clave y los softwares de especialización para ser un auténtico científico de datos. La idea es que entiendas el mapa de herramientas y los diferentes lenguajes que vamos a trabajar.
Vas a descubrir:
Estos son los grupos/categorías de softwares que trabajan datos:
La combinación necesaria para dedicarse a la ciencia de datos estaría compuesta por hojas de cálculo (Excel), softwares de ciencia de datos (como R y Python) y softwares de bases de datos (como SQL). Existen otras vías de especialización, como los softwares de business intelligence (BI), los de estadística sin programación, las herramientas cloud o las herramientas de Big Data.
Durante el programa nos centraremos en R y Python, veremos cómo programar y entenderemos cómo trabajar los datos con estas herramientas. También tenéis algunos tutoriales con SPSS en etapa 2 para llevar a cabo estudios científicos sin programación.
Es el ABC de los cálculos y hay que utilizarlo siempre. El Excel es la herramienta más conocida y es muy interesante siempre que se tengan pocos registros (por debajo de 20.000-30.000 registros). Se puede utilizar con una pequeña fracción de los datos originales, y empezar a calcular algunos promedios y generar los primeros gráficos, para tener una primera idea. Es una herramienta complementaria pero muy importante.
Es un camino de especialización. Softwares como Power BI y Tableau, son muy potentes a la hora de crear dashboards y leer y cruzar diferentes bases de datos (crear modelo de datos). Se utilizan para tomar decisiones en empresas. Los dashboards se van actualizando de manera automática a tiempo real y de esta manera la empresa es mucho más controlable, su estrategia se basa en los datos.
Si quisieras especializarte en esta vía te recomendaría Power BI.
Es un camino de especialización siempre y cuando seas investigador. Los prinicpales son SPSS, JASP (gratuito) y Minitab, útiles sobre todo de ciencias de la vida, con estos softwares puedes responder muchas preguntas de investigación.
Minitab y SPSS son softwares comerciales. El problema de estos softwares es la poca flexibilidad que tienen a la hora de trabajar los datos.
Si quieres ser Científico de Datos tienes que utilizar softwares de este grupo, donde se incluyen herramientas estadísticas, de machine learning, Deep learning, etc.
La primera herramienta de la que hablaremos será R:
La segunda herramienta de la que hablaremos será Python:
Python puede abarcar mucho más que R, incluyendo técnicas de machine learning, Deep learning, análisis de series de tiempo, imágenes, etc. Es un lenguaje de programación altamente utilizado en muchos sectores.
R sería un lenguaje más investigativo, tiene más estadística. Python está más orientado a la aplicación en la empresa, es muy flexible y potente, combinando capacidad y simplicidad en muchos casos. La elección entre uno y otro depende del objetivo, Python es más para Deep learning, series de tiempo e imágenes y R es más para estadística y ciencia.
Muy interesantes para hacer consultas a bases de datos. Es otro “must” para un Científico de Datos. Se puede cargar desde R y Python para hacer consultas de datos.
Es una vía de especialización. Sirven para hacer cálculos a partir de la nube. Entrenar algoritmos sin utilizar R o Python. Son cajas negras que funcionan, pero tienen sus limitaciones, sobre todo sino entiendes la esencia de las técnicas.
Es una vía de especialización.
Los softwares que necesitas dominar primero como científico de datos es R o Python. Escoge una de ellas en base a tus características y objetivos.
El siguiente paso es familiarizarte con softwares de bases de datos como SQL. Excel debería acompañarte siempre sobre todo en la primera fase de tus proyectos.
Lo más importante de la lección: