El mercado de herramientas a tus pies

EL MAPA DE HERRAMIENTAS DE CIENCIA DE DATOS


ÍNDICE

1- Introducción        3

2- Tipos de softwares de ciencia de datos y Big Data        4

HOJA DE CÁLCULO        4

BI - dashboard        5

Softwares estadísticos sin programación        5

Softwares estadísticos con programación        5

Softwares ciencia de datos. + Estadística        5

Softwares ciencia de datos. + Deep learning        6

Bases de datos SQL        6

Herramientas Cloud        6

BIG DATA        7

3- Los softwares que necesitas dominar primero como científico de datos        7

4- Take away        8


1- Introducción

Las herramientas son un objeto brillante que reluce y nos encandila. Siempre nos enamoramos de la última herramienta de mercado, pero la realidad es que la esencia de analizar los datos es la clave del éxito del científico de datos.

En esta lección vas a conocer los softwares de ciencia de datos clave y los softwares de especialización para ser un auténtico científico de datos. La idea es que entiendas el mapa de herramientas y los diferentes lenguajes que vamos a trabajar.

Vas a descubrir:

2- Tipos de softwares de ciencia de datos y Big Data

Estos son los grupos/categorías de softwares que trabajan datos:

La combinación necesaria para dedicarse a la ciencia de datos estaría compuesta por hojas de cálculo (Excel), softwares de ciencia de datos (como R y Python) y softwares de bases de datos (como SQL). Existen otras vías de especialización, como los softwares de business intelligence (BI), los de estadística sin programación, las herramientas cloud o las herramientas de Big Data.

Durante el programa nos centraremos en R y Python, veremos cómo programar y entenderemos cómo trabajar los datos con estas herramientas. También tenéis algunos tutoriales con SPSS en etapa 2 para llevar a cabo estudios científicos sin programación.

HOJA DE CÁLCULO

Es el ABC de los cálculos y hay que utilizarlo siempre. El Excel es la herramienta más conocida y es muy interesante siempre que se tengan pocos registros (por debajo de 20.000-30.000 registros). Se puede utilizar con una pequeña fracción de los datos originales, y empezar a calcular algunos promedios y generar los primeros gráficos, para tener una primera idea. Es una herramienta complementaria pero muy importante. Icono

Descripción generada automáticamente

BI - dashboard

Es un camino de especialización.  Softwares como Power BI y Tableau, son muy potentes a la hora de crear dashboards y leer y cruzar diferentes bases de datos (crear modelo de datos). Se utilizan para tomar decisiones en empresas. Los dashboards se van actualizando de manera automática a tiempo real y de esta manera la empresa es mucho más controlable, su estrategia se basa en los datos. Interfaz de usuario gráfica

Descripción generada automáticamente

Si quisieras especializarte en esta vía te recomendaría Power BI.

Softwares estadísticos sin programación

Es un camino de especialización siempre y cuando seas investigador. Los prinicpales son SPSS, JASP (gratuito) y Minitab, útiles sobre todo de ciencias de la vida, con estos softwares puedes responder muchas preguntas de investigación. Imagen que contiene Diagrama

Descripción generada automáticamente

Minitab y SPSS son softwares comerciales. El problema de estos softwares es la poca flexibilidad que tienen a la hora de trabajar los datos.

Softwares estadísticos con programación

Si quieres ser Científico de Datos tienes que utilizar softwares de este grupo, donde se incluyen herramientas estadísticas, de machine learning, Deep learning, etc.

Softwares ciencia de datos. + EstadísticaIcono

Descripción generada automáticamente

La primera herramienta de la que hablaremos será R:

Softwares ciencia de datos. + Deep learning

La segunda herramienta de la que hablaremos será Python:

Python puede abarcar mucho más que R, incluyendo técnicas de machine learning, Deep learning, análisis de series de tiempo, imágenes, etc. Es un lenguaje de programación altamente utilizado en muchos sectores.Una caricatura de una persona

Descripción generada automáticamente con confianza media

R sería un lenguaje más investigativo, tiene más estadística. Python está más orientado a la aplicación en la empresa, es muy flexible y potente, combinando capacidad y simplicidad en muchos casos. La elección entre uno y otro depende del objetivo, Python es más para Deep learning, series de tiempo e imágenes y R es más para estadística y ciencia.

Bases de datos SQL

Muy interesantes para hacer consultas a bases de datos. Es otro “must” para un Científico de Datos. Se puede cargar desde R y Python para hacer consultas de datos.

Herramientas Cloud

Es una vía de especialización. Sirven para hacer cálculos a partir de la nube. Entrenar algoritmos sin utilizar R o Python. Son cajas negras que funcionan, pero tienen sus limitaciones, sobre todo sino entiendes la esencia de las técnicas.

BIG DATA

Es una vía de especialización. Diagrama

Descripción generada automáticamente

3- Los softwares que necesitas dominar primero como científico de datos

Los softwares que necesitas dominar primero como científico de datos es R o Python. Escoge una de ellas en base a tus características y objetivos.

Imagen que contiene Gráfico

Descripción generada automáticamente

El siguiente paso es familiarizarte con softwares de bases de datos como SQL. Excel debería acompañarte siempre sobre todo en la primera fase de tus proyectos.

4- Take away

Lo más importante de la lección: