Laboratorio de datos

Licenciatura en Ciencia de Datos

Guillermo Solovey

Instituto de Cálculo, UBA-CONICET

Docentes

  • Dario Elías (ayudante de primera)
  • Yamila Alen (ayudante de primera)
  • Guillermo Solovey (profesor)

Vacantes

  • ¿A todos los presentes les llegó un mail confirmando la vacante?

  • Si no pueden cursar, avisen a la brevedad porque hay inscriptos en lista de espera.

Estructura de la materia

  • Teórico-práctica
  • Laboratorio 1103!
  • R
  • Para aprobar la materia es necesario:
    • Asistir al ~80% de las clases (11 clases).
    • Trabajar en clase.
    • Aprobar 2 TPs grupales (nota mayor o igual a 4).
    • Aprobar el parcial individual (nota mayor a 6).
  • Nota final = \(0.6 \times \text{nota parcial} + 0.2 \times \text{nota TP1} + 0.2 \times \text{nota TP2} + x\)

\[ x = \left\{\begin{aligned} 1 & \text{ si el promedio de los TPs es mayor o igual a 8}\\ 0 & \text{ si el promedio de los TPs es menor a 8} \end{aligned}\right. \]

Comunicación

Fecha de parcial

  • Parcial. Viernes 17 de noviembre.

  • Recuperatorio. Viernes 1 de diciembre.

  • Por inconvenientes con las fechas completar a la brevedad este formulario y vemos de adelantarles la fecha.

Programa

En líneas generales:

  • Organización de datos.

  • Visualización, descripción y análisis exploratorio de datos.

  • Modelado de datos (modelos explicativos y predictivos).

  • Cronograma

Material de estudio

  • los slides de las clases son material didáctico.
  • la bibliografía de referencia va a estar en las slides de cada clase.
  • traer cuaderno (no cuenten sólo con la computadora).
  • no se queden únicamente con lo que hacen en clase. se requiere mucha práctica.

¡Empezamos!

¿Qué es la ciencia de datos?

  • “…allows you to turn raw data into understanding, insight, and knowledge” (Wickham, Çetinkaya-Rundel, and Grolemund). https://r4ds.hadley.nz/
  • “…the process of formulating a quantitative question that can be answered with data, collecting and cleaning the data, analyzing the data, and communicating the answer to the question to a relevant audience” (Leek and Peng). http://jtleek.com/ads2020/
  • “…the process of generating insight from data through reproducible and auditable processes” (Timbers, Campbell, and Lee). https://datasciencebook.ca/

Tarea para el 25/8: leer el capítulo 1 de Telling Stories with data

¿Qué es la ciencia de datos?

  • Se define por las preguntas que se hace: es la ciencia que usa datos para describir, explicar y predecir.
  • No se define por las técnicas: no es la ciencia que usa deep learning.

¿Qué es la ciencia de datos?

Taxonomía de preguntas:

  • descriptiva: resumir caracteristicas de un data set. sin interpretación, como atributos de los datos (LdD + IECS).
  • exploratorias: buscar patrones, tendencias, relaciones entre variables. sirve para generar hipótesis (LdD)
  • inferenciales: evaluar hipotesis, respecto a un patron encontrado en un análisis exploratorio (lo van a ver en IECS).
  • predictivas: adivinar qué va a suceder, sin importar la causa (LdD,…).
  • causales: ¿cambiar una variable, cambia el valor de otra variable? ej.: test A/B
  • mecanisticas: ¿cómo ocurre?
  • Tarea para el 25/8: leer el capítulo 1-3 de The art of data science

R / RStudio!

RStudio

RStudio

RStudio

RStudio

RStudio