ABCDEFGHIJKLMNOPQRSTUVWXYZ
1
Taller IPreguntasRespuestas
2
La primera, relacionada con el por qué elegir python, y comprendo que, principalmente se trata por su simpleza, pero dado que se está poniendo en boga, de a poco, Rust, ¿por qué seguiría siendo preferible Python en lugar de Rust?
Andres, como estas. Si, python es mas amigable. Pero al final dela sesion te van a dar todas las respuestas.
3
La segunda, refiere a si tanto Google Collab y Anaconda, son IDEs desde las que ejecutar los scripts que se escriban en Python. Hola Andres, la verdad no conozco Rust. En relación a los entornos, si , son IDEs.
4
Buenas tardes! Podrán compartir las diapositivas y los archivos que usemos durante el curso por favor?Milagros, van a estar disponibles en el sitio de la OLACEFS pero tbien se enviaran los links a los correos.
5
Buenas tardes, a mi me interesaría saber si hay un listado de códigos para saber qué utilizar, y si tienen uno que recomienden. GraciasHola Pablo, en general utf-8 y latin1 son los más utilizados. Es a prueba y error salvo que conozcas la base de antemano. Lo mismo para el separador, puede ser , o
6
¿Se puede utilizar cualquier formato?Python soporte muchos tipos de origenes de datos, como csv, excel, sql, Json, entre otros
7
Si utilizo varias DB, la puedo leer todas al inicio o una cada vez que la requieraHola ! ahi el liimite va a ser la memoria. Sugiero ir levantando las bases a medida que las vas necesitando. Una buena forma de descargar una base es asignarle el valor 0 al panda cuando no la necesites mas
8
Buenas tardes. Si se colocan datos en la nube, que tan seguro es manejarlos sin que sufran la intromición de otros?Hola Maira, este taller es con fines académicos. Te invitamos a consultar con tu EFS para cumplir con sus requerimientos de seguridad al analizar datos.
9
Buenas tardes, De dónde se toma el dato del encoding que se requiere a veces específicar?Excelente pregunta. Lamentablemente, es prueba y error. Si ver los datos se ven mal, se prueba con otro. Los más comunes son utf-8 y latin1
10
Si quiero visualizar toda la base de datos, hay alguna forma de escribirlo o tengo que conocer previamente la cantidad de líneas que tiene la base?Hola Julieta, No es necesario que conozcas el numero de registros para realizar ninguna operación, si entendí bien la pregunta
11
Buena tarde, una consulta, puedo accesar desde Python a cubos de informacion (BI)???si, Pandas permite trabajar en 3 dimensiones. y hay muchísimas librerías que se pueden instalar, importar y usar
12
En el acceso a columnas se colocó proveedor y luego importe, pero puedo cambiar el orden sin ningún problema o de acuerdo a como vayan los datos en la base inicial debo colocar así mismo el orden en la fórmula?
se puede cambiar el orden sin problema. El orden indica en que orden se muestra en pantalla
13
Que eficiente es Python a nivel de preform o tiempos de respuesta con cantidades grandes de información?
Hola ! con %time antes y despues podes medir cuanto tarda en realizar una tarea. El limite va a ser la memoria más que nada. Con 32 GB de RAM pude realizar tareas complejas en 3 millones de registros sin problemas. Para esa cantidad de registros también se utilizar paralelizar, por ejemplo con la librería DASK
14
Hola, si hay mas registros de 5 como podemos verloHola Joanne, si quitas el .head veras todos. El .head al final muestra las primeras N filas, por defecto 5
15
Buenas tardes es posible utilizar para cargar los datos archivos en excel en lugar de archivos separados por comas CSV, gracias por la respuestaSi David, Python permite importar csv, excel, txt, SQL, Json, entre otros
16
buenas tardes desde Uruguay, ¿donde encontramos los comandos, hay un glosario que se pueda consultar o un manual? graciasHola Gabriela, Python tiene muchísima documentación accesible desde cualquier buscador. Si buscas pandas python solamente vas a encontrar muchísimo material
17
donde encontramos un diccionario de estas funcionespondremos a disposición material complementario mañana.
18
SE PROVEE EL MATERIAL POR E MAIL? GRACIASHola Patricia, el material esta en el sitio que pusimos en el chat. A partir de mañana luego de la sesion II.
19
Gracias y podria realizar conexiones con bases de datos locales o remotas como son MySQL, Oracle, SQL Server o Postgresql
Estimado David, se podría realizar conexiones a las bases de datos que mencionas, pero para eso se necesitan librerias que ofrezcan la posibilidad de realizar dichas conexiones. Como dependen del motor de base de datos a utilizar, cada cliente de conexion podría ser distinto. Algunas bases utilizan un standard llamado ODBC, pero mantiene el mismo espiritu: lograr conectar nuestros programa de Python con la base de datos. Una vez establecida la conexion, se pueden cargar los datos en las estructuras de datos que vemos en este taller y continuar trabajando aplicando todo lo que estamos viendo en este taller. Como los procesos de conexion a la base excede un poco el alcance de este taller, si queres trabajar con alguna en particular podes preguntarnos y te podemos orientar un poco mejor.
20
len o count sería lo mismo?
Estimada Rosana, len toma la cantidad de filas del dataset o conjunto de datos (cantidad de filas del excel). Count agrupa y suma la cantidad de filas por columnas. Si mi tabla tiene 3 columnas, count me devuelve la cantidad de filas que contiene cada una de las columnas.
21
Cuando usamos drop. duplicated, se eliminan de la base o de mi vista, es decir la base no se toca no?Se genera un nuevo df (con esas caracteristicas), luego puedes analizar y cruzar los datos para evaluar.
22
En ese caso de la función fillna, se podría directamente hacerlo sobre todo el df?si Natalia , asi es
23
Buenas tardes al colocar NaN en los datos faltantes no estariamos alterando la información entregada por la entidad examinada, generalmente para garantizar el no repudio entre las partes se suele generar el hash del archivo entregado, gracias por la respuesta
David, la informacion original siempre se mantiene. El ejercicio muestra que se pueden segmentar en bases con diferentes calificaciones, y asi ayudar en el proceso del control.
24
las tablas confeccionadas se pueden descargar?live answered
25
Buenas tardes, quería saber si python permite también seleccionar aleatoriamente y mostrar los registros para cumplir con el tamaño de la muestra obtenido usando la fórmula de muestreo aleatorio simple. Gracias
si, me parece super interesante, lo vamos a agregar en el notebook
26
Se podrian analizar dos bases de datos a la vez?asi es. el límite más que nada es la memoria RAM que tenga el equipo
27
para los duplicados hay alguna forma de detectar casos en los que por ejemplo me diga que los apellidos Lozano y Losano son los mismos, o casos que suceden como Nuñez y Nunez, o que recomiendan para estos casos?
Si Hector. Se llama expresiones regulares, pero excede el tiempo que tenemos en este taller.
28
Va a haber ejercicios?No en este caso Rosana.
29
30
Taller IIPreguntasRespuestas
31
Las sesiones quedan grabadas y las podemos ver despues?Asi es, en la web de CTIC va a estar todo el material disponible
32
Es posible analizar millones de registros, cerca de 400 gigas y cruzarlos con otros 300 gigas? mediante google colab? o en ese caso ya se recomiedna hacerlo de forma local?
Google Colab nos da una maquina virtual de 12 gb de RAM sin cargo. Para cruzar esa cantidad de datos vas a necesitar más. Quizas podrías explorar otras librerías, como DASK que paraleliza tareas (parte el panda en N pandas) para trabajar con grandes datos. Otra alternativa es hacer un muestreo aleatorio simple al leer la base
33
Buenas tardes Mario Tausa, CGR
34
Buenas tardes! Es posible generar gráficos georeferenciados? Por ejemplo, con mapas vectoriales, marcar las provincias con superávit y déficit fiscal…Si es posible. Te recomiendo mirar Plotly. No la vamos a ver en el taller, porque es más compleja, pero funciona muy bien con datos georeferenciales
35
Bárbaro! Muchas gracias
36
¿Hay librerías habituales para análisis de datos?¿Cómo sabemos cuáles importar?agregamos en los notebooks referencias a las mismas:
37
Con Python se pueden analizar dos bases de datos simultáneamente?Sí Ana, y más también. Es deseable que tengan algún campo en común
38
Buenas tardes, por el tema de la confidencialidad... como ustedes saben como entidad de control muchas veces revisamos información sensible... qué clase de confidencialidad o seguridades me ofrece Google Colab si tengo que subir una base de datos con información susceptible y que me asegura que esta información no se quede en archivos temporales o deje algún tipo de copia en servidores externos?
39
Con drop se elimina la columna de la base de datos original o solo del archivo data frame que estamos trabajando?Hola Karen, siempre del DataFrame
40
Buenas tardes, nosotros para la auditoria usamos mucho la herramienta ACL, mediante la cual podemos hacer muestreos aleatorios de unidades monetarias o registros, y nos permite luego en base a los errores, extrapolar automáticamente al total de la población. Con esta herramienta se puede hacer eso?
Hola Matías, trabajar con muestras sí. con extrapolar no me queda claro el alcance, pero Python tiene miles de librerías, seguramente se puede.
41
Este programa tendria mas utilidad para el auditor que puede obtener informacion sensible exclusivamente de organizaciones a modo de investigación o puede ser utilizada por otras áreas de la auditoria.
Python como lenguaje tiene muchas utilidades. Es una herramienta más y esperamos que les interese profundizar sobre la misma. Saludos Sergio
42
como interpretar el grafico de calorHola Hugo, el mapa de calor nos muestra la correlación entre dos variables utilizando colores. La correlación va de -1 a 1 donde 0 es que no tienen correlación
43
Pregunta: cuando hablan de “Librerias”, lo que realmente quieren apuntar es a las “bibliotecas” de datos? Muchas gracias.Hola Carolina, librerías son "extensiones" que se instalan. Como complementos que se "agregan" a Python
44
Tengo bases de datos incompletas que envío el auditado. Yo puedo depurarlas, limpiarlas agregando faltantes o estaría modificando lo enviado originalmente?
live answered
45
Es que hay una diferencia de método, antes se trabaja con muestreos aleatorios pero se corría el riesgo que en ese muestreo no quedaran los elementos más relevantes para la realización de las auditorías. Con estos nuevos análisis de datos, toda la muestra resulta relevante y en muchas ocasiones ya practicamente son indicios, sobre los cuales al efectuar la auditoría se llega a mejores resultados y más concretos.
Claro Juan, hay formas de medir la representatividad de la muestra, pero hoy en general la tecnología avanzó tanto que se puede analizar el total
46
Entendido: como “bibliotecas” agregadas a Python.exacto
47
Por ej columnas en las que faltan números de expedientes, otra no tiene todas las órdenes de compras, en la de cantidades y precios algunas celdas vacías tb…
Hola Ana, el tema es muy interesante, creo que es una discusión pendiente pero excede este taller y a la CTIC. Voy a proponer hacer algún encuentro al respecto para que en conjunto entre auditores de campo, referentes legales y gente de tecnología podamos agregar valor a la discusión
48
Mariano, muchas gracias, esto representa un cambio de paradigma frente a los metodos tradicionales, lo que se puede hacer ahora, antes se consideraba imposible. Me ha gustado el enfoque que se ha dado dentro de la sesión, se está mostrando justo lo que nos encontramos en la vida real, donde los datos no son perfectos y se debe hacer una adecuación de ellos, sin que ello signifique alteración de la información. Muy bien, excelente!!!
Muchas gracias Juan !
49
Hola Mariano y Cristian, quería preguntar si en proximos talleres o cuadernos ad hoc, se puede programar con python para hacer "relaciones" con mas de una BD en forma simultanea y relacionarlas con "cardinalidad" con claves primarias y secundarias, relaciones de "uno a todos o viceversa"como es el caso de Power BI que las procesa y permite realizar presentaciones dinámicas, si es que resulta procedente la pregunta para este caso. Gracias Gustavo
Hola Gustavo, tomamos la idea. Para un introductorio nos pareció demasiado, pero es una excelente idea, lo voy a proponer
50
Cual es el link de Colab para ver el taller 1 y 2?Todo el material lo pondremos a disposición al finalizar. muchas gracias !
51
como se indica que importe sumarHola Mónica, esta asociado al nombre de la columna, nose en que ejemplo, pero si recorres luego el Notebook o el video, vas a ver que hace referencia al nombre de la columna con la que querramos trabajar
52
en donde podemos consultar los notbook??Los pondremos a disposición al finalizar el taller en la web de ctic olacefs.com/ctic
53
Si Mariano... gracias... justamente por eso te ponía si era procedente... porque me imaginaba que es un taller ppd de esos temas... pero queria saber si es que se puede hacer... Gracias nuevamente... Gustavo
54
La verdad es un tema muy complejo que bueno que todos los profesionales de un grupo auditor pudieramos clasificar los datos con un conocimiento tecnico cientifico, que nos permita obtener una muestra objetiva y debidamente soportada, me pregunto si es posible crear libros con formulas prediseñadas, que permitan a los auditores que no contamos con el conocimiento suficiente para ello, alimentar con los datos obtenidos en el conocimeito y la gestión de los entes de control en presupuesto, contratación, etc, obtener las muestras y analisis dirigidos al cumplimiento de la acción fiscalizadora.
Beatriz, perfectamente posible lo que propones. Solo que hay que tener en cuenta la materia a auditar y los tipos de datos que se van a procesar y evaluar. Para los auditores, Phyton es un lujo, por que permite trabajar sobre las anomalias directamente. Y no apoyados solamente sobre las muestras.
55
La IA es un sistema experto??Hola Cesar, no entiendo la pregunta. La IA es un conjunto de tecnologías que promueve realizar tareas que se asemejen al intelecto humano o cognitivo
56
linkk de los videos y Notebooken breve en olacefs.com/ctic
57
Por favor, si pueden recomendar algún sitio con ejercicios. Gracias!lo vamos a evaluar Rosana, muchas gracias
58
El material se puede compartir en nuestra EFS para consulta?, la verdad es muy interesante, practico y util para los auditoressi claro, es de uso libre, va a estar público en la web de olacefs.com/ctic
59
Excelentes expositores, con alto nivel de conocimiento para hacer sencillo lo complejoMuchas gracias ! un placer compartir con ustedes estas dos tardes
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100