¿Qué es la limpieza de datos?
Se detectan y remueven errores e inconsistencias desde los datos para proveer la calidad de datos.
¿Cuál es el objetivo de la limpieza?
El objetivo es detectar y eliminar todos los errores e incoherencias importantes tanto en las fuentes de datos individuales como al integrar múltiples fuentes. El enfoque debe ser respaldado por herramientas que limiten la inspección manual y el esfuerzo de programación y sean extensibles para cubrir fácilmente fuentes adicionales. Además, la limpieza de datos no se debe realizar de forma aislada, sino junto con transformaciones de datos relacionadas con esquemas basadas en metadatos completos.
¿Qué significa Calidad de Datos?
Es una evaluación de la utilidad de los datos para cumplir su propósito en un contexto determinado.
¿Qué significa Gobierno de Datos?
La calidad de los datos de una fuente depende en gran medida del grado en que se rige por las restricciones de esquema e integridad que controlan los valores de datos permisibles.
¿Cuáles son los problemas que enfrenta hoy en día la Limpieza de Datos?
Un problema principal para limpiar datos de múltiples fuentes es identificar datos superpuestos, en particular registros coincidentes que se refieren a la misma entidad del mundo real.
Consecuentemente se ven reflejados como problemas de calidad de datos, estos se pueden clasificar como sigue:
- Problemas de fuente única:
- Nivel de esquema: falta de integridad, restricciones, pobres diseño del esquema.
- Nivel de instancia: errores de entrada de datos.
- Problemas de varias fuentes:
- Nivel de esquema: modelos de datos heterogéneos y diseños de esquema.
- NIvel de instancia: superposición, contradicción y datos inconsistentes.
¿Qué enfoques aborda para solventar dichos problemas?
Como la limpieza de las fuentes de datos es un proceso costoso, la prevención de la entrada de datos sucios es obviamente un paso importante para reducir el problema de limpieza.
¿Qué es el análisis de datos y cómo se puede utilizar para apoyar las tareas de limpieza de datos?
Es una evaluación de la utilidad de los datos para cumplir su propósito en un contexto determinado.
¿De qué forma los procesos ETL ayudan a efectuar la Limpieza de Datos?
En primer lugar son múltiples pasos donde cada uno quizá realice transformaciones(mapeo) de esquema y relaciones de instancia. Para permitir una transformación de datos y limpiar el sistema y por lo tanto reducir el monto de autoprogramación es necesario especificar las transformaciones requeridas en un lenguaje apropiado(como algunas herramientas ETL). Una forma más general y flexible es el uso del lenguaje SQL para realizar las transformaciones de datos y utilizar la posibilidad de especificar y aplicar las extensiones de lenguaje, en particular las funciones definidas, con estas funciones se pueden aplicar una gran cantidad de transformaciones para diferentes tareas de transformación y procesamiento de consultas.Estas funciones definidas aun implican un esfuerzo de implementación y no soportan todas las transformaciones de esquemas necesarios. Frecuentemente se necesitan funciones tal como división de atributos o mezclados que generalmente no son soportados pero se necesita aveces re-implementar en las aplicaciones.
Para transformaciones de esquemas relacionados, las extensiones de lenguaje tal como SchemaSQL son requeridos.
¿Qué mecanismos propondrías para eliminar o minimizar el impacto de la mala calidad de los datos?
Principalmente, creo que la forma más fácil de minimizar la mala calidad de datos es controlar el flujo de datos en el origen de las fuentes, es decir, la forma en que se almacenar o controlan los datos en estas fuentes. Teniendo un mayor control o restricciones desde el origen, para evitar varias transformaciones y tener una calidad de datos desde el comienzo.
Finalmente la limpieza de datos es un punto muy importante que se debe considerar en todo momento ya que de esta depende la información que obtendremos en el análisis. Para lograr esta calidad de datos impredecible, se puede lograr con varias herramientas o transformaciones que en ningún momento se debe olvidar ya que se pueden obtener varios problemas con esta calidad. En pocas palabras, la limpieza de datos es un gran esfuerzo que se requiere hacer para lograr eficiencia, veracidad, precisión, etc.
Comentarios
Publicar un comentario