Limpieza de datos

Autor: Randy Alexander
Fecha De Creación: 26 Abril 2021
Fecha De Actualización: 1 Mes De Julio 2024
Anonim
Limpieza de datos con python
Video: Limpieza de datos con python

Contenido

Definición - ¿Qué significa la limpieza de datos?

La limpieza de datos es el proceso de alterar los datos en un recurso de almacenamiento determinado para asegurarse de que sean precisos y correctos. Hay muchas formas de realizar la limpieza de datos en varias arquitecturas de software y almacenamiento de datos; la mayoría de ellos se centran en la revisión cuidadosa de los conjuntos de datos y los protocolos asociados con cualquier tecnología de almacenamiento de datos en particular.


La limpieza de datos también se conoce como limpieza de datos o depuración de datos.

Una introducción a Microsoft Azure y la nube de Microsoft | A lo largo de esta guía, aprenderá de qué se trata la computación en la nube y cómo Microsoft Azure puede ayudarlo a migrar y administrar su negocio desde la nube.

Techopedia explica la limpieza de datos

La limpieza de datos a veces se compara con la purga de datos, donde los datos antiguos o inútiles se eliminarán de un conjunto de datos. Aunque la limpieza de datos puede implicar la eliminación de datos antiguos, incompletos o duplicados, la limpieza de datos es diferente de la purga de datos, ya que la purga de datos generalmente se enfoca en liberar espacio para nuevos datos, mientras que la limpieza de datos se enfoca en maximizar la precisión de los datos en un sistema. Un método de limpieza de datos puede usar análisis u otros métodos para deshacerse de los errores de sintaxis, errores tipográficos o fragmentos de registros. Un análisis cuidadoso de un conjunto de datos puede mostrar cómo la fusión de múltiples conjuntos condujo a la duplicación, en cuyo caso la limpieza de datos puede usarse para solucionar el problema.


Muchos problemas relacionados con la limpieza de datos son similares a los problemas que enfrentan los archiveros, el personal administrativo de la base de datos y otros en torno a procesos como el mantenimiento de datos, la minería de datos dirigida y la metodología de extracción, transformación, carga (ETL), donde los datos antiguos se vuelven a cargar en un nuevo conjunto de datos. Estos problemas a menudo se refieren a la sintaxis y al uso específico de comandos para efectuar tareas relacionadas en tecnologías de bases de datos y servidores como SQL u Oracle. La administración de bases de datos es una función muy importante en muchas empresas y organizaciones que dependen de grandes conjuntos de datos y registros precisos para el comercio o cualquier otra iniciativa.