¿Qué tan estructurados están sus datos? Examen de datos estructurados, no estructurados y semiestructurados

Autor: Roger Morrison
Fecha De Creación: 25 Septiembre 2021
Fecha De Actualización: 19 Junio 2024
Anonim
¿Qué tan estructurados están sus datos? Examen de datos estructurados, no estructurados y semiestructurados - Tecnología
¿Qué tan estructurados están sus datos? Examen de datos estructurados, no estructurados y semiestructurados - Tecnología

Contenido



Fuente: monsitj / iStockphoto

Para llevar:

Aprenda sobre datos estructurados, no estructurados y semiestructurados.

Históricamente, los analistas de datos fueron capaces de descifrar y extraer información de un solo tipo de datos: los datos estructurados. Este tipo de datos era fácil de buscar debido a sus patrones claros, pero representaba un porcentaje menor del total de datos disponibles.

Los datos no estructurados incluyen video, audio, sy datos provenientes de redes sociales y dispositivos móviles también. Era, sin lugar a dudas, la mayor reserva de información en bruto disponible, sin embargo, nadie pudo aprovechar este recurso de manera confiable.

Sin embargo, las cosas han cambiado, ya que la mayor disponibilidad de almacenamiento y las capacidades de procesamiento superiores dieron lugar al análisis de datos no estructurados, una forma de tecnología nueva y, por lo tanto, inmadura. Una mejor inteligencia de negocios está aprovechando al máximo esta oportunidad, y se están realizando inversiones sustanciales para agregar análisis de datos estructurados y no estructurados para acceder a esta mina de oro aparentemente interminable de información.


Echemos un vistazo a estos dos formatos de datos para comprender sus diferencias y lo que depara el futuro para todos los analistas de datos.

¿Qué son los datos estructurados?

Los datos estructurados son información altamente organizada generada por humanos o máquinas que puede almacenarse fácilmente en estructuras de bases de datos de filas conocidas como bases de datos relacionales (RDB). Es cualquier cosa que exista en un formato que pueda capturarse, almacenarse y organizarse fácilmente en una estructura RDB para su posterior análisis. (Para obtener más información sobre bases de datos, consulte nuestra Introducción a las bases de datos).

Los ejemplos incluyen códigos postales, números de teléfono y datos demográficos del usuario, como la edad o el sexo. Los datos encontrados en estas bases de datos se pueden consultar con el lenguaje de consulta estructurado (SQL) o las funciones de BUSCARV dentro de las hojas de cálculo de Excel. También se pueden hacer algoritmos para buscar rápidamente los datos encontrados en los diversos campos utilizando sus índices o sus datos numéricos y alfabéticos. Sin embargo, todos los datos están estrictamente definidos en términos de tipo y nombre de campo, y la capacidad de almacenarlos, consultarlos y analizarlos está restringida en cierta medida.


Las aplicaciones típicas que usan datos estructurados incluyen el software de gestión hospitalaria, las aplicaciones de gestión de relaciones con el cliente (CRM) y los sistemas de reserva de aerolíneas. Debido a su ordenada organización y fácil accesibilidad, los datos estructurados son útiles y eficientes cuando se trata de grandes volúmenes de información. Sin embargo, cuando se busca el aceite negro oculto en la cantidad interminable de datos producidos todos los días por la humanidad, la búsqueda de datos estructurados no es más que rascar la superficie.

¿Qué son los datos no estructurados?

La gran mayoría de los datos encontrados en una organización no están estructurados, y algunos lo estiman como hasta el 80 por ciento del total de datos disponibles actualmente. Por definición, los datos no estructurados son todo lo que no tiene una estructura interna identificable. Sin embargo, algunos tipos de datos pertenecen a esta categoría. tener alguna forma de estructura interna vaga, sin embargo, no se ajusta a una base de datos u hoja de cálculo.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida


No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

La mayoría de los datos comerciales no están estructurados, desde interacciones de servicio al cliente, archivos, registros web, videos y otro contenido multimedia, automatización de ventas, y publicaciones en redes sociales. No hay necesidad de explicar qué tan valiosos podrían ser estos datos si se pudieran extraer, organizar y analizar.

La mayoría de los datos no estructurados son generados por humanos y, por lo tanto, otros humanos los entienden. Esto significa que la inteligencia informática más ordenada no comprende este tipo de información, ya que está demasiado lejos de la linealidad del lenguaje de máquina y las bases de datos estructuradas.

Caída en el medio: datos semiestructurados

Los datos semiestructurados son un tercer tipo de datos que representan una porción mucho más pequeña de todo el pastel (5-10 por ciento). Literalmente atrapados entre ambos mundos, los datos semiestructurados contienen etiquetas semánticas internas y marcas que identifican elementos separados, pero carecen de la estructura requerida para caber en una base de datos relacional.

Por ejemplo, los s pueden parecer datos estructurados, ya que podrían clasificarse por fecha, tamaño de archivo u hora. Sin embargo, no lo son, ya que la información más valiosa se encuentra dentro de ellos, en lugar de sus etiquetas relativamente simples. No puede estar realmente organizado por contenido y tema, ya que los humanos no hablan en patrones tan estrictos para permitir que una máquina los entienda inequívocamente. Otros ejemplos de datos semiestructurados incluyen bases de datos NoSQL, el estándar abierto JSON y el lenguaje de marcado XML.

Los datos semiestructurados generalmente se consultan y catalogan para su análisis mediante el análisis de metadatos. Por ejemplo, un escaneo de rayos X consiste en una gran cantidad de píxeles que forman la imagen, que son datos inherentemente no estructurados a los que no se puede acceder. Sin embargo, el archivo de escaneo aún incluirá una parte de metadatos que brinde información al respecto, como anotaciones e ID de usuario.

¿Se pueden transformar los datos no estructurados en datos estructurados?

El desafío fundamental que cada analista de datos debe enfrentar es organizar la información en cuestión de una manera ordenada y ordenada para que pueda accederse y entenderse. Las herramientas de minería de datos generalmente no están equipadas para analizar información que, por definición, es muy parecida al lenguaje humano, lo que significa que solo otro humano puede recopilarla y clasificarla.

Sin embargo, el gran volumen de datos no estructurados hace que cualquier intento de almacenarlos u organizarlos sea extremadamente laborioso y costoso. El conjunto de información proveniente de, por ejemplo, un motor de búsqueda basado en la web es tan enorme que la mayoría de los elementos requieren una gran inversión en términos de trabajo y recursos solo para extraer los más básicos. Incluso las técnicas de minería de datos más eficientes aún pierden una cantidad sustancial de información que se encuentra en la web y, lo que es peor, dentro de la web profunda.

Pero las técnicas existen. Y se están desarrollando a una velocidad asombrosa. Por ejemplo, los metadatos podrían usarse para conectar datos estructurados y no estructurados. La información recolectada puede ser filtrada e indexada tanto por los usuarios como por los algoritmos, para analizar datos relevantes. Otras soluciones incluyen la "disputa de datos", que es un proceso a través del cual los usuarios no técnicos organizan progresivamente datos complejos progresivamente. (Para obtener más información sobre los usuarios comunes que manejan datos, consulte Cómo Big Data puede ayudar en el análisis de autoservicio).

En algún momento, podremos transformar eficientemente estas cantidades de información masivamente desorganizadas en un formato más organizado y reestructurado. Tal vez no hoy, tal vez no mañana, pero pronto podremos atacar la bóveda más grande que la humanidad haya visto: los grandes datos.