7 pasos para aprender minería de datos y ciencia de datos

Autor: Eugene Taylor
Fecha De Creación: 12 Agosto 2021
Fecha De Actualización: 22 Junio 2024
Anonim
7 pasos para aprender minería de datos y ciencia de datos - Tecnología
7 pasos para aprender minería de datos y ciencia de datos - Tecnología

Contenido


Fuente: Paul Fleet / Dreamstime.com

Para llevar:

La ciencia de datos se aprende mejor haciendo, pero una buena base de estadísticas y aprendizaje automático también es importante.

Con frecuencia me preguntan cómo aprender minería de datos y ciencia de datos. Aquí está mi resumen.

Puede aprender mejor la minería de datos y la ciencia de datos, así que comience a analizar los datos lo antes posible. Sin embargo, no olvide aprender la teoría, ya que necesita una buena base estadística y de aprendizaje automático para comprender lo que está haciendo y para encontrar pepitas reales de valor en el ruido de los grandes datos.

Aquí hay siete pasos para aprender minería de datos y ciencia de datos. Aunque están numerados, puede hacerlo en paralelo o en un orden diferente.

  1. Lenguajes: Aprenda R, Python y SQL
  2. Herramientas: aprenda a utilizar las herramientas de visualización y minería de datos
  3. libros: lea libros introductorios para comprender los fundamentos
  4. Educación: vea seminarios web, tome cursos y considere un certificado o un título en ciencias de datos (Lea más en Ben Loricas Cómo nutrir a un científico de datos).
  5. Datos: verifique los recursos de datos disponibles y encuentre algo allí
  6. Concursos: participe en concursos de minería de datos
  7. Interactuar con otros científicos de datos, a través de redes sociales, grupos y reuniones.

En este artículo, uso indistintamente la minería de datos y la ciencia de datos. Vea mi presentación, Descripción general de la industria analítica, donde miro la evolución y popularidad de diferentes términos como estadísticas, descubrimiento de conocimiento, minería de datos, análisis predictivo, ciencia de datos y big data.


1. Aprendiendo idiomas

Una encuesta reciente de KDnuggets encontró que los lenguajes más populares para la minería de datos son R, Python y SQL. Hay muchos recursos para cada uno, por ejemplo:

  • Libro electrónico gratuito sobre ciencia de datos con R
  • Comenzando con Python para Data Science
  • Python para el análisis de datos: herramientas ágiles para datos del mundo real
  • Un Python indispensable: el abastecimiento de datos a la ciencia de datos
  • Escuelas W3 que aprenden SQL

2. Herramientas: minería de datos, ciencia de datos y software de visualización

Existen muchas herramientas de minería de datos para diferentes tareas, pero es mejor aprender a usar un conjunto de minería de datos que admita todo el proceso de análisis de datos. Puede comenzar con herramientas de código abierto (gratuitas) como KNIME, RapidMiner y Weka.


Sin embargo, para muchos trabajos de análisis debe conocer SAS, que es la herramienta comercial líder y ampliamente utilizada. Otros softwares populares de análisis y minería de datos incluyen MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler y Rattle.

Sin errores, sin estrés: su guía paso a paso para crear software que cambie su vida sin destruir su vida

No puede mejorar sus habilidades de programación cuando a nadie le importa la calidad del software.

La visualización es una parte esencial de cualquier análisis de datos. Aprenda a usar Microsoft Excel (bueno para muchas tareas más simples), gráficos R (especialmente ggplot2) y también Tableau, un excelente paquete para visualización. Otras buenas herramientas de visualización incluyen TIBCO Spotfire y Miner3D.

3. libros

Hay muchos libros de minería de datos y ciencia de datos disponibles, pero puede consultarlos:

  • Minería y análisis de datos: Conceptos fundamentales y algoritmos, descarga gratuita en PDF (borrador), por Mohammed Zaki y Wagner Meira Jr.
  • Minería de datos: herramientas y técnicas prácticas de aprendizaje automático, por Ian Witten, Eibe Frank y Mark Hall, de los autores de Weka, y el uso extensivo de Weka en ejemplos
  • Los elementos de aprendizaje estadístico, minería de datos, inferencia y predicción, por Trevor Hastie, Robert Tibshirani, Jerome Friedman. Una gran introducción para los matemáticamente orientados.
  • LIONbook: Aprendizaje y optimización inteligente, por Roberto Battiti y Mauro Brunato, disponible gratuitamente en la Web, capítulo por capítulo
  • Mining of Massive Datasets Book, por A. Rajaraman, J. Ullman
  • El libro StatSoft Electronic Statistics (gratuito), incluye muchos temas de minería de datos

4. Educación: seminarios web, cursos, certificados y títulos

Puede comenzar viendo algunos de los muchos seminarios web gratuitos y transmisiones web sobre los últimos temas en análisis, big data, minería de datos y ciencia de datos.

También hay muchos cursos en línea, cortos y largos, muchos de ellos gratuitos. (Consulte el directorio de educación en línea de KDnuggets).

Consulte en particular estos cursos:

  • Machine Learning, en Coursera, impartido por Andrew Ng
  • Aprendiendo de los datos en edX, impartido por el profesor de Caltech Yaser Abu-Mostafa
  • Curso abierto en línea en ciencia de datos aplicados, de Syracuse iSchool
  • Minería de datos con Weka, curso en línea gratuito
  • Consulte también las diapositivas en línea gratuitas de mi Curso de minería de datos, un curso introductorio de un semestre de duración en minería de datos

Finalmente, considere obtener certificados en minería de datos y ciencias de datos o títulos avanzados, como una maestría en ciencias de datos.

5. Datos

Necesitará datos para analizar: consulte el directorio KDnuggets de conjuntos de datos para minería de datos, que incluye:

  • Sitios y portales de datos gubernamentales, federales, estatales, municipales, locales y públicos
  • API de datos, centros, mercados, plataformas, portales y motores de búsqueda.
  • Conjuntos de datos públicos gratuitos

6. Competiciones

Nuevamente, aprenderás mejor haciendo, así que participa en las competencias de Kaggle. Comience con competencias para principiantes, como predecir la supervivencia del Titanic usando el aprendizaje automático.

7. Interactuar: reuniones, grupos y redes sociales

Puedes unirte a muchos grupos de pares. Vea los 30 principales grupos de LinkedIn para análisis, Big Data, minería de datos y ciencia de datos.

AnalyticBridge es una comunidad activa para análisis y ciencia de datos.

Puede asistir a algunas de las muchas reuniones y conferencias sobre análisis, Big Data, minería de datos, ciencia de datos y descubrimiento de conocimiento.

Además, considere unirse a ACM SIGKDD, que organiza la conferencia anual de KDD, la conferencia de investigación líder en el campo.

Este artículo es de caña de KDNuggets.com. Se ha utilizado con permiso del autor.