¿Has intentado construir algunos proyectos de ciencia de datos para mejorar tu currículum y te has sentido intimidado por el tamaño del código y el número de conceptos utilizados? Te parece que está demasiado fuera de tu alcance y te ha chafado tus sueños de convertirte en un científico de datos? Hemos recopilado para ti dieciséis proyectos de ciencia de datos con código fuente para que puedas participar realmente en los proyectos de ciencia de datos en tiempo real. Estos ayudarán a aumentar la confianza y también le dirán al entrevistador que te tomas en serio la ciencia de los datos.
¿Sabes?
Encontrar una idea perfecta para tu proyecto es algo que te preocupa más que implementar el proyecto en sí, ¿no? Así que teniendo en cuenta lo mismo, hemos recopilado una lista de más de 500 ideas de proyectos sólo para ti. Todo lo que tienes que hacer es marcar este artículo y empezar.
- Proyectos Python
- Proyectos Python Django (Desarrollo Web)
- Proyectos Python de Desarrollo de Juegos
- Proyectos Python de Inteligencia Artificial
- Python Machine Learning Proyectos
- Proyectos de Ciencia de Datos en Python
- Proyectos de Aprendizaje Profundo en Python
- Proyectos de Visión Artificial en Python
- Proyectos de Internet de las Cosas en Python
En este blog, vamos a enumerar diferentes ejemplos de proyectos de ciencia de datos en los lenguajes R y Python. Vamos a separar estos en base a la dificultad para que tengas un camino adecuado a seguir.
¡Mantente actualizado con las últimas tendencias tecnológicas
Únete a DataFlair en Telegram!!
- Las mejores ideas de proyectos de ciencia de datos
- Proyectos de ciencia de datos para principiantes
- 1.1 Detección de noticias falsas
- 1.2 Detección de líneas de carril en carretera
- 1.3 Análisis de Sentimientos
- 1.4 Detección de la enfermedad de Parkinson
- 1.5 Detección de colores con Python
- 1.6 Detección de tumores cerebrales con ciencia de datos
- 1.7 Leaf Disease Detection
- Proyectos de ciencia de datos intermedios
- 2.1 Reconocimiento de la emoción del habla
- 2.2 Detección de género y edad con ciencia de datos
- 2.3 Retinopatía diabética
- 2.3 Análisis de datos de Uber en R
- 2.4 Detección de somnolencia del conductor en Python
- 2.5 Proyecto de Chatbot en Python
- 2.6 Proyecto de reconocimiento de dígitos manuscritos
- Proyectos avanzados de ciencia de datos
- 3.1 Proyecto generador de leyendas de imágenes en Python
- 3.2 Proyecto de detección de fraude en tarjetas de crédito
- 3.3 Sistema de recomendación de películas
- 3.4 Segmentación de clientes
- 3.5 Clasificación del cáncer de mama
- 3.6 Reconocimiento de señales de tráfico
- Summary
Las mejores ideas de proyectos de ciencia de datos
Aquí están las mejores ideas de proyectos de ciencia de datos con código fuente:
Proyectos de ciencia de datos para principiantes
1.1 Detección de noticias falsas
Impulsa tu carrera a nuevas alturas trabajando en Proyecto de ciencia de datos para principiantes – Detección de noticias falsas con Python
Un rey del periodismo amarillo, las noticias falsas son información falsa y bulos difundidos a través de las redes sociales y otros medios de comunicación en línea para lograr una agenda política. En esta idea de proyecto de ciencia de datos, utilizaremos Python para construir un modelo que pueda detectar con precisión si una noticia es real o falsa. Construiremos un TfidfVectorizer y utilizaremos un PassiveAggressiveClassifier para clasificar las noticias en “Real” y “Fake”. Utilizaremos un dataset de forma 7796×4 y ejecutaremos todo en Jupyter Lab.
Lenguaje: Python
Conjunto de datos/paquete: news.csv
1.2 Detección de líneas de carril en carretera
Consulta la implementación completa del proyecto de ciencia de datos de detección de líneas de carril: Detección de líneas de carril en tiempo real en Python
Idea de proyecto de ciencia de datos: Las líneas dibujadas en las carreteras guían a los conductores humanos donde están los carriles. También se refiere a la dirección para dirigir el vehículo. Esta aplicación es cardinal para el desarrollo de coches sin conductor.
Se puede construir una aplicación que tenga la capacidad de identificar las líneas de las vías a partir de imágenes de entrada o fotogramas de vídeo continuos.
1.3 Análisis de Sentimientos
Comprueba la implementación completa de Proyecto de Ciencia de Datos con Código Fuente – Proyecto de Análisis de Sentimientos en R
El análisis de sentimientos es el acto de analizar palabras para determinar sentimientos y opiniones que pueden ser positivos o negativos en polaridad. Es un tipo de clasificación donde las clases pueden ser binarias (positivo y negativo) o múltiples (feliz, enojado, triste, asqueado,..). Implementaremos este proyecto de ciencia de datos en el lenguaje R y utilizaremos el conjunto de datos del paquete ‘janeaustenR’. Utilizaremos léxicos de propósito general como AFINN, bing y loughran, realizaremos un inner join y, al final, construiremos una nube de palabras para mostrar el resultado.
Lenguaje: R
Conjunto de datos/paquete: janeaustenR
1.4 Detección de la enfermedad de Parkinson
Pon tu mejor pie adelante trabajando en Idea de proyecto de ciencia de datos – Detección de la enfermedad de Parkinson con XGBoost
Hemos empezado a utilizar la ciencia de datos para mejorar la atención sanitaria y los servicios – si podemos predecir una enfermedad de forma temprana, tiene muchas ventajas en el pronóstico. Así que en esta idea de proyecto de ciencia de datos, aprenderemos a detectar la enfermedad de Parkinson con Python. Se trata de un trastorno neurodegenerativo y progresivo del sistema nervioso central que afecta al movimiento y provoca temblores y rigidez. Afecta a las neuronas productoras de dopamina en el cerebro y cada año afecta a más de un millón de individuos en la India.
Lenguaje: Python
Conjunto de datos/paquete: UCI ML Parkinsons dataset
1.5 Detección de colores con Python
Construye una aplicación para detectar colores con Beginner Data Science Project – Color Detection with OpenCV
¿Cuántas veces te ha ocurrido que aún después de ver, no recuerdas el nombre del color? Puede haber 16 millones de colores basados en los diferentes valores de color RGB pero sólo recordamos unos pocos. Así que en este proyecto, vamos a construir una aplicación interactiva que detectará el color seleccionado de cualquier imagen. Para implementar esto necesitaremos unos datos etiquetados de todos los colores conocidos y luego calcularemos qué color se asemeja más con el valor de color seleccionado.
Lenguaje: Python
Conjunto de datos: Codebrainz Color Names
1.6 Detección de tumores cerebrales con ciencia de datos
Idea de proyecto de ciencia de datos: Hay muchos proyectos famosos de aprendizaje profundo en el conjunto de datos de escaneo de MRI. Uno de ellos es la detección de tumores cerebrales. Puede utilizar el aprendizaje de transferencia en estas exploraciones de MRI para obtener las características necesarias para la clasificación. O puede entrenar su propia red neuronal de convolución desde cero para detectar tumores cerebrales.
Dataset: Brain MRI Image Dataset
1.7 Leaf Disease Detection
Data Science Project Idea: La detección de enfermedades en las plantas juega un papel muy importante en el campo de la agricultura. Este proyecto de Ciencia de Datos tiene como objetivo proporcionar una interfaz de inspección automática basada en imágenes. Implica el uso de procesamiento de imágenes de diseño propio y técnicas de aprendizaje profundo. Categorizará las hojas de las plantas como sanas o infectadas.
Dataset: Leaf Dataset
Proyectos de ciencia de datos intermedios
2.1 Reconocimiento de la emoción del habla
Explora la implementación completa del ejemplo de proyecto de ciencia de datos – Reconocimiento de la emoción del habla con Librosa
Aprendamos ahora a utilizar diferentes bibliotecas. Este proyecto de ciencia de datos utiliza librosa para realizar el reconocimiento de emociones del habla. SER es el proceso de intentar reconocer la emoción humana y los estados afectivos a partir del habla. Dado que utilizamos el tono y la afinación para expresar la emoción a través de la voz, el SER es posible; pero es difícil porque las emociones son subjetivas y anotar el audio es un reto. Utilizaremos las características mfcc, chroma y mel y usaremos el conjunto de datos RAVDESS para reconocer la emoción. Construiremos un MLPClassifier para el modelo.
Lenguaje: Python
Conjunto de datos/paquete: RAVDESS dataset
2.2 Detección de género y edad con ciencia de datos
Pisa el acelerador ¶ impresionar a los reclutadores con el proyecto definitivo de ciencia de datos – Detección de género y edad con OpenCV
Este es un interesante proyecto de ciencia de datos con Python. Usando sólo una imagen, aprenderás a predecir el género y el rango de edad de un individuo. En él, te introducimos en la Visión por Computador y sus principios. Construiremos una Red Neural Convolucional y utilizaremos modelos entrenados por Tal Hassner y Gil Levi para el conjunto de datos Adience. Utilizaremos algunos archivos .pb, .pbtxt, .prototxt y .caffemodel a lo largo del camino.
Lenguaje: Python
Conjunto de datos/paquete: Adience
2.3 Retinopatía diabética
Idea de proyecto de ciencia de datos: La retinopatía diabética es una de las principales causas de ceguera. Puedes desarrollar un método automático de detección de la retinopatía diabética. Puedes entrenar una red neuronal con imágenes de retina de personas afectadas y normales. Este proyecto clasificará si el paciente tiene retinopatía o no.
Dataset: Diabetic Retinopathy Dataset
2.3 Análisis de datos de Uber en R
Comprueba la implementación completa del proyecto de ciencia de datos con código fuente – Proyecto de análisis de datos de Uber en R
Este es un proyecto de visualización de datos con ggplot2 en el que utilizaremos R y sus librerías y analizaremos varios parámetros como los viajes por las horas en un día y los viajes durante los meses en un año. Utilizaremos el conjunto de datos de Uber Pickups en la ciudad de Nueva York y crearemos visualizaciones para diferentes franjas horarias del año. Esto nos dice cómo el tiempo afecta a los viajes de los clientes.
Language: R
Conjunto de datos/paquete: Uber Pickups in New York City dataset
2.4 Detección de somnolencia del conductor en Python
Lleva tu carrera a nuevas alturas trabajando en Top Data Science Project – Drowsiness Detection System with OpenCV & Keras
La conducción somnolienta es extremadamente peligrosa y alrededor de miles de accidentes ocurren cada año debido a que los conductores se quedan dormidos mientras conducen. En este proyecto de Python, construiremos un sistema que pueda detectar a los conductores somnolientos y también alertarlos mediante una alarma sonora.
Este proyecto se implementa utilizando Keras y OpenCV. Utilizaremos OpenCV para la detección de caras y ojos y con Keras, clasificaremos el estado del ojo (Abierto o Cerrado) utilizando técnicas de redes neuronales profundas.
2.5 Proyecto de Chatbot en Python
Construye un chatbot usando Python &pasa a la acción – Chatbot con NLTK & Keras
Los chatbots son una parte esencial del negocio. Muchas empresas tienen que ofrecer servicios a sus clientes y se necesita mucha mano de obra, tiempo y esfuerzo para atender a los clientes. Los chatbots pueden automatizar la mayor parte de la interacción con el cliente respondiendo a algunas de las preguntas frecuentes que hacen los clientes. Existen principalmente dos tipos de chatbots: Chatbots de dominio específico y chatbots de dominio abierto. El chatbot de dominio específico suele utilizarse para resolver un problema concreto. Por lo tanto, es necesario personalizarlo inteligentemente para que funcione eficazmente en su dominio. A los chatbots de dominio abierto se les puede hacer cualquier tipo de pregunta, por lo que requieren enormes cantidades de datos para entrenarse.
Lenguaje: Python
Conjunto de datos: Archivo json Intents
2.6 Proyecto de reconocimiento de dígitos manuscritos
Implementa de forma práctica el proyecto de aprendizaje profundo con código fuente – Reconocimiento de dígitos manuscritos con CNN
El conjunto de datos MNIST de dígitos manuscritos está muy extendido entre los científicos de datos y los entusiastas del aprendizaje automático. Es un proyecto increíble para iniciarse en la ciencia de los datos y entender los procesos involucrados en un proyecto. El proyecto se implementa utilizando las redes neuronales convolucionales y luego para la predicción en tiempo real también construimos una bonita interfaz gráfica de usuario para dibujar los dígitos en un lienzo y luego el modelo predecirá el dígito.
Lenguaje: Python
Conjunto de datos: MNIST
Consigue ser contratado como científico de datos con Top Data Science Interview Questions
Proyectos avanzados de ciencia de datos
3.1 Proyecto generador de leyendas de imágenes en Python
Comprueba la implementación completa del proyecto de ciencia de datos con código fuente – Generador de leyendas de imágenes con CNN & LSTM
Este es un interesante proyecto de ciencia de datos. Describir lo que hay en una imagen es una tarea fácil para los humanos, pero para los ordenadores, una imagen es sólo un montón de números que representan el valor del color de cada píxel. Así que es una tarea difícil para los ordenadores entender lo que hay en la imagen y luego generar la descripción en un lenguaje natural como el inglés es otra tarea difícil. Este proyecto utiliza técnicas de aprendizaje profundo donde implementamos una red neuronal convolucional (CNN) con una red neuronal recurrente (LSTM) para construir el generador de subtítulos de imágenes.
Dataset: Flickr 8K
Lenguaje: Python
Framework: Keras
3.2 Proyecto de detección de fraude en tarjetas de crédito
Da lo mejor de ti trabajando en Proyectos de ciencia de datos – Detección de fraude en tarjetas de crédito con aprendizaje automático
A estas alturas, ya has empezado a entender los métodos y conceptos. Vamos a pasar a algunos proyectos avanzados de ciencia de datos. En este proyecto, usaremos R con algoritmos como Árboles de Decisión, Regresión Logística, Redes Neuronales Artificiales, y Clasificador Gradient Boosting. Utilizaremos el conjunto de datos Card Transactions para clasificar las transacciones de tarjetas de crédito en fraudulentas y genuinas. Ajustaremos los diferentes modelos y trazaremos curvas de rendimiento para ellos.
Lenguaje: R
Conjunto de datos/paquete: Card Transactions dataset
3.3 Sistema de recomendación de películas
Explora la implementación del Mejor proyecto de ciencia de datos con código fuente- Proyecto de sistema de recomendación de películas en R
En este proyecto de ciencia de datos, utilizaremos R para realizar una recomendación de películas a través del aprendizaje automático. Un sistema de recomendación envía sugerencias a los usuarios a través de un proceso de filtrado basado en las preferencias de otros usuarios y el historial de navegación. Si a A y B les gusta “Solo en casa” y a B le gusta “Mean Girls”, se la puede sugerir a A, ya que podría gustarle también. Esto mantiene a los clientes comprometidos con la plataforma.
Idioma: R
Conjunto de datos/paquete: MovieLens dataset
3.4 Segmentación de clientes
Ponga la medalla al pedal &impresione a los reclutadores con el Proyecto de Ciencia de Datos (Código fuente incluido) – Segmentación de clientes con aprendizaje automático
Este es uno de los proyectos más populares en Ciencia de Datos. Antes de ejecutar cualquier campaña las empresas crean diferentes grupos de clientes.
La segmentación de clientes es una aplicación popular del aprendizaje no supervisado. Mediante la agrupación, las empresas identifican segmentos de clientes para dirigirse a la base de usuarios potenciales. Dividen a los clientes en grupos en función de características comunes como el sexo, la edad, los intereses y los hábitos de gasto para poder comercializar con eficacia a cada grupo. Utilizaremos la agrupación de K-means y también visualizaremos las distribuciones de género y edad. A continuación, analizaremos sus ingresos anuales y sus puntuaciones de gasto.
Lenguaje: R
Conjunto de datos/paquete: Mall_Customers dataset
3.5 Clasificación del cáncer de mama
Consulta la implementación completa de Proyecto de ciencia de datos en Python – Clasificación del cáncer de mama con aprendizaje profundo
Volviendo a las aportaciones médicas de la ciencia de datos, vamos a aprender a detectar el cáncer de mama con Python. Utilizaremos el conjunto de datos IDC_regular para detectar la presencia de Carcinoma Ductal Invasivo, la forma más común de cáncer de mama. Se desarrolla en un conducto lácteo invadiendo el tejido mamario fibroso o graso fuera del conducto. En esta idea de proyecto de ciencia de datos, utilizaremos Deep Learning y la librería Keras para la clasificación.
Lenguaje: Python
Conjunto de datos/paquete: IDC_regular
3.6 Reconocimiento de señales de tráfico
Alcanza la precisión en la tecnología de los coches autoconducidos con el proyecto de ciencia de datos sobre el reconocimiento de señales de tráfico usando CNN con el código fuente
Las señales y reglas de tráfico son muy importantes que todo conductor debe seguir para evitar cualquier accidente. Para seguir la regla uno debe primero entender cómo es la señal de tráfico. Un humano tiene que aprender todas las señales de tráfico antes de que se le dé la licencia para conducir cualquier vehículo. Pero ahora los vehículos autónomos están aumentando y en el futuro no habrá conductores humanos. En el proyecto de reconocimiento de señales de tráfico, aprenderás cómo un programa puede identificar el tipo de señal de tráfico tomando una imagen como entrada. El conjunto de datos de referencia de reconocimiento de señales de tráfico alemanas (GTSRB) se utiliza para construir una red neuronal profunda que reconozca la clase a la que pertenece una señal de tráfico. También construimos una sencilla interfaz gráfica de usuario para interactuar con la aplicación.
Lenguaje: Python
Conjunto de datos: GTSRB (German Traffic Sign Recognition Benchmark)