Vous avez essayé de construire quelques projets de science des données pour améliorer votre CV et vous avez été intimidé par la taille du code et le nombre de concepts utilisés ? Cela vous semble trop hors de portée et a anéanti vos rêves de devenir un data scientist ? Nous avons rassemblé pour vous seize projets de science des données avec code source afin que vous puissiez réellement participer aux projets de science des données en temps réel. Ceux-ci aideront à renforcer la confiance et à dire également à l’interviewer que vous êtes sérieux au sujet de la science des données.
Savez-vous que ?
Trouver une idée parfaite pour votre projet est quelque chose qui vous préoccupe plus que la mise en œuvre du projet lui-même, n’est-ce pas ? Donc en gardant la même chose à l’esprit, nous avons compilé une liste de plus de 500+ idées de projet juste pour vous. Tout ce que vous avez à faire est de marquer cet article d’un signet et de commencer.
- Projets Python
- Python Django (développement Web) Projets
- Python Développement de jeux
- Python Intelligence artificielle Projets
- Python Apprentissage automatique. Projets
- Python Data Science
- Python Deep Learning Projects
- Python Computer Vision Projects
- Python Internet of Things Projects
Dans ce blog, nous allons énumérer différents exemples de projets de science des données dans les langages R et Python. Séparons-les sur la base de la difficulté afin que vous ayez un chemin approprié à suivre.
Restez à jour avec les dernières tendances technologiques
Joignez DataFlair sur Telegram !!
- Top Data Science Project Ideas
- Projets de science des données pour débutants
- 1.1 Détection de fausses nouvelles
- 1.2 Détection de lignes de voies routières
- 1.3 Analyse des sentiments
- 1.4 Détection de la maladie de Parkinson
- 1.5 Détection des couleurs avec Python
- 1.6 Détection de tumeurs cérébrales avec la science des données
- 1.7 Détection des maladies des feuilles
- Projets intermédiaires de science des données
- 2.1 Reconnaissance des émotions vocales
- 2.2 Détection du genre et de l’âge avec la science des données
- 2.3 Rétinopathie diabétique
- 2.3 Analyse de données Uber en R
- 2.4 Détection de la somnolence du conducteur en Python
- 2.5 Projet de chatbot en Python
- 2.6 Projet de reconnaissance de chiffres manuscrits
- Projets avancés de science des données
- 3.1 Projet de générateur de légende d’image en Python
- 3.2 Projet de détection de fraude de carte de crédit
- 3.3 Système de recommandation de films
- 3.4 Segmentation des clients
- 3.5 Classification du cancer du sein
- 3.6 Reconnaissance des panneaux de signalisation
- Summary
Top Data Science Project Ideas
Voici les meilleures idées de projets de science des données avec le code source :
Projets de science des données pour débutants
1.1 Détection de fausses nouvelles
Poussez votre carrière vers de nouveaux sommets en travaillant sur un projet de science des données pour les débutants – Détection de fausses nouvelles avec Python
Roi du journalisme jaune, les fausses nouvelles sont de fausses informations et des canulars diffusés sur les médias sociaux et d’autres médias en ligne pour atteindre un agenda politique. Dans cette idée de projet de science des données, nous utiliserons Python pour construire un modèle capable de détecter avec précision si une nouvelle est réelle ou fausse. Nous construirons un TfidfVectorizer et utiliserons un PassiveAggressiveClassifier pour classer les informations en “vraies” et “fausses”. Nous utiliserons un jeu de données de forme 7796×4 et exécuterons tout dans Jupyter Lab.
Langage : Python
Dataset/Package : news.csv
1.2 Détection de lignes de voies routières
Consultez l’implémentation complète du projet de science des données de détection de lignes de voies : Détection de lignes de voies en temps réel en Python
Idée du projet de science des données : Les lignes tracées sur les routes guident les conducteurs humains sur l’emplacement des voies de circulation. Elles font également référence à la direction à suivre pour diriger le véhicule. Cette application est cardinale pour le développement de voitures sans conducteur.
Vous pouvez construire une application ayant la capacité d’identifier les lignes de voie à partir d’images d’entrée ou de trames vidéo continues.
1.3 Analyse des sentiments
Vérifiez la mise en œuvre complète du projet de science des données avec le code source – Projet d’analyse des sentiments en R
L’analyse des sentiments est le fait d’analyser les mots pour déterminer les sentiments et les opinions qui peuvent être positifs ou négatifs en polarité. C’est un type de classification où les classes peuvent être binaires (positives et négatives) ou multiples (heureux, en colère, triste, dégoûté,…). Nous allons mettre en œuvre ce projet de science des données dans le langage R et utiliser l’ensemble de données par le paquet ‘janeaustenR’. Nous utiliserons des lexiques généralistes comme AFINN, bing, et loughran, nous effectuerons une jointure interne, et à la fin, nous construirons un nuage de mots pour afficher le résultat.
Langage : R
Dataset/Package : janeaustenR
1.4 Détection de la maladie de Parkinson
Mettez votre meilleur pied en avant en travaillant sur Idée de projet de science des données – Détection de la maladie de Parkinson avec XGBoost
Nous avons commencé à utiliser la science des données pour améliorer les soins de santé et les services – si nous pouvons prédire une maladie tôt, cela a de nombreux avantages sur le pronostic. Ainsi, dans cette idée de projet de science des données, nous allons apprendre à détecter la maladie de Parkinson avec Python. Il s’agit d’une maladie neurodégénérative et progressive du système nerveux central qui affecte les mouvements et provoque des tremblements et des raideurs. Cela affecte les neurones producteurs de dopamine dans le cerveau et chaque année, cela touche plus d’un million d’individus en Inde.
Langage : Python
Dataset/Package : UCI ML Parkinsons dataset
1.5 Détection des couleurs avec Python
Construire une application pour détecter les couleurs avec Beginner Data Science Project – Color Detection with OpenCV
Combien de fois vous est-il arrivé que même après avoir vu, vous ne vous souvenez pas du nom de la couleur ? Il peut y avoir 16 millions de couleurs basées sur les différentes valeurs de couleurs RVB mais nous ne nous souvenons que de quelques-unes. Dans ce projet, nous allons donc créer une application interactive qui détectera la couleur sélectionnée dans n’importe quelle image. Pour mettre en œuvre cela, nous aurons besoin d’une donnée étiquetée de toutes les couleurs connues puis nous calculerons quelle couleur ressemble le plus à la valeur de couleur sélectionnée.
Langage : Python
Dataset : Codebrainz Color Names
1.6 Détection de tumeurs cérébrales avec la science des données
Idée de projet de science des données : Il existe de nombreux projets d’apprentissage profond célèbres sur le jeu de données de scan IRM. L’un d’eux est la détection de tumeurs cérébrales. Vous pouvez utiliser l’apprentissage par transfert sur ces scanners IRM pour obtenir les caractéristiques requises pour la classification. Ou vous pouvez former votre propre réseau neuronal à convolution à partir de zéro pour détecter les tumeurs cérébrales.
Dataset : Ensemble de données d’images IRM du cerveau
1.7 Détection des maladies des feuilles
Idée de projet de science des données : La détection des maladies dans les plantes joue un rôle très important dans le domaine de l’agriculture. Ce projet de science des données vise à fournir une interface d’inspection automatique basée sur l’image. Il implique l’utilisation de techniques de traitement d’image et d’apprentissage profond auto-conçues. Il va catégoriser les feuilles des plantes comme saines ou infectées.
Dataset : Leaf Dataset
Projets intermédiaires de science des données
2.1 Reconnaissance des émotions vocales
Explorons la mise en œuvre complète du projet de science des données Exemple de projet – Reconnaissance des émotions vocales avec Librosa
Apprenons à utiliser différentes bibliothèques maintenant. Ce projet de science des données utilise librosa pour effectuer la reconnaissance des émotions de la parole. La RSE est le processus qui consiste à essayer de reconnaître les émotions humaines et les états affectifs à partir de la parole. Comme nous utilisons le ton et la hauteur pour exprimer nos émotions par la voix, la RLE est possible, mais elle est difficile car les émotions sont subjectives et l’annotation de l’audio est un défi. Nous utiliserons les caractéristiques mfcc, chroma et mel et utiliserons le jeu de données RAVDESS pour reconnaître les émotions. Nous allons construire un MLPClassifier pour le modèle.
Langage : Python
Dataset/Package : RAVDESS dataset
2.2 Détection du genre et de l’âge avec la science des données
Mettez la pédale douce &impressionnez les recruteurs avec un projet ultime de science des données – Détection du genre et de l’âge avec OpenCV
C’est un projet intéressant de science des données avec Python. En utilisant une seule image, vous apprendrez à prédire le sexe et la tranche d’âge d’un individu. Dans ce, nous vous présentons la vision par ordinateur et ses principes. Nous construirons un réseau neuronal convolutif et utiliserons les modèles formés par Tal Hassner et Gil Levi pour le jeu de données Adience. Nous utiliserons quelques fichiers .pb, .pbtxt, .prototxt et .caffemodel en cours de route.
Langage : Python
Dataset/Package : Adience
2.3 Rétinopathie diabétique
Idée du projet de science des données : La rétinopathie diabétique est une des principales causes de cécité. Vous pouvez développer une méthode automatique de dépistage de la rétinopathie diabétique. Vous pouvez entraîner un réseau neuronal sur des images de rétine de personnes atteintes et normales. Ce projet permettra de classer si le patient a une rétinopathie ou non.
Dataset : Diabetic Retinopathy Dataset
2.3 Analyse de données Uber en R
Vérifiez la mise en œuvre complète du projet de science des données avec le code source – Projet d’analyse de données Uber en R
C’est un projet de visualisation de données avec ggplot2 où nous utiliserons R et ses bibliothèques et analyserons divers paramètres comme les trajets par les heures dans un jour et les trajets pendant les mois dans une année. Nous utiliserons le jeu de données Uber Pickups in New York City et créerons des visualisations pour différentes périodes de l’année. Cela nous indique comment le temps affecte les déplacements des clients.
Langue : R
Dataset/Package : Jeu de données des ramassages Uber dans la ville de New York
2.4 Détection de la somnolence du conducteur en Python
Poussez votre carrière vers de nouveaux sommets en travaillant sur Top Data Science Project – Système de détection de la somnolence avec OpenCV & Keras
La somnolence au volant est extrêmement dangereuse et environ des milliers d’accidents se produisent chaque année en raison de conducteurs qui s’endorment au volant. Dans ce projet Python, nous allons construire un système qui peut détecter les conducteurs endormis et également les alerter par une alarme sonore.
Ce projet est mis en œuvre en utilisant Keras et OpenCV. Nous utiliserons OpenCV pour la détection des visages et des yeux et avec Keras, nous classerons l’état de l’œil (ouvert ou fermé) en utilisant des techniques de réseau neuronal profond.
2.5 Projet de chatbot en Python
Construire un chatbot en utilisant Python & passez à la vitesse supérieure dans votre carrière – Chatbot avec NLTK & Keras
Les chatbots sont une partie essentielle de l’entreprise. Beaucoup d’entreprises doivent offrir des services à leurs clients et cela nécessite beaucoup de main-d’œuvre, de temps et d’efforts pour gérer les clients. Les chatbots peuvent automatiser la plupart des interactions avec les clients en répondant à certaines des questions fréquentes qui leur sont posées. Il existe principalement deux types de chatbots : Les chatbots spécifiques à un domaine et les chatbots à domaine ouvert. Le chatbot spécifique à un domaine est souvent utilisé pour résoudre un problème particulier. Vous devez donc le personnaliser intelligemment pour qu’il fonctionne efficacement dans votre domaine. Les chatbots Open-domain peuvent se voir poser n’importe quel type de question, il faut donc d’énormes quantités de données pour les former.
Langage : Python
Dataset : Intents json file
2.6 Projet de reconnaissance de chiffres manuscrits
Mise en œuvre pratique du projet d’apprentissage profond avec code source – Reconnaissance de chiffres manuscrits avec CNN
Le jeu de données MNIST de chiffres manuscrits est très répandu parmi les scientifiques de données et les amateurs d’apprentissage automatique. C’est un projet étonnant pour s’initier à la science des données et comprendre les processus impliqués dans un projet. Le projet est mis en œuvre en utilisant les réseaux neuronaux convolutifs, puis pour la prédiction en temps réel, nous construisons également une belle interface utilisateur graphique pour dessiner les chiffres sur un canevas, puis le modèle prédit le chiffre.
Langage : Python
Dataset : MNIST
Faites-vous embaucher en tant que data scientist avec Top Data Science Interview Questions
Projets avancés de science des données
3.1 Projet de générateur de légende d’image en Python
Vérifiez la mise en œuvre complète du projet de science des données avec le code source – Générateur de légende d’image avec CNN & LSTM
C’est un projet de science des données intéressant. Décrire ce qu’il y a dans une image est une tâche facile pour les humains, mais pour les ordinateurs, une image est juste un tas de chiffres qui représentent la valeur de couleur de chaque pixel. Il s’agit donc d’une tâche difficile pour les ordinateurs de comprendre ce qui se trouve dans l’image, puis de générer la description en langage naturel comme l’anglais. Ce projet utilise des techniques d’apprentissage profond où nous mettons en œuvre un réseau neuronal convolutif (CNN) avec un réseau neuronal récurrent( LSTM) pour construire le générateur de légende d’image.
Dataset : Flickr 8K
Langage : Python
Framework : Keras
3.2 Projet de détection de fraude de carte de crédit
Mettez votre meilleur pied en avant en travaillant sur des projets de science des données – Détection de fraude de carte de crédit avec l’apprentissage automatique
À présent, vous avez commencé à comprendre les méthodes et les concepts. Passons à des projets avancés de science des données. Dans ce projet, nous utiliserons R avec des algorithmes comme les arbres de décision, la régression logistique, les réseaux neuronaux artificiels et le classificateur Gradient Boosting. Nous utiliserons l’ensemble de données Card Transactions pour classer les transactions par carte de crédit en frauduleuses et authentiques. Nous ajusterons les différents modèles et tracerons des courbes de performance pour eux.
Langage : R
Dataset/Package : Card Transactions dataset
3.3 Système de recommandation de films
Explorons la mise en œuvre du meilleur projet de science des données avec code source- Projet de système de recommandation de films en R
Dans ce projet de science des données, nous utiliserons R pour effectuer une recommandation de films par apprentissage automatique. Un système de recommandation envoie des suggestions aux utilisateurs à travers un processus de filtrage basé sur les préférences et l’historique de navigation des autres utilisateurs. Si A et B aiment Home Alone et que B aime Mean Girls, il peut être suggéré à A qu’il pourrait l’aimer aussi. Cela permet de garder les clients engagés sur la plateforme.
Langue : R
Dataset/Package : MovieLens dataset
3.4 Segmentation des clients
Mettre la médaille à la pédale &impressionner les recruteurs avec le projet de science des données (code source inclus) – Segmentation des clients avec l’apprentissage automatique
C’est l’un des projets les plus populaires en science des données. Avant de lancer toute campagne, les entreprises créent différents groupes de clients.
La segmentation des clients est une application populaire de l’apprentissage non supervisé. En utilisant le clustering, les entreprises identifient des segments de clients pour cibler la base d’utilisateurs potentiels. Ils divisent les clients en groupes selon des caractéristiques communes telles que le sexe, l’âge, les intérêts et les habitudes de consommation, afin de pouvoir cibler chaque groupe de manière efficace. Nous utiliserons le clustering K-means et visualiserons également les distributions par sexe et par âge. Puis, nous analyserons leurs revenus annuels et leurs scores de dépenses.
Langage : R
Dataset/Package : Mall_Customers dataset
3.5 Classification du cancer du sein
Vérifiez la mise en œuvre complète du projet de science des données en Python – Classification du cancer du sein avec Deep Learning
Retournons aux contributions médicales de la science des données, apprenons à détecter le cancer du sein avec Python. Nous utiliserons le jeu de données IDC_regular pour détecter la présence de carcinome canalaire invasif, la forme la plus courante de cancer du sein. Il se développe dans un conduit de lait en envahissant le tissu mammaire fibreux ou gras à l’extérieur du conduit. Dans cette idée de projet de science des données, nous utiliserons le Deep Learning et la bibliothèque Keras pour la classification.
Langage : Python
Dataset/Package : IDC_regular
3.6 Reconnaissance des panneaux de signalisation
Atteindre la précision dans la technologie des voitures auto-conductrices avec le projet de science des données sur la reconnaissance des panneaux de signalisation en utilisant CNN avec le code source
Les panneaux de signalisation et les règles sont très importants que chaque conducteur doit suivre pour éviter tout accident. Pour suivre la règle, il faut d’abord comprendre à quoi ressemble le panneau de signalisation. Un humain doit apprendre tous les panneaux de signalisation avant d’obtenir le permis de conduire un véhicule. Mais aujourd’hui, les véhicules autonomes se multiplient et il n’y aura plus de conducteurs humains dans un avenir proche. Dans le projet de reconnaissance des panneaux de signalisation, vous apprendrez comment un programme peut identifier le type de panneau de signalisation en prenant une image en entrée. Le jeu de données de référence allemand sur la reconnaissance des panneaux de signalisation (GTSRB) est utilisé pour construire un réseau neuronal profond afin de reconnaître la classe à laquelle appartient un panneau de signalisation. Nous construisons également une interface graphique simple pour interagir avec l’application.
Langage : Python
Dataset : GTSRB (German Traffic Sign Recognition Benchmark)
Summary
.