Probeerde je een aantal data science-projecten te bouwen om je cv te verbeteren, maar werd je geïntimideerd door de omvang van de code en het aantal gebruikte concepten? Voelt het te onbereikbaar en heeft het je dromen om datawetenschapper te worden verpletterd? Wij hebben zestien data science projecten met broncode voor je verzameld, zodat je daadwerkelijk kunt deelnemen aan de real-time projecten van data science. Deze zullen helpen het vertrouwen te vergroten en ook de interviewer vertellen dat je serieus bent over data science.
Weetje?
Het vinden van een perfect idee voor je project is iets dat je meer zorgen baart dan het uitvoeren van het project zelf, is het niet? Dus met hetzelfde in gedachten, hebben we een lijst van meer dan 500 + projectideeën alleen voor jou samengesteld. Het enige wat je hoeft te doen is dit artikel bookmarken en aan de slag gaan.
- Python Projecten
- Python Django (Web Development) Projecten
- Python Game Development Projecten
- Python Kunstmatige Intelligentie Projecten
- Python Machine Learning Projecten
- Python Data Science Projecten
- Python Deep Learning Projecten
- Python Computer Vision Projecten
- Python Internet of Things Projecten
In deze blog, zullen we een lijst maken van verschillende data science projectvoorbeelden in de talen R en Python. Laten we deze scheiden op basis van moeilijkheidsgraad, zodat je een goed pad hebt om te volgen.
Blijf op de hoogte van de nieuwste technologische trends
Join DataFlair op Telegram!!
- Top Data Science Project Ideas
- Beginner Data Science Projects
- 1.1 Fake News Detection
- 1.2 Road Lane Line Detection
- 1.3 Sentimentanalyse
- 1.4 De ziekte van Parkinson opsporen
- 1.5 Kleurdetectie met Python
- 1.6 Hersentumor Detectie met Data Science
- 1.7 Leaf Disease Detection
- Intermediate Data Science Projects
- 2.1 Speech Emotion Recognition
- 2.2 Geslachts- en leeftijdsdetectie met Data Science
- 2.3 Diabetische Retinopathie
- 2.3 Uber Data Analysis in R
- 2.4 Driver Drowsiness detection in Python
- 2.5 Chatbot Project in Python
- 2.6 Handwritten Digit Recognition Project
- Advanced Data Science Projects
- 3.1 Image Caption Generator Project in Python
- 3.2 Credit Card Fraud Detection Project
- 3.3 Movie Recommendation System
- 3.4 Klantsegmentatie
- 3.5 Borstkankerclassificatie
- 3.6 Traffic Signs Recognition
- Samenvatting
Top Data Science Project Ideas
Hier zijn de beste data science projectideeën met broncode:
Beginner Data Science Projects
1.1 Fake News Detection
Drijf je carrière naar nieuwe hoogten door te werken aan Data Science Project voor beginners – Fake News detecteren met Python
Een koning van gele journalistiek, nepnieuws is valse informatie en hoaxes verspreid via sociale media en andere online media om een politieke agenda te bereiken. In dit data science-projectidee zullen we Python gebruiken om een model te bouwen dat nauwkeurig kan detecteren of een nieuwsbericht echt of nep is. We zullen een TfidfVectorizer bouwen en een PassiveAggressiveClassifier gebruiken om nieuws te classificeren in “Echt” en “Nep”. We gebruiken een dataset met de vorm 7796×4 en voeren alles uit in Jupyter Lab.
Taal: Python
Dataset/Pakket: news.csv
1.2 Road Lane Line Detection
Bekijk de volledige implementatie van Lane Line Detection Data Science Project: Real-time Lane Line Detection in Python
Data Science Project Idee: De lijnen die op de wegen zijn getekend, geven menselijke bestuurders aan waar de rijstroken zich bevinden. Het verwijst ook naar de richting waarin het voertuig moet worden gestuurd. Deze toepassing is van cruciaal belang voor de ontwikkeling van bestuurderloze auto’s.
Je kunt een toepassing bouwen die de mogelijkheid heeft om spoorlijnen te identificeren uit ingevoerde beelden of continue video frames.
1.3 Sentimentanalyse
Bekijk de volledige implementatie van Data Science Project met broncode – Sentimentanalyseproject in R
Sentimentanalyse is de handeling van het analyseren van woorden om sentimenten en meningen te bepalen die positief of negatief kunnen zijn in polariteit. Dit is een vorm van classificatie waarbij de klassen binair (positief en negatief) of meervoudig (blij, boos, verdrietig, walgend, …) kunnen zijn. We zullen dit data science project implementeren in de taal R en gebruik maken van de dataset door het ‘janeaustenR’ pakket. We gebruiken lexicons voor algemeen gebruik, zoals AFINN, bing en loughran, voeren een inner join uit, en uiteindelijk bouwen we een woordwolk om het resultaat weer te geven.
Taal: R
Dataset/Pakket: janeaustenR
1.4 De ziekte van Parkinson opsporen
Zet je beste beentje voor door te werken aan Data Science Project Idee – De ziekte van Parkinson opsporen met XGBoost
We zijn begonnen met het gebruik van data science om de gezondheidszorg en diensten te verbeteren – als we een ziekte vroeg kunnen voorspellen, heeft dat veel voordelen voor de prognose. Dus in dit idee voor een data science-project leren we met Python de ziekte van Parkinson op te sporen. Dit is een neurodegeneratieve, progressieve aandoening van het centrale zenuwstelsel die de beweging beïnvloedt en tremoren en stijfheid veroorzaakt. Het tast de dopamine-producerende neuronen in de hersenen aan en treft jaarlijks meer dan 1 miljoen mensen in India.
Taal: Python
Dataset/Pakket: UCI ML Parkinsons dataset
1.5 Kleurdetectie met Python
Bouw een toepassing om kleuren te detecteren met Beginner Data Science Project – Kleurdetectie met OpenCV
Hoe vaak is het je opgevallen dat je zelfs na het zien, de naam van de kleur niet meer weet? Er kunnen 16 miljoen kleuren zijn, gebaseerd op de verschillende RGB-kleurwaarden, maar we onthouden er maar een paar. Dus in dit project gaan we een interactieve app bouwen die de geselecteerde kleur van een afbeelding zal detecteren. Om dit te implementeren hebben we een gelabelde data nodig van alle bekende kleuren, dan zullen we berekenen welke kleur het meest lijkt op de geselecteerde kleurwaarde.
Taal: Python
Dataset: Codebrainz Color Names
1.6 Hersentumor Detectie met Data Science
Data Science Project Idee: Er zijn veel beroemde deep learning projecten op MRI-scan dataset. Een van hen is Hersentumor detectie. Je kunt transfer learning gebruiken op deze MRI-scans om de benodigde kenmerken voor classificatie te krijgen. Of je kunt je eigen convolutie neuraal netwerk vanaf nul trainen om hersentumoren te detecteren.
Dataset: Brain MRI Image Dataset
1.7 Leaf Disease Detection
Data Science Project Idee: Ziektedetectie in planten speelt een zeer belangrijke rol op het gebied van landbouw. Dit Data Science project heeft als doel een beeldgebaseerde automatische inspectie-interface te bieden. Het omvat het gebruik van zelf ontworpen beeldverwerking en deep learning technieken. Het zal plantenbladeren categoriseren als gezond of geïnfecteerd.
Dataset: Leaf Dataset
Intermediate Data Science Projects
2.1 Speech Emotion Recognition
Verken de volledige implementatie van Data Science Project Example – Speech Emotion Recognition with Librosa
Laten we nu eens leren om verschillende bibliotheken te gebruiken. Dit data science project gebruikt librosa om Spraak Emotie Herkenning uit te voeren. SER is het proces van het proberen te herkennen van menselijke emotie en affectieve toestanden uit spraak. Omdat we toon en toonhoogte gebruiken om emoties uit te drukken via de stem, is SER mogelijk; maar het is moeilijk omdat emoties subjectief zijn en het annoteren van audio een uitdaging is. We gebruiken de mfcc, chroma, en mel kenmerken en gebruiken de RAVDESS dataset om emoties te herkennen. We bouwen een MLPClassifier voor het model.
Taal: Python
Dataset/Pakket: RAVDESS dataset
2.2 Geslachts- en leeftijdsdetectie met Data Science
Duw het pedaal in het metaal & maak indruk op recruiters met ultiem Data Science Project – Geslachts- en leeftijdsdetectie met OpenCV
Dit is een interessant data science project met Python. Met behulp van slechts één afbeelding leer je het geslacht en de leeftijd van een individu te voorspellen. In dit project maken we je vertrouwd met computervisie en de principes ervan. We bouwen een Convolutioneel Neuraal Netwerk en gebruiken modellen getraind door Tal Hassner en Gil Levi voor de Adience dataset. We gebruiken een aantal .pb, .pbtxt, .prototxt, en .caffemodel bestanden onderweg.
Taal: Python
Dataset/Pakket: Adience
2.3 Diabetische Retinopathie
Data Science Project Idee: Diabetische Retinopathie is een belangrijke oorzaak van blindheid. Je kunt een automatische methode ontwikkelen om diabetische retinopathie te screenen. Je kunt een neuraal netwerk trainen op netvliesbeelden van getroffen en normale mensen. Dit project zal classificeren of de patiënt retinopathie heeft of niet.
Dataset: Diabetische Retinopathie Dataset
2.3 Uber Data Analysis in R
Bekijk de volledige implementatie van Data Science Project met broncode – Uber Data Analysis Project in R
Dit is een data visualisatie project met ggplot2 waar we R en zijn bibliotheken zullen gebruiken en verschillende parameters zullen analyseren zoals ritten per uur in een dag en ritten gedurende maanden in een jaar. We gebruiken de Uber Pickups in New York City dataset en maken visualisaties voor verschillende tijdsbestekken van het jaar. Dit vertelt ons hoe de tijd de klantritten beïnvloedt.
Taal: R
Dataset/Pakket: Uber Pickups in New York City dataset
2.4 Driver Drowsiness detection in Python
Drijf je carrière naar nieuwe hoogten door te werken aan Top Data Science Project – Drowsiness Detection System with OpenCV & Keras
Drowy driving is extreem gevaarlijk en er gebeuren elk jaar ongeveer duizenden ongelukken doordat bestuurders in slaap vallen tijdens het rijden. In dit Python-project zullen we een systeem bouwen dat slaperige bestuurders kan detecteren en hen ook kan waarschuwen met een piepend alarm.
Dit project wordt geïmplementeerd met Keras en OpenCV. We zullen OpenCV gebruiken voor gezichts- en oogdetectie en met Keras zullen we de staat van het oog classificeren (Open of Dicht) met behulp van Deep neural network technieken.
2.5 Chatbot Project in Python
Bouw een chatbot met behulp van Python & stap omhoog in je carrière – Chatbot met NLTK & Keras
Chatbots zijn een essentieel onderdeel van het bedrijfsleven. Veel bedrijven heeft om diensten te bieden aan hun klanten en het vergt veel mankracht, tijd en moeite om klanten te behandelen. De chatbots kunnen automatiseren meeste van de interactie met de klant door het beantwoorden van een aantal van de frequente vragen die worden gesteld door de klanten. Er zijn voornamelijk twee soorten chatbots: Domein-specifieke en Open-domein chatbots. De domeinspecifieke chatbot wordt vaak gebruikt om een bepaald probleem op te lossen. Je moet hem dus slim aanpassen om effectief te werken in jouw domein. De Open-domein chatbots kan worden gevraagd elk type vraag, zodat het vereist enorme hoeveelheden gegevens te trainen.
Taal: Python
Dataset: Intents json file
2.6 Handwritten Digit Recognition Project
Praktisch implementeren van het Deep Learning Project met broncode – Handwritten Digit Recognition with CNN
De MNIST dataset van handgeschreven cijfers is wijdverspreid onder de data scientists en machine learning enthousiastelingen. Het is een geweldig project om met data science aan de slag te gaan en de processen die bij een project komen kijken te begrijpen. Het project is geïmplementeerd met behulp van de Convolutionele Neurale Netwerken en dan voor real-time voorspelling bouwen we ook een mooie grafische gebruikersinterface om cijfers te tekenen op een canvas en dan zal het model het cijfer voorspellen.
Taal: Python
Dataset: MNIST
Gewonnen worden als data scientist met Top Data Science Interview Questions
Advanced Data Science Projects
3.1 Image Caption Generator Project in Python
Bekijk de volledige implementatie van data science project met broncode – Image Caption Generator met CNN & LSTM
Dit is een interessant data science project. Beschrijven wat er op een afbeelding staat is een makkelijke taak voor mensen, maar voor computers is een afbeelding slechts een verzameling getallen die de kleurwaarde van elke pixel weergeven. Dit is dus een moeilijke taak voor computers om te begrijpen wat er in het beeld zit en dan is het genereren van de beschrijving in natuurlijke taal zoals het Engels nog een moeilijke taak. Dit project maakt gebruik van deep learning technieken waar we een Convolutioneel neuraal netwerk (CNN) implementeren met Recurrent Neural Network (LSTM) om de beeld caption generator.
Dataset te bouwen: Flickr 8K
Taal: Python
Framework: Keras
3.2 Credit Card Fraud Detection Project
Zet je beste beentje voor door te werken aan Data Science Projects – Credit Card Fraud Detection with Machine Learning
Nu ben je begonnen de methoden en concepten te begrijpen. Laten we verder gaan met enkele geavanceerde data science-projecten. In dit project gebruiken we R met algoritmen zoals beslisbomen, logistische regressie, kunstmatige neurale netwerken en Gradient Boosting Classifier. We gebruiken de Card Transactions dataset om credit card transacties te classificeren in frauduleus en echt. We passen de verschillende modellen aan en zetten prestatiecurves uit voor hen.
Taal: R
Dataset/Pakket: Card Transactions dataset
3.3 Movie Recommendation System
Ontdek de implementatie van het Best Data Science Project with Source Code- Movie Recommendation System Project in R
In dit data science project gebruiken we R om een filmaanbeveling uit te voeren via machine learning. Een aanbevelingssysteem stuurt suggesties naar gebruikers via een filterproces op basis van de voorkeuren en browsegeschiedenis van andere gebruikers. Als A en B Home Alone leuk vinden en B vindt Mean Girls leuk, kan het aan A worden voorgesteld – zij vinden het misschien ook leuk. Dit houdt klanten betrokken bij het platform.
Taal: R
Dataset/Pakket: MovieLens dataset
3.4 Klantsegmentatie
Maak indruk op recruiters met Data Science Project (Broncode inbegrepen) – Klantsegmentatie met Machine Learning
Dit is een van de meest populaire projecten in Data Science. Voordat bedrijven een campagne uitvoeren, creëren ze verschillende groepen klanten.
Customer Segmentation is een populaire toepassing van unsupervised learning. Met behulp van clustering identificeren bedrijven segmenten van klanten om zich te richten op de potentiële gebruikersbasis. Zij verdelen klanten in groepen op basis van gemeenschappelijke kenmerken zoals geslacht, leeftijd, interesses en bestedingsgewoonten, zodat zij elke groep effectief kunnen benaderen. We gebruiken K-means clustering en visualiseren ook de geslachts- en leeftijdsdistributies. Daarna analyseren we hun jaarlijkse inkomens en bestedingsscores.
Taal: R
Dataset/Pakket: Mall_Customers dataset
3.5 Borstkankerclassificatie
Bekijk de volledige implementatie van Data Science Project in Python – Borstkankerclassificatie met Deep Learning
Terugkomend op de medische bijdragen van data science, laten we leren om borstkanker te detecteren met Python. We gebruiken de dataset IDC_regular om de aanwezigheid van Invasive Ductal Carcinoma te detecteren, de meest voorkomende vorm van borstkanker. Het ontwikkelt zich in een melkkanaal dat het vezelige of vettige borstweefsel buiten het kanaal binnendringt. In dit data science project idee, zullen we Deep Learning en de Keras bibliotheek gebruiken voor classificatie.
Taal: Python
Dataset/Pakket: IDC_regular
3.6 Traffic Signs Recognition
Bereik nauwkeurigheid in zelfrijdende auto’s technologie met Data Science Project on Traffic Signs Recognition using CNN with Source Code
Traffic signs and rules zijn erg belangrijk dat elke bestuurder moet volgen om elk ongeluk te voorkomen. Om de regel te volgen moet men eerst begrijpen hoe het verkeersbord eruit ziet. Een mens moet alle verkeersborden leren voordat hij een vergunning krijgt om een voertuig te besturen. Maar nu zijn autonome voertuigen in opkomst en in de toekomst zullen er geen menselijke bestuurders meer zijn. In het Verkeersbordherkenningsproject leer je hoe een programma het type verkeersbord kan identificeren door een afbeelding als invoer te nemen. De Duitse verkeersborden herkenning benchmark dataset (GTSRB) wordt gebruikt om een Deep Neural Network te bouwen om de klasse waartoe een verkeersbord behoort te herkennen. We bouwen ook een eenvoudige GUI om te interageren met de applicatie.
Taal: Python
Dataset: GTSRB (German Traffic Sign Recognition Benchmark)