Har du prøvet at bygge nogle datalogiprojekter for at forbedre dit cv og er du blevet skræmt af kodens størrelse og antallet af anvendte begreber? Føles det for uoverkommeligt, og knuste det dine drømme om at blive datavidenskabsmand? Vi har samlet seksten datavidenskabsprojekter med kildekode til dig, så du rent faktisk kan deltage i realtidsprojekter inden for datavidenskab. Disse vil være med til at øge selvtilliden og også fortælle intervieweren, at du mener det alvorligt med datavidenskab.
Ved du det?
At finde en perfekt idé til dit projekt er noget, der bekymrer dig mere end at gennemføre selve projektet, er det ikke? Så med det samme i tankerne har vi samlet en liste med over 500+ projektidéer bare for dig. Alt du skal gøre er at bogmærke denne artikel og komme i gang.
- Python-projekter
- Python Django-projekter (webudvikling)
- Python-spiludviklingsprojekter
- Python-projekter om kunstig intelligens
- Python-maskinlæring Projekter
- Python Data Science Projekter
- Python Deep Learning Projekter
- Python Computer Vision Projekter
- Python Internet of Things Projekter
I denne blog, vil vi opstille forskellige eksempler på datavidenskabsprojekter i sprogene R og Python. Lad os adskille disse på baggrund af sværhedsgrad, så du har en ordentlig sti at følge.
Hold dig opdateret med de nyeste teknologitrends
Gå med i DataFlair på Telegram!!!
- Top Data Science Project Ideas
- Begynder Data Science Projects
- 1.1 Detektion af falske nyheder
- 1.2 Detektion af vejbanelinjer
- 1.3 Sentimentanalyse
- 1.4 Detektering af Parkinsons sygdom
- 1.5 Farvedetektion med Python
- 1.6 Påvisning af hjernetumorer med datavidenskab
- 1.7: Sygdomsdetektion i planter spiller en meget vigtig rolle inden for landbruget. Dette datavidenskabsprojekt har til formål at tilvejebringe en billedbaseret automatisk inspektionsgrænseflade. Det indebærer anvendelse af selvudviklet billedbehandling og dybe indlæringsteknikker. Det vil kategorisere planteblade som sunde eller inficerede.
- Intermediate Data Science Projects
- 2.1 Speech Emotion Recognition
- 2.2 Køns- og aldersdetektion med datavidenskab
- 2.3 Diabetisk retinopati
- 2.3 Uber Data Analysis in R
- 2.4 Driver Drowsiness detection in Python
- 2.5 Chatbot-projekt i Python
- 2.6 Projekt om genkendelse af håndskrevne tal
- Advanced Data Science Projects
- 3.1 Image Caption Generator Project in Python
- 3.2 Projekt om detektion af kreditkortbedrageri
- 3.3 Filmanbefalingssystem
- 3.4 Kundesegmentering
- 3.5 Klassificering af brystkræft
- 3.6 Genkendelse af trafikskilte
- Summary
Top Data Science Project Ideas
Her er de bedste data science projekt ideer med kildekode:
Begynder Data Science Projects
1.1 Detektion af falske nyheder
Driv din karriere til nye højder ved at arbejde på Data Science Project for begyndere – Detecting Fake News with Python
Fake news er en konge af gul journalistik og er falske oplysninger og skrøner, der spredes via sociale medier og andre onlinemedier for at opnå en politisk dagsorden. I denne datavidenskabelige projektidé vil vi bruge Python til at opbygge en model, der nøjagtigt kan registrere, om en nyhed er ægte eller falsk. Vi vil bygge en TfidfVectorizer og bruge en PassiveAggressiveClassifier til at klassificere nyheder i “ægte” og “falske”. Vi vil bruge et datasæt af formen 7796×4 og udføre alt i Jupyter Lab.
Sprog:
Sprog: Python
Datasæt/Pakke: news.csv
1.2 Detektion af vejbanelinjer
Kontroller den komplette implementering af datavidenskabsprojektet til detektion af vejbanelinjer: Real-time Lane Line Detection in Python
Data Science Project Idea: De linjer, der er tegnet på vejene, viser de menneskelige bilister, hvor vognbanerne er. De henviser også til, i hvilken retning køretøjet skal styres. Denne applikation er kardinal for udvikling af førerløse biler.
Du kan bygge en applikation, der har evnen til at identificere sporlinjer fra indgangsbilleder eller kontinuerlige videobilleder.
1.3 Sentimentanalyse
Kontroller den komplette implementering af Data Science Project with Source Code – Sentiment Analysis Project in R
Sentimentanalyse er den handling at analysere ord for at bestemme følelser og meninger, der kan være positive eller negative i polaritet. Det er en type klassifikation, hvor klasserne kan være binære (positive og negative) eller multiple (glad, vred, ked af det, afskyet, …). Vi implementerer dette datavidenskabsprojekt i sproget R og bruger datasættet af pakken “janeaustenR”. Vi vil bruge generelle leksikoner som AFINN, bing og loughran, udføre et inner join, og til sidst vil vi opbygge en ordsky for at vise resultatet.
Sprog: R
Datasæt/Pakke: janeaustenR
1.4 Detektering af Parkinsons sygdom
Sæt din bedste fod frem ved at arbejde på Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost
Vi er begyndt at bruge data science til at forbedre sundhedsvæsenet og tjenester – hvis vi kan forudsige en sygdom tidligt, har det mange fordele på prognosen. Så i denne datavidenskabelige projektide vil vi lære at opdage Parkinsons sygdom med Python. Dette er en neurodegenerativ, progressiv lidelse i centralnervesystemet, som påvirker bevægelser og forårsager rystelser og stivhed. Dette påvirker dopaminproducerende neuroner i hjernen, og hvert år påvirker det mere end 1 million personer i Indien.
Sprog: Python
Datasæt/Pakke: Python
Sprog: Python
UCI ML Parkinsons-datasæt
1.5 Farvedetektion med Python
Byg en applikation til at detektere farver med Beginner Data Science Project – Color Detection with OpenCV
Hvor mange gange er det gået op for dig, at selv efter at du har set, kan du ikke huske navnet på farven? Der kan være 16 millioner farver baseret på de forskellige RGB-farveværdier, men vi husker kun et par stykker. Så i dette projekt vil vi bygge en interaktiv app, der kan registrere den valgte farve fra et hvilket som helst billede. For at gennemføre dette skal vi bruge en mærket data af alle de kendte farver, hvorefter vi vil beregne, hvilken farve der ligner mest med den valgte farveværdi.
Sprog: Python
Datasæt: Python
Sprog: Python
Codebrainz Color Names
1.6 Påvisning af hjernetumorer med datavidenskab
Datavidenskabelig projektidé: Der er mange berømte deep learning-projekter på MRI-scanningsdatasæt. Et af dem er detektion af hjernetumorer. Du kan bruge transfer learning på disse MRI-scanninger for at få de nødvendige funktioner til klassificering. Eller du kan træne dit eget konvolutionsneurale netværk fra bunden til at opdage hjernetumorer.
Datasæt: Datasæt: Datasæt af hjerne-MRI-billeder
1.7: Sygdomsdetektion i planter spiller en meget vigtig rolle inden for landbruget. Dette datavidenskabsprojekt har til formål at tilvejebringe en billedbaseret automatisk inspektionsgrænseflade. Det indebærer anvendelse af selvudviklet billedbehandling og dybe indlæringsteknikker. Det vil kategorisere planteblade som sunde eller inficerede.
Datasæt: Datasæt: Bladdatasæt
Intermediate Data Science Projects
2.1 Speech Emotion Recognition
Udforsk den komplette implementering af Data Science Project Example – Speech Emotion Recognition with Librosa
Lad os nu lære at bruge forskellige biblioteker. Dette datalogiprojekt bruger Librosa til at udføre talemotionsgenkendelse. SER er processen med at forsøge at genkende menneskelige følelser og affektive tilstande fra tale. Da vi bruger tone og tonehøjde til at udtrykke følelser gennem stemmen, er SER muligt; men det er svært, fordi følelser er subjektive, og annotering af lyd er en udfordring. Vi vil bruge mfcc-, chroma- og mel-funktionerne og bruge RAVDESS-datasættet til at genkende følelser på. Vi vil opbygge en MLPClassificator til modellen.
Sprog: Python
Datasæt/pakke: RAVDESS-datasæt
2.2 Køns- og aldersdetektion med datavidenskab
Sæt speederen i bund imponer rekrutteringsfolk med ultimativt datavidenskabsprojekt – Køns- og aldersdetektion med OpenCV
Dette er et interessant datavidenskabsprojekt med Python. Ved hjælp af blot ét billede lærer du at forudsige køn og aldersinterval for en person. I dette introducerer vi dig til Computer Vision og dens principper. Vi bygger et Convolutional Neural Network og bruger modeller, der er trænet af Tal Hassner og Gil Levi til Adience-datasættet. Vi bruger nogle .pb-, .pbtxt-, .prototxt- og .caffemodel-filer undervejs.
Sprog: Python
Datasæt/Pakke: Adience
2.3 Diabetisk retinopati
Datavidenskabelig projektidé: Diabetisk retinopati er en af de vigtigste årsager til blindhed. Du kan udvikle en automatisk metode til screening af diabetisk retinopati. Du kan træne et neuralt netværk på nethindebilleder af ramte og normale personer. Dette projekt vil klassificere, om patienten har retinopati eller ej.
Datasæt: Datasæt: Diabetic Retinopathy Dataset
2.3 Uber Data Analysis in R
Kontroller den komplette implementering af Data Science Project with Source Code – Uber Data Analysis Project in R
Dette er et datavisualiseringsprojekt med ggplot2, hvor vi vil bruge R og dets biblioteker og analysere forskellige parametre som f.eks. rejser efter timer i løbet af en dag og rejser i løbet af måneder i løbet af et år. Vi vil bruge Uber Pickups in New York City-datasættet og oprette visualiseringer for forskellige tidsrammer i løbet af året. Dette fortæller os, hvordan tiden påvirker kundernes ture.
Sprog: R
Datasæt/pakke: Uber Pickups in New York City datasæt
2.4 Driver Drowsiness detection in Python
Driv din karriere til nye højder ved at arbejde på Top Data Science Project – Drowsiness Detection System with OpenCV Keras
Drowsy driving is extremely dangerous and around thousands of accidents happen each year due to drivers falling asleep while driving. I dette Python-projekt vil vi opbygge et system, der kan registrere søvnige chauffører og også advare dem ved hjælp af en bippende alarm.
Dette projekt er implementeret ved hjælp af Keras og OpenCV. Vi vil bruge OpenCV til ansigts- og øjendetektion, og med Keras vil vi klassificere øjets tilstand (åben eller lukket) ved hjælp af Deep neural network-teknikker.
2.5 Chatbot-projekt i Python
Byg en chatbot ved hjælp af Python &skridt op i din karriere – Chatbot med NLTK Keras
Chatbots er en vigtig del af forretningen. Mange virksomheder skal tilbyde tjenester til deres kunder, og det kræver en masse arbejdskraft, tid og kræfter at håndtere kunderne. Chatbots kan automatisere det meste af kundeinteraktionen ved at besvare nogle af de hyppige spørgsmål, der stilles af kunderne. Der findes primært to typer chatbots: Domænespecifikke chatbots og chatbots med åbne domæner. Den domænespecifikke chatbot bruges ofte til at løse et bestemt problem. Så du skal tilpasse den smart for at arbejde effektivt inden for dit domæne. Open-domænet chatbots kan få stillet alle typer spørgsmål, så det kræver store mængder data at træne.
Sprog: Python
Datasæt: Intents json-fil
2.6 Projekt om genkendelse af håndskrevne tal
Praktisk implementering af Deep Learning Project med kildekode – Handwritten Digit Recognition with CNN
MNIST-datasættet af håndskrevne tal er meget udbredt blandt dataloger og entusiaster af maskinlæring. Det er et fantastisk projekt til at komme i gang med datavidenskab og forstå de processer, der er involveret i et projekt. Projektet er implementeret ved hjælp af Convolutional Neural Networks, og derefter til realtidsforudsigelse bygger vi også en flot grafisk brugergrænseflade til at tegne cifre på et lærred, og derefter vil modellen forudsige cifferet.
Sprog: Python
Datasæt: Python
Sprog: Python
MNIST
Bliv ansat som datavidenskabsmand med Top Data Science Interview Questions
Advanced Data Science Projects
3.1 Image Caption Generator Project in Python
Kontroller den komplette implementering af datavidenskabsprojektet med kildekode – Image Caption Generator with CNN LSTM
Dette er et interessant datavidenskabsprojekt. At beskrive, hvad der er i et billede, er en nem opgave for mennesker, men for computere er et billede bare en masse tal, der repræsenterer farveværdien for hver pixel. Så det er en vanskelig opgave for computere at forstå, hvad der er i billedet, og så er det en anden vanskelig opgave at generere beskrivelsen i et naturligt sprog som engelsk. Dette projekt anvender dybe indlæringsteknikker, hvor vi implementerer et Convolutional Neural Network (CNN) med Recurrent Neural Network( LSTM) for at opbygge billedtekstgeneratoren.
Datasæt: Flickr 8K
Sprog: Flickr 8K
Python
Framework: Python: Keras
3.2 Projekt om detektion af kreditkortbedrageri
Sæt dit bedste ben frem ved at arbejde med Data Science Projects – Credit Card Fraud Detection with Machine Learning
Nu er du begyndt at forstå metoderne og koncepterne. Lad os gå videre til nogle avancerede datavidenskabsprojekter. I dette projekt vil vi bruge R med algoritmer som Decision Trees, Logistic Regression, Artificial Neural Networks og Gradient Boosting Classifier. Vi vil bruge datasættet Card Transactions til at klassificere kreditkorttransaktioner i svigagtige og ægte. Vi tilpasser de forskellige modeller og tegner præstationskurver for dem.
Sprog: R
Datasæt/Pakke: Korttransaktioner datasæt
3.3 Filmanbefalingssystem
Udforsk implementeringen af Best Data Science Project with Source Code- Movie Recommendation System Project in R
I dette data science projekt vil vi bruge R til at udføre en filmanbefaling gennem maskinlæring. Et anbefalingssystem sender forslag til brugere gennem en filtreringsproces baseret på andre brugeres præferencer og browsinghistorik. Hvis A og B kan lide Home Alone, og B kan lide Mean Girls, kan den blive foreslået til A – de kan måske også lide den. Dette holder kunderne engageret i platformen.
Sprog: R
Datasæt/Pakke: MovieLens-datasæt
3.4 Kundesegmentering
Sæt medaljen i pedalen & imponer rekrutteringsfolk med Data Science-projekt (kildekode medfølger) – Kundesegmentering med maskinlæring
Dette er et af de mest populære projekter inden for Data Science. Før de kører en kampagne, opretter virksomheder forskellige grupper af kunder.
Kundesegmentering er en populær anvendelse af uovervåget læring. Ved hjælp af clustering identificerer virksomheder segmenter af kunder for at målrette den potentielle brugerbase. De opdeler kunderne i grupper efter fælles karakteristika som køn, alder, interesser og forbrugsvaner, så de kan markedsføre sig effektivt til hver enkelt gruppe. Vi vil bruge K-means clustering og også visualisere køns- og aldersfordelingerne. Derefter analyserer vi deres årlige indkomster og forbrugsscore.
Sprog: R
Datasæt/pakke: R
Datasæt/pakke: Mall_Customers datasæt
3.5 Klassificering af brystkræft
Kontroller den komplette implementering af Data Science Project in Python – Breast Cancer Classification with Deep Learning
For at vende tilbage til de medicinske bidrag fra data science, lad os lære at opdage brystkræft med Python. Vi vil bruge IDC_regular-datasættet til at detektere tilstedeværelsen af Invasive Ductal Carcinoma, som er den mest almindelige form for brystkræft. Det udvikler sig i en mælkegang og invaderer det fibrøse eller fedtede brystvæv uden for kanalen. I denne idé til datalogiprojekt vil vi bruge Deep Learning og Keras-biblioteket til klassificering.
Sprog: Python
Datasæt/pakke: IDC_regular
3.6 Genkendelse af trafikskilte
Opnå nøjagtighed i selvkørende bilteknologi med Data Science Project on Traffic Signs Recognition using CNN with Source Code
Trafikskilte og regler er meget vigtige, som enhver bilist skal følge for at undgå enhver ulykke. For at følge reglen skal man først forstå, hvordan trafikskiltet ser ud. Et menneske skal lære alle trafikskiltene, før de får kørekort til at køre et køretøj. Men nu er autonome køretøjer på vej frem, og der vil ikke være nogen menneskelige chauffører i den kommende fremtid. I projektet om genkendelse af trafikskilte vil du lære, hvordan et program kan identificere typen af trafikskilt ved at tage et billede som input. Det tyske benchmark-datasæt til genkendelse af trafikskilte (GTSRB) bruges til at opbygge et dybt neuralt netværk til at genkende den klasse, som et trafikskilt tilhører. Vi opbygger også en simpel GUI til at interagere med programmet.
Sprog: Python
Datasæt: GTSRB (German Traffic Sign Recognition Benchmark)