Ați încercat să construiți câteva proiecte de știință a datelor pentru a vă îmbunătăți CV-ul și v-ați intimidat de dimensiunea codului și de numărul de concepte utilizate? Ți se pare prea departe de a fi la îndemână și ți-a spulberat visele de a deveni un cercetător de date? Am adunat pentru dvs. șaisprezece proiecte de știință a datelor cu cod sursă, astfel încât să puteți participa efectiv la proiecte de știință a datelor în timp real. Acestea vor ajuta la creșterea încrederii și, de asemenea, îi vor spune intervievatorului că sunteți serios în ceea ce privește știința datelor.
Știți?
Căutarea unei idei perfecte pentru proiectul dumneavoastră este ceva care vă preocupă mai mult decât implementarea proiectului în sine, nu-i așa? Deci, având același lucru în minte, am compilat o listă de peste 500+ idei de proiecte doar pentru tine. Tot ce trebuie să faceți este să marcați acest articol și să începeți.
- Proiecte Python
- Proiecte Python Django (dezvoltare web)
- Proiecte de dezvoltare a jocurilor în Python
- Proiecte de inteligență artificială în Python
- Python Machine Learning Proiecte
- Python Data Science Projects
- Python Deep Learning Projects
- Python Computer Vision Projects
- Python Internet of Things Projects
În acest blog, vom enumera diferite exemple de proiecte de știință a datelor în limbajele R și Python. Să le separăm pe acestea în funcție de dificultate, astfel încât să aveți o cale potrivită de urmat.
Rămâneți la curent cu cele mai recente tendințe tehnologice
Alegați-vă la DataFlair pe Telegram!!!
- Cele mai bune idei de proiecte de știință a datelor
- Proiecte de știință a datelor pentru începători
- 1.1 Detectarea știrilor false
- 1.2 Road Lane Line Detection
- 1.3 Analiza sentimentelor
- 1.4 Detecting Parkinson’s Disease
- 1.5 Color Detection with Python
- 1.6 Detectarea tumorilor cerebrale cu ajutorul științei datelor
- 1.7 Detectarea bolilor de frunze
- Proiecte intermediare de știință a datelor
- 2.1 Recunoașterea emoțiilor vocale
- 2.2 Gender and Age Detection with Data Science
- 2.3 Retinopatie diabetică
- 2.3 Uber Data Analysis in R
- 2.4 Detectarea somnolenței șoferilor în Python
- 2.5 Proiect de chatbot în Python
- 2.6 Handwritten Digit Recognition Project
- Advanced Data Science Projects
- 3.1 Image Caption Generator Project in Python
- 3.2 Credit Card Fraud Detection Project
- 3.3 Movie Recommendation System
- 3.4 Segmentarea clienților
- 3.5 Clasificarea cancerului de sân
- 3.6 Recunoașterea semnelor de trafic
- Summary
- Summary
Cele mai bune idei de proiecte de știință a datelor
Iată cele mai bune idei de proiecte de știință a datelor cu cod sursă:
Proiecte de știință a datelor pentru începători
1.1 Detectarea știrilor false
Direcționați-vă cariera spre noi înălțimi lucrând la Proiectul de știință a datelor pentru începători – Detectarea știrilor false cu Python
Un rege al jurnalismului galben, știrile false sunt informații false și păcăleli răspândite prin intermediul rețelelor de socializare și al altor medii online pentru a realiza o agendă politică. În această idee de proiect de știință a datelor, vom folosi Python pentru a construi un model care poate detecta cu exactitate dacă o știre este reală sau falsă. Vom construi un TfidfVectorizer și vom folosi un PassiveAggressiveClassifier pentru a clasifica știrile în “Real” și “Fake”. Vom folosi un set de date de forma 7796×4 și vom executa totul în Jupyter Lab.
Limbaj: Python
Dataset/Pachet: news.csv
1.2 Road Lane Line Detection
Verificați implementarea completă a proiectului de știință a datelor de detectare a liniilor de circulație: Real-time Lane Line Detection in Python
Data Science Project Idea: Liniile trasate pe drumuri ghidează șoferii umani unde sunt benzile de circulație. De asemenea, se referă la direcția în care trebuie să dirijeze vehiculul. Această aplicație este cardinală pentru dezvoltarea mașinilor fără șofer.
Puteți construi o aplicație care să aibă capacitatea de a identifica liniile de cale ferată din imagini de intrare sau cadre video continue.
1.3 Analiza sentimentelor
Verificați implementarea completă a proiectului Data Science Project with Source Code – Sentiment Analysis Project in R
Analiza sentimentelor este actul de analiză a cuvintelor pentru a determina sentimentele și opiniile care pot fi pozitive sau negative în polaritate. Acesta este un tip de clasificare în care clasele pot fi binare (pozitive și negative) sau multiple (fericit, furios, trist, dezgustat,..). Vom implementa acest proiect de știință a datelor în limbajul R și vom utiliza setul de date prin pachetul “janeaustenR”. Vom folosi lexicoane de uz general cum ar fi AFINN, bing și loughran, vom efectua o îmbinare interioară, iar la final, vom construi un nor de cuvinte pentru a afișa rezultatul.
Limbaj: R
Dataset/Pachet: janeaustenR
1.4 Detecting Parkinson’s Disease
Puneți-vă cel mai bun picior înainte lucrând la Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost
Am început să folosim știința datelor pentru a îmbunătăți asistența medicală și serviciile – dacă putem prezice o boală din timp, aceasta are multe avantaje asupra prognosticului. Așadar, în această idee de proiect de știință a datelor, vom învăța să detectăm boala Parkinson cu Python. Aceasta este o afecțiune neurodegenerativă, progresivă a sistemului nervos central, care afectează mișcarea și provoacă tremurături și rigiditate. Aceasta afectează neuronii producători de dopamină din creier și, în fiecare an, afectează mai mult de 1 milion de persoane în India.
Limba: Python
Dataset/Package: UCI ML Parkinsons dataset
1.5 Color Detection with Python
Construiți o aplicație pentru detectarea culorilor cu Beginner Data Science Project – Color Detection with OpenCV
De câte ori vi s-a întâmplat ca, chiar și după ce ați văzut, să nu vă amintiți numele culorii? Pot exista 16 milioane de culori pe baza diferitelor valori de culoare RGB, dar noi ne amintim doar câteva. Așadar, în acest proiect, vom construi o aplicație interactivă care va detecta culoarea selectată din orice imagine. Pentru a implementa acest lucru vom avea nevoie de date etichetate cu toate culorile cunoscute, apoi vom calcula ce culoare seamănă cel mai mult cu valoarea selectată a culorii.
Limbaj: Python
Dataet: Codebrainz Color Names
1.6 Detectarea tumorilor cerebrale cu ajutorul științei datelor
Ideea de proiect în domeniul științei datelor: Există multe proiecte celebre de învățare profundă pe setul de date de scanare RMN. Unul dintre ele este detectarea tumorilor cerebrale. Puteți utiliza învățarea prin transfer pe aceste scanări RMN pentru a obține caracteristicile necesare pentru clasificare. Sau puteți să vă antrenați propria rețea neuronală de convoluție de la zero pentru a detecta tumorile cerebrale.
Dataset: Brain MRI Image Dataset
1.7 Detectarea bolilor de frunze
Ideea de proiect în domeniul științei datelor: Detectarea bolilor la plante joacă un rol foarte important în domeniul agriculturii. Acest proiect Data Science își propune să ofere o interfață de inspecție automată bazată pe imagini. Acesta implică utilizarea unor tehnici de procesare a imaginilor și de învățare profundă concepute de sine stătător. Acesta va clasifica frunzele plantelor ca fiind sănătoase sau infectate.
Dataset: Leaf Dataset
Proiecte intermediare de știință a datelor
2.1 Recunoașterea emoțiilor vocale
Explorați implementarea completă a proiectului de știință a datelor Exemplu de proiect de știință a datelor – Recunoașterea emoțiilor vocale cu Librosa
Să învățăm acum să folosim diferite biblioteci. Acest proiect de știință a datelor utilizează librosa pentru a realiza recunoașterea emoțiilor vocale. SER este procesul prin care se încearcă recunoașterea emoțiilor umane și a stărilor afective din vorbire. Deoarece folosim tonul și tonul pentru a exprima emoția prin voce, SER este posibil; dar este dificil, deoarece emoțiile sunt subiective și adnotarea audio este o provocare. Vom utiliza caracteristicile mfcc, chroma și mel și vom folosi setul de date RAVDESS pentru a recunoaște emoțiile. Vom construi un MLPClassifier pentru model.
Limba: Python
Dataset/Package: RAVDESS dataset
2.2 Gender and Age Detection with Data Science
Puneți pedala la podea &impresionați recrutorii cu ultimul proiect Data Science Project – Gender and Age Detection with OpenCV
Acesta este un proiect interesant de știință a datelor cu Python. Folosind doar o singură imagine, veți învăța să preziceți sexul și intervalul de vârstă al unui individ. În acesta, vă prezentăm Computer Vision și principiile sale. Vom construi o rețea neuronală convoluțională și vom folosi modelele antrenate de Tal Hassner și Gil Levi pentru setul de date Adience. Vom folosi câteva fișiere .pb, .pbtxt, .prototxt și .caffemodel pe parcurs.
Limbaj: Python
Dataset/Package: Adience
2.3 Retinopatie diabetică
Ideea de proiect pentru știința datelor: Retinopatia diabetică este una dintre principalele cauze de orbire. Puteți dezvolta o metodă automată de depistare a retinopatiei diabetice. Puteți antrena o rețea neuronală pe imagini de retină ale persoanelor afectate și normale. Acest proiect va clasifica dacă pacientul are sau nu retinopatie.
Dataset: Diabetic Retinopathy Dataset
2.3 Uber Data Analysis in R
Verificați implementarea completă a proiectului Data Science Project with Source Code – Uber Data Analysis Project in R
Acesta este un proiect de vizualizare a datelor cu ggplot2 în care vom folosi R și bibliotecile sale și vom analiza diverși parametri, cum ar fi călătoriile în funcție de orele dintr-o zi și călătoriile în timpul lunilor dintr-un an. Vom folosi setul de date Uber Pickups in New York City și vom crea vizualizări pentru diferite intervale de timp ale anului. Acest lucru ne spune cum influențează timpul călătoriile clienților.
Limba: R
Dataset/Package: Uber Pickups in New York City dataset
2.4 Detectarea somnolenței șoferilor în Python
Drive your career to new heights by working on Top Data Science Project – Drowsiness Detection System with OpenCV & Keras
Conducerea somnolentă este extrem de periculoasă și în jur de mii de accidente au loc în fiecare an din cauza șoferilor care adorm la volan. În acest proiect Python, vom construi un sistem care poate detecta șoferii somnoroși și, de asemenea, îi va alerta prin alarmă sonoră.
Acest proiect este implementat folosind Keras și OpenCV. Vom folosi OpenCV pentru detectarea feței și a ochilor, iar cu Keras, vom clasifica starea ochiului (deschis sau închis) folosind tehnici de rețea neuronală profundă.
2.5 Proiect de chatbot în Python
Construiți un chatbot folosind Python & faceți un pas înainte în cariera dumneavoastră – Chatbot cu NLTK & Keras
Chatbot-urile sunt o parte esențială a afacerilor. Multe întreprinderi trebuie să ofere servicii clienților lor și este nevoie de multă forță de muncă, timp și efort pentru a se ocupa de clienți. Chatbots pot automatiza cea mai mare parte a interacțiunii cu clienții, răspunzând la unele dintre întrebările frecvente care sunt adresate de către clienți. Există, în principal, două tipuri de chatbots: Chatbots cu domeniu specific și chatbots cu domeniu deschis. Chatbotul specific domeniului este adesea utilizat pentru a rezolva o anumită problemă. Așadar, trebuie să îl personalizați inteligent pentru a funcționa eficient în domeniul dvs. Chatbots-ului Open-domain i se poate pune orice tip de întrebare, astfel încât necesită cantități uriașe de date pentru a fi antrenate.
Limba: Python
Dataet: Fișier json Intents
2.6 Handwritten Digit Recognition Project
Implementați practic proiectul Deep Learning Project with Source Code – Handwritten Digit Recognition with CNN
The MNIST dataset of handwritten digits is widespread among the data scientists and machine learning enthusiasts. Este un proiect uimitor pentru a începe cu știința datelor și pentru a înțelege procesele implicate într-un proiect. Proiectul este implementat cu ajutorul rețelelor neuronale convoluționale și apoi, pentru predicția în timp real, construim, de asemenea, o interfață grafică plăcută pentru utilizator pentru a desena cifrele pe o pânză și apoi modelul va prezice cifra.
Limbaj: Python
Dataset: MNIST
Să fii angajat ca cercetător de date cu Top Data Science Interview Questions
Advanced Data Science Projects
3.1 Image Caption Generator Project in Python
Verificați implementarea completă a proiectului de știință a datelor cu codul sursă – Image Caption Generator with CNN & LSTM
Acesta este un proiect interesant de știință a datelor. Descrierea a ceea ce se află într-o imagine este o sarcină ușoară pentru oameni, dar pentru computere, o imagine este doar o grămadă de numere care reprezintă valoarea de culoare a fiecărui pixel. Așadar, este o sarcină dificilă pentru calculatoare să înțeleagă ce se află în imagine, iar generarea descrierii în limbaj natural, cum ar fi limba engleză, este o altă sarcină dificilă. Acest proiect utilizează tehnici de învățare profundă în care implementăm o rețea neuronală convoluțională (CNN) cu o rețea neuronală recurentă (LSTM) pentru a construi generatorul de legende pentru imagini.
Dataset: Flickr 8K
Limbajul: Python
Framework: Keras
3.2 Credit Card Fraud Detection Project
Puneți-vă cel mai bun picior înainte lucrând la Data Science Projects – Credit Card Fraud Detection with Machine Learning
Până acum, ați început să înțelegeți metodele și conceptele. Haideți să trecem la câteva proiecte avansate de știință a datelor. În acest proiect, vom folosi R cu algoritmi precum Decision Trees, Logistic Regression, Artificial Neural Networks și Gradient Boosting Classifier. Vom utiliza setul de date Card Transactions pentru a clasifica tranzacțiile cu carduri de credit în frauduloase și autentice. Vom potrivi diferitele modele și vom trasa curbe de performanță pentru acestea.
Limbaj: R
Dataset/Package: Card Transactions dataset
3.3 Movie Recommendation System
Explorați implementarea proiectului Best Data Science Project with Source Code- Movie Recommendation System Project in R
În acest proiect de știință a datelor, vom folosi R pentru a realiza o recomandare de film prin învățare automată. Un sistem de recomandare trimite sugestii utilizatorilor printr-un proces de filtrare bazat pe preferințele și istoricul de navigare al altor utilizatori. Dacă lui A și B le place Home Alone, iar lui B îi place Mean Girls, acesta poate fi sugerat lui A – s-ar putea să le placă și lor. Acest lucru menține clienții angajați cu platforma.
Limba: R
Dataset/Package: MovieLens dataset
3.4 Segmentarea clienților
Puneți medalia la pedală &impresionați recrutorii cu Data Science Project (Source Code included) – Customer Segmentation with Machine Learning
Acesta este unul dintre cele mai populare proiecte în Data Science. Înainte de a derula orice campanie, companiile creează diferite grupuri de clienți.
Segmentarea clienților este o aplicație populară a învățării nesupravegheate. Folosind gruparea, companiile identifică segmente de clienți pentru a ținti baza de utilizatori potențiali. Aceștia împart clienții în grupuri în funcție de caracteristici comune, cum ar fi sexul, vârsta, interesele și obiceiurile de consum, astfel încât să poată comercializa eficient pentru fiecare grup. Vom folosi gruparea K-means și vom vizualiza, de asemenea, distribuția pe sexe și vârste. Apoi, vom analiza veniturile lor anuale și scorurile de cheltuieli.
Limba: R
Dataset/Package: Mall_Customers dataset
3.5 Clasificarea cancerului de sân
Veziți implementarea completă a proiectului Data Science Project in Python – Breast Cancer Classification with Deep Learning
Întorcându-ne la contribuțiile medicale ale științei datelor, haideți să învățăm să detectăm cancerul de sân cu Python. Vom folosi setul de date IDC_regular pentru a detecta prezența carcinomului ductal invaziv, cea mai frecventă formă de cancer de sân. Acesta se dezvoltă într-un canal de lapte care invadează țesutul mamar fibros sau gras din afara canalului. În această idee de proiect de știință a datelor, vom folosi Deep Learning și biblioteca Keras pentru clasificare.
Limbajul: Python
Dataset/Pachet: IDC_regular
3.6 Recunoașterea semnelor de trafic
Atingeți acuratețea în tehnologia mașinilor care se conduc singure cu Proiectul de știință a datelor privind recunoașterea semnelor de trafic folosind CNN cu codul sursă
Semnele și regulile de trafic sunt foarte importante pe care fiecare șofer trebuie să le respecte pentru a evita orice accident. Pentru a respecta regula trebuie mai întâi să înțeleagă cum arată semnul de circulație. Un om trebuie să învețe toate semnele de circulație înainte de a primi permisul pentru a conduce orice vehicul. Dar acum vehiculele autonome sunt în creștere și nu vor mai exista șoferi umani în viitorul apropiat. În cadrul proiectului de recunoaștere a semnelor de circulație, veți învăța cum poate un program să identifice tipul de semn de circulație prin introducerea unei imagini. Setul de date de referință pentru recunoașterea semnelor de circulație din Germania (GTSRB) este utilizat pentru a construi o rețea neuronală profundă care să recunoască clasa din care face parte un semn de circulație. De asemenea, construim o interfață grafică simplă pentru a interacționa cu aplicația.
Limbaj: Python
Dataset: GTSRB (German Traffic Sign Recognition Benchmark)
Summary
: GTSRB (German Traffic Sign Recognition Benchmark)
Summary
.