Hai provato a costruire alcuni progetti di scienza dei dati per migliorare il tuo curriculum e sei stato intimidito dalle dimensioni del codice e dal numero di concetti utilizzati? Ti sembra troppo fuori portata, e ha distrutto i tuoi sogni di diventare uno scienziato dei dati? Abbiamo raccolto per te sedici progetti di scienza dei dati con codice sorgente in modo che tu possa effettivamente partecipare ai progetti in tempo reale della scienza dei dati. Questi aiuteranno ad aumentare la fiducia e anche a dire all’intervistatore che sei serio riguardo alla scienza dei dati.
Lo sai?
Trovare un’idea perfetta per il tuo progetto è qualcosa che ti preoccupa più dell’implementazione del progetto stesso, vero? Quindi, tenendo lo stesso in mente, abbiamo compilato una lista di oltre 500+ idee di progetto solo per te. Tutto quello che devi fare è mettere questo articolo tra i preferiti e iniziare.
- Progetti Python
- Progetti Python Django (Sviluppo Web)
- Progetti di sviluppo giochi
- Progetti di intelligenza artificiale
- Python Machine Learning Progetti
- Progetti di scienza dei dati
- Progetti di apprendimento profondo
- Progetti di visione artificiale
- Progetti di Internet delle cose
In questo blog, elencheremo diversi esempi di progetti di scienza dei dati nei linguaggi R e Python. Separiamoli in base alla difficoltà in modo da avere un percorso adeguato da seguire.
Rimani aggiornato sulle ultime tendenze della tecnologia
Entra in DataFlair su Telegram!!!
- Più importanti idee di progetti di scienza dei dati
- Progetti principianti di scienza dei dati
- 1.1 Fake News Detection
- 1.2 Road Lane Line Detection
- 1.3 Sentiment Analysis
- 1.4 Individuare il morbo di Parkinson
- 1.5 Rilevamento del colore con Python
- 1.6 Rilevamento del tumore al cervello con la scienza dei dati
- 1.7 Leaf Disease Detection
- Progetti di scienza dei dati intermedi
- 2.1 Riconoscimento delle emozioni vocali
- 2.2 Rilevamento di genere ed età con la scienza dei dati
- 2.3 Retinopatia diabetica
- 2.3 Analisi dei dati Uber in R
- 2.4 Driver Drowsiness detection in Python
- 2.5 Progetto Chatbot in Python
- 2.6 Progetto di riconoscimento di cifre scritte a mano
- Progetti avanzati sulla scienza dei dati
- 3.1 Progetto generatore di didascalie di immagini in Python
- 3.2 Credit Card Fraud Detection Project
- 3.3 Movie Recommendation System
- 3.4 Segmentazione della clientela
- 3.5 Classificazione del cancro al seno
- 3.6 Riconoscimento dei segnali stradali
- Summary
Più importanti idee di progetti di scienza dei dati
Ecco le migliori idee di progetti di scienza dei dati con codice sorgente:
Progetti principianti di scienza dei dati
1.1 Fake News Detection
Porta la tua carriera a nuove altezze lavorando su un progetto di scienza dei dati per principianti – Rilevamento di notizie false con Python
Un re del giornalismo giallo, le fake news sono false informazioni e bufale diffuse attraverso i social media e altri media online per raggiungere un programma politico. In questa idea di progetto di scienza dei dati, useremo Python per costruire un modello che può rilevare con precisione se una notizia è vera o falsa. Costruiremo un TfidfVectorizer e useremo un PassiveAggressiveClassifier per classificare le notizie in “Real” e “Fake”. Useremo un set di dati di forma 7796×4 ed eseguiremo tutto in Jupyter Lab.
Lingua: Python
Dataset/Pacchetto: news.csv
1.2 Road Lane Line Detection
Guarda l’implementazione completa del Lane Line Detection Data Science Project: Rilevamento delle linee di corsia in tempo reale in Python
idea del progetto di scienza dei dati: Le linee tracciate sulle strade guidano i guidatori umani dove sono le corsie. Si riferisce anche alla direzione per sterzare il veicolo. Questa applicazione è fondamentale per lo sviluppo di auto senza conducente.
È possibile costruire un’applicazione che abbia la capacità di identificare le linee di traccia dalle immagini di input o dai fotogrammi video continui.
1.3 Sentiment Analysis
Controlla l’implementazione completa del progetto Data Science con codice sorgente – Sentiment Analysis Project in R
Sentiment analysis è l’atto di analizzare le parole per determinare sentimenti e opinioni che possono essere positivi o negativi in polarità. È un tipo di classificazione in cui le classi possono essere binarie (positivo e negativo) o multiple (felice, arrabbiato, triste, disgustato,…). Implementeremo questo progetto di scienza dei dati nel linguaggio R e useremo il dataset del pacchetto ‘janeaustenR’. Useremo lessici di uso generale come AFINN, bing e loughran, eseguiremo un inner join e, alla fine, costruiremo una nuvola di parole per visualizzare il risultato.
Lingua: R
Dataset/Pacchetto: janeaustenR
1.4 Individuare il morbo di Parkinson
Fai del tuo meglio lavorando su Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost
Abbiamo iniziato a usare la scienza dei dati per migliorare la sanità e i servizi – se possiamo prevedere una malattia in anticipo, ci sono molti vantaggi sulla prognosi. Così in questa idea di progetto di scienza dei dati, impareremo a rilevare il morbo di Parkinson con Python. Questo è un disordine neurodegenerativo e progressivo del sistema nervoso centrale che colpisce il movimento e causa tremori e rigidità. Colpisce i neuroni che producono dopamina nel cervello e ogni anno colpisce più di 1 milione di individui in India.
Lingua: Python
Dataset/Pacchetto: UCI ML Parkinsons dataset
1.5 Rilevamento del colore con Python
Costruisci un’applicazione per rilevare i colori con Beginner Data Science Project – Color Detection with OpenCV
Quante volte ti è capitato che anche dopo aver visto, non ricordi il nome del colore? Ci possono essere 16 milioni di colori basati sui diversi valori di colore RGB, ma noi ne ricordiamo solo alcuni. Quindi, in questo progetto, costruiremo un’applicazione interattiva che rileverà il colore selezionato da qualsiasi immagine. Per implementare questo avremo bisogno di dati etichettati di tutti i colori conosciuti, poi calcoleremo quale colore assomiglia di più al valore del colore selezionato.
Lingua: Python
Dataset: Codebrainz Color Names
1.6 Rilevamento del tumore al cervello con la scienza dei dati
Idea di progetto di scienza dei dati: Ci sono molti famosi progetti di deep learning su dataset di scansioni MRI. Uno di questi è il rilevamento del tumore al cervello. Puoi usare il transfer learning su queste scansioni MRI per ottenere le caratteristiche richieste per la classificazione. Oppure puoi addestrare la tua rete neurale di convoluzione da zero per rilevare i tumori al cervello.
Dataset: Brain MRI Image Dataset
1.7 Leaf Disease Detection
Data Science Project Idea: Il rilevamento delle malattie nelle piante gioca un ruolo molto importante nel campo dell’agricoltura. Questo progetto di Data Science mira a fornire un’interfaccia di ispezione automatica basata sulle immagini. Implica l’uso di tecniche di elaborazione delle immagini e di apprendimento profondo. Classificherà le foglie delle piante come sane o infette.
Dataset: Leaf Dataset
Progetti di scienza dei dati intermedi
2.1 Riconoscimento delle emozioni vocali
Esplora l’implementazione completa di Data Science Project Example – Speech Emotion Recognition with Librosa
Impariamo ora a usare diverse librerie. Questo progetto di scienza dei dati usa librosa per eseguire il riconoscimento delle emozioni vocali. Il SER è il processo che cerca di riconoscere l’emozione umana e gli stati affettivi dal discorso. Dal momento che usiamo il tono e l’intonazione per esprimere le emozioni attraverso la voce, la SER è possibile; ma è difficile perché le emozioni sono soggettive e annotare l’audio è impegnativo. Useremo le caratteristiche mfcc, chroma e mel e useremo il dataset RAVDESS per riconoscere le emozioni. Costruiremo un classificatore MLPC per il modello.
Lingua: Python
Dataset/Pacchetto: RAVDESS dataset
2.2 Rilevamento di genere ed età con la scienza dei dati
Porta il pedale al metallo & impressiona i reclutatori con l’ultimo progetto di scienza dei dati – Rilevamento di genere ed età con OpenCV
Questo è un interessante progetto di scienza dei dati con Python. Usando solo un’immagine, imparerai a predire il sesso e l’età di un individuo. In questo, ti introduciamo alla Computer Vision e ai suoi principi. Costruiremo una Rete Neurale Convoluzionale e useremo modelli addestrati da Tal Hassner e Gil Levi per il dataset Adience. Useremo alcuni file .pb, .pbtxt, .prototxt, e .caffemodel lungo la strada.
Lingua: Python
Dataset/Pacchetto: Adience
2.3 Retinopatia diabetica
Data Science Project Idea: La retinopatia diabetica è una delle principali cause di cecità. Puoi sviluppare un metodo automatico di screening della retinopatia diabetica. Puoi addestrare una rete neurale su immagini della retina di persone affette e normali. Questo progetto classificherà se il paziente ha la retinopatia o no.
Dataset: Diabetic Retinopathy Dataset
2.3 Analisi dei dati Uber in R
Verifica l’implementazione completa del progetto di scienza dei dati con codice sorgente – Progetto di analisi dei dati Uber in R
Questo è un progetto di visualizzazione dei dati con ggplot2 dove useremo R e le sue librerie e analizzeremo vari parametri come i viaggi per ore in un giorno e viaggi durante i mesi in un anno. Useremo il dataset Uber Pickups in New York City e creeremo visualizzazioni per diversi periodi dell’anno. Questo ci dice come il tempo influenza i viaggi dei clienti.
Lingua: R
Dataset/Pacchetto: Uber Pickups in New York City dataset
2.4 Driver Drowsiness detection in Python
Porta la tua carriera a nuove altezze lavorando su Top Data Science Project – Drowsiness Detection System with OpenCV & Keras
La guida sonnolenta è estremamente pericolosa e circa migliaia di incidenti accadono ogni anno a causa di conducenti che si addormentano durante la guida. In questo progetto Python, costruiremo un sistema che può rilevare i guidatori assonnati e anche avvisarli con un allarme sonoro.
Questo progetto è implementato utilizzando Keras e OpenCV. Useremo OpenCV per il rilevamento del viso e degli occhi e con Keras, classificheremo lo stato dell’occhio (Aperto o Chiuso) usando tecniche di rete neurale profonda.
2.5 Progetto Chatbot in Python
Costruisci un chatbot usando Python &fai un passo avanti nella tua carriera – Chatbot con NLTK & Keras
I chatbot sono una parte essenziale del business. Molte aziende devono offrire servizi ai loro clienti e hanno bisogno di molta manodopera, tempo e sforzi per gestire i clienti. I chatbot possono automatizzare la maggior parte dell’interazione con i clienti rispondendo ad alcune delle domande frequenti che vengono poste dai clienti. Ci sono principalmente due tipi di chatbot: Chatbot di dominio specifico e chatbot di dominio aperto. Il chatbot dominio-specifico è spesso utilizzato per risolvere un problema particolare. Quindi è necessario personalizzarlo in modo intelligente per lavorare efficacemente nel tuo dominio. I chatbot di dominio aperto possono essere sottoposti a qualsiasi tipo di domanda, quindi richiedono enormi quantità di dati da addestrare.
Lingua: Python
Dataset: Intents json file
2.6 Progetto di riconoscimento di cifre scritte a mano
Praticamente implementa il progetto di apprendimento profondo con codice sorgente – Riconoscimento di cifre scritte a mano con CNN
Il dataset MNIST di cifre scritte a mano è diffuso tra gli scienziati di dati e gli appassionati di apprendimento automatico. È un progetto incredibile per iniziare con la scienza dei dati e capire i processi coinvolti in un progetto. Il progetto è implementato utilizzando le Reti Neurali Convoluzionali e poi per la previsione in tempo reale costruiamo anche una bella interfaccia grafica per disegnare le cifre su una tela e poi il modello predirà la cifra.
Lingua: Python
Dataset: MNIST
Fatti assumere come scienziato dei dati con le migliori domande per il colloquio sulla scienza dei dati
Progetti avanzati sulla scienza dei dati
3.1 Progetto generatore di didascalie di immagini in Python
Controlla l’implementazione completa del progetto di scienza dei dati con codice sorgente – Generatore di didascalie di immagini con CNN & LSTM
Questo è un interessante progetto di scienza dei dati. Descrivere cosa c’è in un’immagine è un compito facile per gli esseri umani, ma per i computer, un’immagine è solo un mucchio di numeri che rappresentano il valore del colore di ogni pixel. Quindi questo è un compito difficile per i computer per capire cosa c’è nell’immagine e poi generare la descrizione in linguaggio naturale come l’inglese è un altro compito difficile. Questo progetto utilizza tecniche di deep learning in cui implementiamo una rete neurale convoluzionale (CNN) con una rete neurale ricorrente (LSTM) per costruire il generatore di didascalie delle immagini.
Dataset: Flickr 8K
Lingua: Python
Framework: Keras
3.2 Credit Card Fraud Detection Project
Fai del tuo meglio lavorando su Data Science Projects – Credit Card Fraud Detection with Machine Learning
A questo punto, hai iniziato a capire i metodi e i concetti. Passiamo ad alcuni progetti avanzati di scienza dei dati. In questo progetto, useremo R con algoritmi come Alberi Decisionali, Regressione Logistica, Reti Neurali Artificiali, e Classificatore Gradient Boosting. Useremo il dataset Card Transactions per classificare le transazioni con carta di credito in fraudolente e genuine. Adatteremo i diversi modelli e tracceremo le curve di performance per loro.
Lingua: R
Dataset/Pacchetto: Card Transactions dataset
3.3 Movie Recommendation System
Esplora l’implementazione del Best Data Science Project with Source Code- Movie Recommendation System Project in R
In questo progetto di data science, useremo R per eseguire una raccomandazione di film tramite machine learning. Un sistema di raccomandazione invia suggerimenti agli utenti attraverso un processo di filtraggio basato sulle preferenze degli altri utenti e sulla cronologia di navigazione. Se ad A e B piace Home Alone e a B piace Mean Girls, può essere suggerito ad A – potrebbe piacere anche a loro. Questo mantiene i clienti impegnati con la piattaforma.
Lingua: R
Dataset/Pacchetto: MovieLens dataset
3.4 Segmentazione della clientela
Metti la medaglia al pedale &impressiona i reclutatori con il progetto Data Science (codice sorgente incluso) – Segmentazione della clientela con il Machine Learning
Questo è uno dei progetti più popolari nella Data Science. Prima di eseguire qualsiasi campagna le aziende creano diversi gruppi di clienti.
La segmentazione dei clienti è un’applicazione popolare di apprendimento non supervisionato. Usando il clustering, le aziende identificano segmenti di clienti per indirizzare la base di utenti potenziali. Dividono i clienti in gruppi in base a caratteristiche comuni come il sesso, l’età, gli interessi e le abitudini di spesa in modo da poter commercializzare efficacemente ogni gruppo. Useremo il clustering K-means e visualizzeremo anche le distribuzioni di sesso ed età. Poi, analizzeremo i loro redditi annuali e i punteggi di spesa.
Lingua: R
Dataset/Pacchetto: Mall_Customers dataset
3.5 Classificazione del cancro al seno
Controlla l’implementazione completa del progetto di scienza dei dati in Python – Classificazione del cancro al seno con Deep Learning
Tornando ai contributi medici della scienza dei dati, impariamo a rilevare il cancro al seno con Python. Useremo il set di dati IDC_regolare per rilevare la presenza del carcinoma duttale invasivo, la forma più comune di cancro al seno. Si sviluppa in un condotto del latte invadendo il tessuto fibroso o grasso del seno al di fuori del condotto. In questa idea di progetto di scienza dei dati, useremo Deep Learning e la libreria Keras per la classificazione.
Lingua: Python
Dataset/Pacchetto: IDC_regolare
3.6 Riconoscimento dei segnali stradali
Raggiungi la precisione nella tecnologia delle auto a guida autonoma con il progetto di scienza dei dati sul riconoscimento dei segnali stradali usando CNN con codice sorgente
I segnali stradali e le regole sono molto importanti che ogni conducente deve seguire per evitare qualsiasi incidente. Per seguire le regole bisogna prima capire come sono fatti i segnali stradali. Un essere umano deve imparare tutti i segnali stradali prima che gli venga data la licenza di guidare qualsiasi veicolo. Ma ora i veicoli autonomi sono in aumento e non ci saranno più conducenti umani nel prossimo futuro. Nel progetto di riconoscimento dei segnali stradali, imparerete come un programma può identificare il tipo di segnale stradale prendendo un’immagine come input. Il dataset di riferimento per il riconoscimento dei segnali stradali tedeschi (GTSRB) è usato per costruire una rete neurale profonda per riconoscere la classe a cui appartiene un segnale stradale. Abbiamo anche costruito una semplice GUI per interagire con l’applicazione.
Lingua: Python
Dataset: GTSRB (German Traffic Sign Recognition Benchmark)