Próbowałeś zbudować kilka projektów data science, aby poprawić swoje CV i onieśmielił Cię rozmiar kodu i liczba użytych pojęć? Czy czuje się to zbyt poza zasięgiem i nie przekreśliło Twoich marzeń o zostaniu data scientist? Zebraliśmy dla Ciebie szesnaście projektów data science z kodem źródłowym, abyś mógł uczestniczyć w projektach nauki o danych w czasie rzeczywistym. Pomogą one zwiększyć pewność siebie, a także powiedzieć ankieterowi, że poważnie myślisz o nauce o danych.
Czy wiesz?
Znalezienie doskonałego pomysłu na swój projekt jest czymś, co dotyczy cię bardziej niż wdrożenie samego projektu, prawda? Więc pamiętając o tym samym, skompilowaliśmy listę ponad 500+ pomysłów na projekt właśnie dla Ciebie. Wszystko, co musisz zrobić, to założyć zakładkę tego artykułu i zacząć.
- Projekty Python
- Projekty Python Django (Web Development)
- Projekty Python Game Development
- Projekty Python Artificial Intelligence
- Projekty Python Machine Learning Projekty
- Python Data Science Projects
- Python Deep Learning Projects
- Python Computer Vision Projects
- Python Internet of Things Projects
W tym blogu, będziemy wymieniać różne przykłady projektów data science w językach R i Python. Oddzielmy je na podstawie trudności, abyś miał właściwą ścieżkę do naśladowania.
Bądź na bieżąco z najnowszymi trendami technologicznymi
Join DataFlair on Telegram!!
- Top Data Science Project Ideas
- Beginner Data Science Projects
- 1.1 Fake News Detection
- 1.2 Road Lane Line Detection
- 1.3 Sentiment Analysis
- 1.4 Detecting Parkinson’s Disease
- 1.5 Color Detection with Python
- 1.6 Brain Tumor Detection with Data Science
- 1.7 Leaf Disease Detection
- Intermediate Data Science Projects
- 2.1 Speech Emotion Recognition
- 2.2 Gender and Age Detection with Data Science
- 2.3 Retinopatia cukrzycowa
- 2.3 Uber Data Analysis in R
- 2.4 Wykrywanie senności kierowcy w Pythonie
- 2.5 Chatbot Project in Python
- 2.6 Handwritten Digit Recognition Project
- Advanced Data Science Projects
- 3.1 Image Caption Generator Project in Python
- 3.2 Credit Card Fraud Detection Project
- 3.3 Movie Recommendation System
- 3.4 Customer Segmentation
- 3.5 Breast Cancer Classification
- 3.6 Rozpoznawanie znaków drogowych
- Podsumowanie
Top Data Science Project Ideas
Oto najlepsze pomysły na projekty nauki o danych z kodem źródłowym:
Beginner Data Science Projects
1.1 Fake News Detection
Wynieś swoją karierę na nowe wyżyny, pracując nad Data Science Project for Beginners – Detecting Fake News with Python
Król żółtego dziennikarstwa, fake news to fałszywe informacje i zaczepki rozpowszechniane przez media społecznościowe i inne media online w celu osiągnięcia agendy politycznej. W tym pomyśle na projekt data science, użyjemy Pythona, aby zbudować model, który może dokładnie wykryć, czy kawałek wiadomości jest prawdziwy czy fałszywy. Zbudujemy TfidfVectorizer i użyjemy PassiveAggressiveClassifier, aby sklasyfikować wiadomości na “prawdziwe” i “fałszywe”. Będziemy używać zbioru danych o kształcie 7796×4 i wykonywać wszystko w Jupyter Lab.
Język: Python
Dataset/Pakiet: news.csv
1.2 Road Lane Line Detection
Sprawdź kompletną implementację Lane Line Detection Data Science Project: Real-time Lane Line Detection in Python
Data Science Project Idea: Linie narysowane na drogach wskazują ludzkim kierowcom, gdzie znajdują się pasy ruchu. Odnoszą się również do kierunku, w którym należy kierować pojazdem. Ta aplikacja jest kardynalna dla rozwoju samochodów bez kierowcy.
Możesz zbudować aplikację posiadającą zdolność do identyfikacji linii toru z obrazów wejściowych lub ciągłych klatek wideo.
1.3 Sentiment Analysis
Check the complete implementation of Data Science Project with Source Code – Sentiment Analysis Project in R
Analiza sentymentu jest aktem analizy słów w celu określenia sentymentów i opinii, które mogą być pozytywne lub negatywne w polaryzacji. Jest to rodzaj klasyfikacji, gdzie klasy mogą być binarne (pozytywne i negatywne) lub wielokrotne (szczęśliwy, zły, smutny, zdegustowany,…). Zaimplementujemy ten projekt data science w języku R i użyjemy zbioru danych z pakietu ‘janeaustenR’. Użyjemy leksykonów ogólnego przeznaczenia, takich jak AFINN, bing i loughran, wykonamy wewnętrzne złączenie, a na koniec zbudujemy chmurę słów, aby wyświetlić wynik.
Language: R
Dataset/Pakiet: janeaustenR
1.4 Detecting Parkinson’s Disease
Postaw swoją najlepszą stopę do przodu, pracując nad Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost
Zaczęliśmy używać nauki o danych do poprawy opieki zdrowotnej i usług – jeśli możemy przewidzieć chorobę we wczesnym stadium, ma to wiele zalet w prognozowaniu. Tak więc w tym pomyśle projektu nauki o danych, nauczymy się wykrywać chorobę Parkinsona za pomocą Pythona. Jest to neurodegeneracyjne, postępujące zaburzenie centralnego układu nerwowego, które wpływa na ruch i powoduje drżenie i sztywność. Dotyka ona neuronów produkujących dopaminę w mózgu i każdego roku dotyka ponad 1 mln osób w Indiach.
Język: Python
Dataset/Package: UCI ML Parkinsons dataset
1.5 Color Detection with Python
Zbuduj aplikację do wykrywania kolorów za pomocą Beginner Data Science Project – Color Detection with OpenCV
Ile razy zdarzyło Ci się, że nawet po zobaczeniu nie pamiętasz nazwy koloru? Może być 16 milionów kolorów opartych na różnych wartościach kolorów RGB, ale my pamiętamy tylko kilka. Dlatego w tym projekcie zbudujemy interaktywną aplikację, która będzie wykrywała wybrany kolor z dowolnego obrazu. Aby to wdrożyć będziemy potrzebować danych z etykietą wszystkich znanych kolorów, a następnie obliczymy, który kolor najbardziej przypomina wybraną wartość koloru.
Język: Python
Dataset: Codebrainz Color Names
1.6 Brain Tumor Detection with Data Science
Data Science Project Idea: Istnieje wiele znanych projektów głębokiego uczenia na zbiorze danych ze skanowania MRI. Jednym z nich jest wykrywanie guzów mózgu. Możesz użyć uczenia transferowego na tych skanach MRI aby uzyskać wymagane cechy do klasyfikacji. Lub możesz wyszkolić własną sieć neuronową convolution od podstaw, aby wykryć guzy mózgu.
Dataset: Brain MRI Image Dataset
1.7 Leaf Disease Detection
Data Science Project Idea: Wykrywanie chorób w roślinach odgrywa bardzo ważną rolę w dziedzinie rolnictwa. Ten projekt Data Science ma na celu dostarczenie interfejsu automatycznej inspekcji opartej na obrazach. Polega on na wykorzystaniu samodzielnie zaprojektowanych technik przetwarzania obrazu i głębokiego uczenia. Będzie on kategoryzował liście roślin jako zdrowe lub zainfekowane.
Dataset: Leaf Dataset
Intermediate Data Science Projects
2.1 Speech Emotion Recognition
Zapoznaj się z kompletną implementacją Data Science Project Example – Speech Emotion Recognition with Librosa
Nauczmy się teraz korzystać z różnych bibliotek. Ten projekt data science używa librosa do wykonania Speech Emotion Recognition. SER jest procesem próbującym rozpoznać ludzkie emocje i stany afektywne z mowy. Ponieważ używamy tonu i wysokości dźwięku do wyrażania emocji poprzez głos, SER jest możliwe; ale jest trudne, ponieważ emocje są subiektywne, a anotowanie dźwięku jest wyzwaniem. Użyjemy cech mfcc, chroma i mel oraz wykorzystamy zbiór danych RAVDESS do rozpoznawania emocji. Zbudujemy klasyfikator MLPClassifier dla modelu.
Language: Python
Dataset/Package: RAVDESS dataset
2.2 Gender and Age Detection with Data Science
P put the pedal to the metal & impress recruiters with ultimate Data Science Project – Gender and Age Detection with OpenCV
To ciekawy projekt data science z Pythonem. Używając tylko jednego obrazu, nauczysz się przewidywać płeć i przedział wiekowy danej osoby. W tym projekcie wprowadzimy Cię do Widzenia Komputerowego i jego zasad. Zbudujemy sieć neuronowo-konwolucyjną i wykorzystamy modele wytrenowane przez Tala Hassnera i Gila Leviego dla zbioru danych Adience. Po drodze wykorzystamy kilka plików .pb, .pbtxt, .prototxt i .caffemodel.
Język: Python
Dataset/Package: Adience
2.3 Retinopatia cukrzycowa
Pomysł na projekt z dziedziny nauk o danych: Retinopatia cukrzycowa jest jedną z głównych przyczyn ślepoty. Możesz opracować automatyczną metodę wykrywania retinopatii cukrzycowej. Możesz trenować sieć neuronową na obrazach siatkówki dotkniętych i normalnych ludzi. Ten projekt będzie klasyfikował czy pacjent ma retinopatię czy nie.
Dataset: Diabetic Retinopathy Dataset
2.3 Uber Data Analysis in R
Sprawdź kompletną implementację Data Science Project with Source Code – Uber Data Analysis Project in R
To jest projekt wizualizacji danych za pomocą ggplot2, w którym użyjemy R i jego bibliotek i przeanalizujemy różne parametry, takie jak podróże według godzin w ciągu dnia i podróże w ciągu miesięcy w ciągu roku. Użyjemy zbioru danych Uber Pickups w Nowym Jorku i stworzymy wizualizacje dla różnych przedziałów czasowych w roku. To mówi nam, jak czas wpływa na podróże klientów.
Language: R
Dataset/Package: Uber Pickups in New York City dataset
2.4 Wykrywanie senności kierowcy w Pythonie
Wynieś swoją karierę na nowe wyżyny pracując nad Top Data Science Project – Drowsiness Detection System with OpenCV & Keras
Prowadzenie pojazdu w stanie senności jest niezwykle niebezpieczne i co roku dochodzi do około tysięcy wypadków z powodu zasypiania kierowców podczas jazdy. W tym projekcie Pythona, zbudujemy system, który może wykryć śpiących kierowców, a także ostrzec ich za pomocą alarmu dźwiękowego.
Ten projekt jest realizowany przy użyciu Keras i OpenCV. Użyjemy OpenCV do wykrywania twarzy i oczu, a dzięki Keras, będziemy klasyfikować stan oka (otwarte lub zamknięte) używając technik głębokich sieci neuronowych.
2.5 Chatbot Project in Python
Zbuduj chatbota używając Pythona & krok w górę w swojej karierze – Chatbot z NLTK & Keras
Chatboty są istotną częścią biznesu. Wiele firm musi oferować usługi dla swoich klientów i potrzebuje dużo siły roboczej, czasu i wysiłku, aby obsłużyć klientów. Chatboty mogą zautomatyzować większość interakcji z klientami, odpowiadając na niektóre z częstych pytań, które są zadawane przez klientów. Istnieją głównie dwa rodzaje chatbotów: Domain-specific i Open-domain chatbots. Chatbot specyficzny dla domeny jest często używany do rozwiązania konkretnego problemu. Więc trzeba dostosować go sprytnie do pracy skutecznie w swojej domenie. Open-domain chatboty mogą być zadawane dowolny rodzaj pytania, więc wymaga ogromnych ilości danych do szkolenia.
Język: Python
Dataset: Intents json file
2.6 Handwritten Digit Recognition Project
Praktycznie zaimplementuj projekt głębokiego uczenia z kodem źródłowym – Handwritten Digit Recognition with CNN
Zbiór danych MNIST z odręcznym pismem cyfrowym jest szeroko rozpowszechniony wśród naukowców zajmujących się danymi i entuzjastów uczenia maszynowego. Jest to wspaniały projekt, aby rozpocząć naukę o danych i zrozumieć procesy związane z projektem. Projekt jest realizowany przy użyciu Convolutional Neural Networks, a następnie do przewidywania w czasie rzeczywistym budujemy również ładny graficzny interfejs użytkownika do rysowania cyfr na płótnie, a następnie model będzie przewidywać cyfrę.
Język: Python
Dataset: MNIST
Get hired as a data scientist with Top Data Science Interview Questions
Advanced Data Science Projects
3.1 Image Caption Generator Project in Python
Sprawdź kompletną implementację projektu data science z kodem źródłowym – Image Caption Generator with CNN & LSTM
To jest interesujący projekt data science. Opisanie tego, co jest na obrazie jest łatwym zadaniem dla ludzi, ale dla komputerów, obraz jest po prostu garścią liczb, które reprezentują wartość koloru każdego piksela. Więc jest to trudne zadanie dla komputerów, aby zrozumieć, co jest na obrazie, a następnie generowanie opisu w języku naturalnym, takim jak angielski, jest kolejnym trudnym zadaniem. Ten projekt wykorzystuje techniki głębokiego uczenia się, gdzie implementujemy sieć neuronową konwertowalną (CNN) z siecią neuronową rekurencyjną (LSTM) do zbudowania generatora podpisów pod obrazem.
Dataset: Flickr 8K
Język: Python
Framework: Keras
3.2 Credit Card Fraud Detection Project
Postaw swoją najlepszą stopę do przodu, pracując nad Data Science Projects – Credit Card Fraud Detection with Machine Learning
Do tej pory zacząłeś już rozumieć metody i koncepcje. Przejdźmy teraz do zaawansowanych projektów data science. W tym projekcie użyjemy R z algorytmami takimi jak drzewa decyzyjne, regresja logistyczna, sztuczne sieci neuronowe i klasyfikator Gradient Boosting. Użyjemy zbioru danych Card Transactions, aby sklasyfikować transakcje kart kredytowych na fałszywe i prawdziwe. Dopasujemy różne modele i wykreślimy dla nich krzywe wydajności.
Język: R
Dataset/Package: Card Transactions dataset
3.3 Movie Recommendation System
Zbadaj implementację Best Data Science Project with Source Code- Movie Recommendation System Project in R
W tym projekcie data science użyjemy języka R do wykonania rekomendacji filmu za pomocą uczenia maszynowego. System rekomendacji wysyła sugestie do użytkowników poprzez proces filtrowania oparty na preferencjach innych użytkowników i historii przeglądania. Jeśli A i B lubią Home Alone, a B lubi Mean Girls, może to zostać zasugerowane A – oni też mogą to lubić. To utrzymuje klientów zaangażowanych z platformą.
Język: R
Dataset/Package: MovieLens dataset
3.4 Customer Segmentation
Przyłóż medal do pedału &zrób wrażenie na rekruterach dzięki Data Science Projekt (kod źródłowy w zestawie) – Customer Segmentation with Machine Learning
To jeden z najpopularniejszych projektów w Data Science. Przed uruchomieniem jakiejkolwiek kampanii firmy tworzą różne grupy klientów.
Segmentacja klientów jest popularnym zastosowaniem uczenia nienadzorowanego. Używając klastrowania, firmy identyfikują segmenty klientów w celu ukierunkowania potencjalnej bazy użytkowników. Dzielą oni klientów na grupy według wspólnych cech, takich jak płeć, wiek, zainteresowania i zwyczaje związane z wydawaniem pieniędzy, dzięki czemu mogą prowadzić skuteczną sprzedaż do każdej z tych grup. Wykorzystamy klasteryzację K-średnich, a także zwizualizujemy rozkłady płci i wieku. Następnie przeanalizujemy ich roczne dochody i wyniki wydatków.
Język: R
Dataset/Package: Mall_Customers dataset
3.5 Breast Cancer Classification
Sprawdź kompletną implementację Data Science Project in Python – Breast Cancer Classification with Deep Learning
Powracając do medycznego wkładu data science, nauczmy się wykrywać raka piersi za pomocą Pythona. Użyjemy zbioru danych IDC_regular, aby wykryć obecność Invasive Ductal Carcinoma, najczęstszej formy raka piersi. Rozwija się on w przewodzie mlecznym, ingerując we włóknistą lub tłuszczową tkankę piersi poza przewodem. W tym pomyśle na projekt data science wykorzystamy Deep Learning i bibliotekę Keras do klasyfikacji.
Język: Python
Dataset/Package: IDC_regular
3.6 Rozpoznawanie znaków drogowych
Uzyskaj dokładność w technologii samojeżdżących samochodów dzięki Data Science Project on Traffic Signs Recognition using CNN with Source Code
Znaki drogowe i zasady są bardzo ważne, których każdy kierowca musi przestrzegać, aby uniknąć wypadku. Aby przestrzegać zasad, trzeba najpierw zrozumieć, jak wygląda znak drogowy. Człowiek musi nauczyć się wszystkich znaków drogowych, zanim otrzyma prawo do kierowania jakimkolwiek pojazdem. Ale teraz autonomiczne pojazdy powstają i nie będzie ludzkich kierowców w nadchodzącej przyszłości. W projekcie rozpoznawania znaków drogowych dowiesz się, jak program może zidentyfikować typ znaku drogowego, biorąc obraz jako dane wejściowe. Niemiecki zestaw danych do rozpoznawania znaków drogowych (GTSRB) jest używany do zbudowania głębokiej sieci neuronowej do rozpoznawania klasy znaku drogowego. Budujemy również prosty GUI do interakcji z aplikacją.
Język: Python
Dataset: GTSRB (German Traffic Sign Recognition Benchmark)
Podsumowanie
.