16 projektů datové vědy se zdrojovým kódem, které posílí váš životopis

Zkoušeli jste vytvořit několik projektů datové vědy, abyste si vylepšili životopis, a vyděsila vás velikost kódu a množství použitých konceptů? Připadá vám to příliš nedosažitelné a zničilo to vaše sny stát se datovým vědcem? Shromáždili jsme pro vás šestnáct projektů datové vědy se zdrojovým kódem, abyste se mohli skutečně zapojit do projektů datové vědy v reálném čase. Ty vám pomohou zvýšit sebevědomí a také sdělí tazateli, že to s datovou vědou myslíte vážně.

Víte, že

Najít perfektní nápad pro svůj projekt je něco, co vás trápí víc než samotná realizace projektu, že? Proto s ohledem na to samé jsme právě pro vás sestavili seznam více než 500 nápadů na projekty. Jediné, co musíte udělat, je založit si tento článek a začít.

  1. Projekty v jazyce Python
  2. Projekty v jazyce Python Django (vývoj webu)
  3. Projekty v jazyce Python pro vývoj her
  4. Projekty v jazyce Python pro umělou inteligenci
  5. Projekty v jazyce Python pro strojové učení Projekty v jazyce Python
  6. Projekty datové vědy v jazyce Python
  7. Projekty hlubokého učení v jazyce Python
  8. Projekty počítačového vidění v jazyce Python
  9. Projekty internetu věcí v jazyce Python

V tomto blogu, uvedeme různé příklady projektů datové vědy v jazycích R a Python. Rozdělíme je podle obtížnosti, abyste měli správnou cestu, kterou se vydat.

Sledujte nejnovější technologické trendy
Připojte se k DataFlair na Telegramu!!!

Nápady na nejlepší projekty datové vědy

Tady jsou nejlepší nápady na projekty datové vědy se zdrojovým kódem:

Začátečnické projekty datové vědy

1.1. Detekce falešných zpráv

Postrčte svou kariéru k novým výšinám prací na Data Science Project for Beginners – Detecting Fake News with Python

python project detecting fake news - data science project ideas

Král žluté žurnalistiky, falešné zprávy jsou nepravdivé informace a hoaxy šířené prostřednictvím sociálních médií a dalších online médií za účelem dosažení politické agendy. V tomto nápadu na data science projekt použijeme Python k vytvoření modelu, který dokáže přesně rozpoznat, zda je zpráva pravdivá, nebo falešná. Sestavíme TfidfVectorizer a použijeme PassiveAggressiveClassifier ke klasifikaci zpráv na “skutečné” a “falešné”. Budeme používat datovou sadu o tvaru 7796×4 a vše provedeme v prostředí Jupyter Lab.

Jazyk: Python

Datová sada/balík: news.csv

1.2 Detekce čáry v silničním pruhu

Podívejte se na kompletní implementaci projektu Data Science Detection Lane Line: Detekce čáry jízdního pruhu v reálném čase v jazyce Python

projekt detekce čáry jízdního pruhu ml

Námět projektu datové vědy: Čáry nakreslené na silnicích ukazují lidským řidičům, kde jsou jízdní pruhy. Odkazuje také na směr, kterým má být vozidlo řízeno. Tato aplikace je kardinální pro vývoj automobilů bez řidiče.

Můžete vytvořit aplikaci, která bude mít schopnost identifikovat čáry na jízdních pruzích ze vstupních obrázků nebo souvislých snímků videa.

1. Proč?3 Analýza sentimentu

Podívejte se na kompletní implementaci Data Science Project with Source Code – Sentiment Analysis Project in R

Data-Science R Project Sentiment Analysis

Analýza sentimentu je akt analýzy slov s cílem určit sentimenty a názory, které mohou mít pozitivní nebo negativní polaritu. Jedná se o typ klasifikace, kde třídy mohou být binární (pozitivní a negativní) nebo vícenásobné (šťastný, naštvaný, smutný, znechucený,…). Tento projekt datové vědy budeme realizovat v jazyce R a použijeme datovou sadu balíčku ‘janeaustenR’. Použijeme lexikony pro obecné použití, jako jsou AFINN, bing a loughran, provedeme vnitřní spojení a nakonec vytvoříme mrak slov, který zobrazí výsledek.

Jazyk: R

Datová sada/balík: janeaustenR

1.4 Detekce Parkinsonovy nemoci

Předveďte se prací na projektu Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost

Python machine learning project - data science project ideas

Data science jsme začali používat ke zlepšení zdravotní péče a služeb – pokud dokážeme nemoc předpovědět včas, má to mnoho výhod na prognózu. V tomto nápadu na projekt datové vědy se tedy naučíme rozpoznat Parkinsonovu chorobu pomocí jazyka Python. Jedná se o neurodegenerativní, progresivní onemocnění centrální nervové soustavy, které ovlivňuje pohyb a způsobuje třes a ztuhlost. Postihuje neurony produkující dopamin v mozku a každoročně postihne více než 1 milion jedinců v Indii.

Jazyk: Jazyk: Python

Datová sada/balíček: UCI ML Parkinsons dataset

1.5 Detekce barev pomocí Pythonu

Sestavte aplikaci na detekci barev pomocí Začátečnický projekt datové vědy – detekce barev pomocí OpenCV

projekt v Pythonu na detekci barev

Kolikrát se vám stalo, že jste si ani po shlédnutí nepamatovali název barvy? Na základě různých barevných hodnot RGB může existovat 16 milionů barev, ale my si pamatujeme jen některé. V tomto projektu proto vytvoříme interaktivní aplikaci, která bude z libovolného obrázku zjišťovat vybranou barvu. K její realizaci budeme potřebovat označená data všech známých barev a poté vypočítáme, která barva se nejvíce podobá vybrané hodnotě barvy: Jazyk: Python

Datová sada:

1.6 Detekce mozkových nádorů pomocí datové vědy

Námět projektu datové vědy: Existuje mnoho známých projektů hlubokého učení na datové sadě MRI skenů. Jedním z nich je detekce mozkových nádorů. Na těchto skenech MRI můžete použít přenosové učení, abyste získali požadované funkce pro klasifikaci. Nebo můžete od základu natrénovat vlastní konvoluční neuronovou síť pro detekci mozkových nádorů.

Datová sada: Datová sada snímků MRI mozku

1.7 Detekce onemocnění listů

Námět na projekt datové vědy: Detekce chorob rostlin hraje velmi důležitou roli v oblasti zemědělství. Cílem tohoto projektu Data Science je poskytnout rozhraní pro automatickou kontrolu na základě obrazu. Zahrnuje použití vlastnoručně navržených technik zpracování obrazu a hlubokého učení. Bude kategorizovat listy rostlin jako zdravé nebo infikované.

Datová sada: Dataset: Listy

Středně pokročilé projekty datové vědy

2.1 Rozpoznávání emocí řeči

Prozkoumejte kompletní implementaci příkladu projektu datové vědy – rozpoznávání emocí řeči pomocí Librosa

Projekt Python - rozpoznávání emocí řeči

Naučme se nyní používat různé knihovny. Tento projekt datové vědy používá k rozpoznávání řeči a emocí knihovnu librosa. SER je proces, který se snaží rozpoznat lidské emoce a afektivní stavy z řeči. Vzhledem k tomu, že k vyjádření emocí hlasem používáme tón a výšku tónu, je SER možný; je však náročný, protože emoce jsou subjektivní a anotace zvuku je náročná. K rozpoznávání emocí použijeme funkce mfcc, chroma a mel a použijeme datovou sadu RAVDESS. Pro model vytvoříme klasifikátor MLPC.

Jazyk: Python

Datová sada/balík: RAVDESS dataset

2.2 Detekce pohlaví a věku pomocí datové vědy

Šlápněte na pedál &zapůsobte na personalisty ultimátním projektem datové vědy – detekce pohlaví a věku pomocí OpenCV

Projekt Python detekce věku a pohlaví

Jedná se o zajímavý projekt datové vědy s Pythonem. Pomocí jediného obrázku se naučíte předpovídat pohlaví a věkové rozmezí jedince. Seznámíme vás v něm s počítačovým viděním a jeho principy. Sestavíme konvoluční neuronovou síť a použijeme modely vyškolené Talem Hassnerem a Gilem Levim pro datovou sadu Adience. Jazyk: Python

Datová sada/balík: Adience

2.3 Diabetická retinopatie

Námět na datový projekt: Diabetická retinopatie je hlavní příčinou slepoty. Můžete vyvinout automatickou metodu screeningu diabetické retinopatie. Můžete trénovat neuronovou síť na snímcích sítnice postižených a normálních lidí. Tento projekt umožní klasifikovat, zda má pacient retinopatii, nebo ne.

Datový soubor: Sada dat o diabetické retinopatii

2.3 Analýza dat Uberu v R

Podívejte se na kompletní implementaci Data Science Project with Source Code – Uber Data Analysis Project in R

Data Science R Project Uber Data Analysis

Jedná se o projekt vizualizace dat pomocí ggplot2, kde budeme používat R a jeho knihovny a analyzovat různé parametry, například cesty podle hodin za den a cesty během měsíců v roce. Použijeme datovou sadu Uber Pickups in New York City a vytvoříme vizualizace pro různé časové úseky roku. To nám napoví, jak čas ovlivňuje cesty zákazníků: R

Datová sada/balík: Sada dat Uber Pickups in New York City

2.4 Detekce ospalosti řidičů v Pythonu

Přineste své kariéře nové úspěchy prací na Top Data Science Project – Drowsiness Detection System with OpenCV & Keras

Nápady na Data Science Project - Driver Drowsiness Detection System

Řízení v ospalosti je extrémně nebezpečné a každý rok se stane kolem tisíce nehod kvůli tomu, že řidiči usnou během řízení. V tomto projektu v jazyce Python vytvoříme systém, který dokáže detekovat ospalé řidiče a také je upozornit zvukovým signálem.

Tento projekt je implementován pomocí Keras a OpenCV. Pro detekci obličeje a očí použijeme OpenCV a pomocí Keras budeme klasifikovat stav oka (otevřené nebo zavřené) pomocí technik hlubokých neuronových sítí.

2.5 Projekt chatbota v Pythonu

Sestavte chatbota pomocí Pythonu &stupeň v kariéře – Chatbot s NLTK & Keras

Projekt chatbota v Pythonu

Chatboti jsou nezbytnou součástí podnikání. Mnoho podniků musí nabízet služby svým zákazníkům a k obsluze zákazníků je potřeba spousta pracovních sil, času a úsilí. Chatboti mohou automatizovat většinu interakcí se zákazníky tím, že odpovídají na některé časté otázky, které zákazníci kladou. Existují především dva typy chatbotů: Chatboti pro konkrétní doménu a chatboti pro otevřenou doménu. Doménově specifický chatbot se často používá k řešení konkrétního problému. Je tedy třeba jej chytře přizpůsobit, aby efektivně fungoval ve vaší doméně. Chatbotům s otevřenou doménou lze položit jakýkoli typ otázky, takže k jejich trénování je zapotřebí obrovské množství dat.

Jazyk: Jazyk: Python

Datová sada:

Prakticky implementujte projekt hlubokého učení se zdrojovým kódem – rozpoznávání ručně psaných číslic pomocí CNN

projekt hlubokého učení v jazyce Python - rozpoznávání ručně psaných číslic

Datová sada MNIST ručně psaných číslic je mezi datovými vědci a nadšenci do strojového učení velmi rozšířená. Je to úžasný projekt, díky kterému můžete začít s datovou vědou a pochopit procesy, které jsou s projektem spojené. Projekt je implementován pomocí konvolučních neuronových sítí a pro predikci v reálném čase pak také vytváříme pěkné grafické uživatelské rozhraní pro kreslení číslic na plátno a model pak předpovídá číslici.

Jazyk: Python

Datová sada:

Zajistěte si práci datového vědce pomocí nejlepších otázek k pohovoru na téma datové vědy

Pokročilé projekty datové vědy

3.1 Projekt generátoru popisků obrázků v Pythonu

Podívejte se na kompletní implementaci projektu datové vědy se zdrojovým kódem – generátor popisků obrázků s CNN & LSTM

projekt založený na Pythonu - generátor popisků obrázků s CNN a LSTM

To je zajímavý projekt datové vědy. Popsat, co je na obrázku, je pro člověka snadný úkol, ale pro počítače je obrázek jen hromada čísel, která představují hodnotu barvy každého pixelu. Pro počítače je tedy obtížné pochopit, co je na obrázku, a vytvořit popis v přirozeném jazyce, jako je angličtina, je další obtížný úkol. Tento projekt využívá techniky hlubokého učení, kdy k vytvoření generátoru popisků k obrázkům implementujeme konvoluční neuronovou síť (CNN) s rekurentní neuronovou sítí( LSTM).

Datová sada: Jazyk: Python

Rámcový systém: FFK, FFK, FFK, FFK, FFK, FFK, FFK, FFK, FFK, FFK: Projekt detekce podvodů s kreditními kartami

Předveďte své nejlepší výkony při práci na projektech datové vědy – detekce podvodů s kreditními kartami pomocí strojového učení

Projekt datové vědy R Detekce podvodů s kreditními kartami pomocí ML - nápady na projekty datové vědy

Teď už jste začali rozumět metodám a konceptům. Přejděme k některým pokročilým projektům datové vědy. V tomto projektu budeme používat R s algoritmy, jako jsou rozhodovací stromy, logistická regrese, umělé neuronové sítě a Gradient Boosting Classifier. Použijeme datovou sadu Card Transactions ke klasifikaci transakcí kreditními kartami na podvodné a pravé. Budeme fitovat různé modely a vykreslovat pro ně křivky výkonnosti.

Jazyk: R

Datová sada/balík: Dataset: Card Transactions

3.3 Filmový doporučovací systém

Prozkoumejte implementaci nejlepšího projektu datové vědy se zdrojovým kódem – projekt filmového doporučovacího systému v jazyce R

projekt filmového doporučování - projekty datové vědy

V tomto projektu datové vědy použijeme jazyk R k provedení filmového doporučování pomocí strojového učení. Doporučovací systém rozesílá uživatelům návrhy prostřednictvím procesu filtrování na základě preferencí ostatních uživatelů a historie prohlížení. Pokud se A a B líbí film Sám doma a B se líbí film Protivný sprostý holky, lze ho navrhnout A – mohl by se jim také líbit. To udržuje zákazníky v kontaktu s platformou.

Jazyk: R

Datová sada/balíček: DataSet: MovieLens

3.4 Segmentace zákazníků

Dejte medaili do pedálů & zapůsobte na personalisty s projektem Data Science (včetně zdrojového kódu) – Segmentace zákazníků pomocí strojového učení

Projekt Data Science R segmentace zákazníků

Jedná se o jeden z nejoblíbenějších projektů v oblasti Data Science. Před spuštěním jakékoli kampaně firmy vytvářejí různé skupiny zákazníků.

Segmentace zákazníků je oblíbenou aplikací neřízeného učení. Pomocí shlukování společnosti identifikují segmenty zákazníků, aby se mohly zaměřit na potenciální uživatelskou základnu. Rozdělují zákazníky do skupin podle společných charakteristik, jako je pohlaví, věk, zájmy a výdajové zvyklosti, aby mohli efektivně oslovovat jednotlivé skupiny. Použijeme shlukování K-means a také vizualizujeme rozdělení podle pohlaví a věku. Poté budeme analyzovat jejich roční příjmy a skóre výdajů.

Jazyk:

Podívejte se na kompletní implementaci Data Science Project in Python – Breast Cancer Classification with Deep Learning

project in python breast cancer classification - data science project ideas

Vraťme se k lékařskému přínosu datové vědy, naučme se detekovat rakovinu prsu pomocí Pythonu. Použijeme datovou sadu IDC_regular k detekci přítomnosti invazivního duktálního karcinomu, nejčastější formy rakoviny prsu. Vyvíjí se v mlékovodu, který napadá vláknitou nebo tukovou tkáň prsu mimo mlékovod. V tomto nápadu na datový vědecký projekt budeme ke klasifikaci používat hluboké učení a knihovnu Keras.

Jazyk: Python

Datová sada/balíček: IDC_regular

3.6 Rozpoznávání dopravních značek

Dosáhněte přesnosti v technologii samořídících automobilů pomocí datového vědeckého projektu na rozpoznávání dopravních značek pomocí CNN se zdrojovým kódem

python data science project on traffic signs recognition

Dopravní značky a pravidla jsou velmi důležité, které musí každý řidič dodržovat, aby se vyhnul případné nehodě. Aby se člověk mohl pravidly řídit, musí nejprve pochopit, jak dopravní značka vypadá. Člověk se musí naučit všechny dopravní značky dříve, než získá oprávnění k řízení jakéhokoli vozidla. Nyní však přibývá autonomních vozidel a v nadcházející budoucnosti nebudou žádní lidští řidiči. V projektu Rozpoznávání dopravních značek se dozvíte, jak může program na základě obrázku na vstupu určit typ dopravní značky. K sestavení hluboké neuronové sítě pro rozpoznávání třídy, do které dopravní značka patří, se používá německá referenční sada dat pro rozpoznávání dopravních značek (GTSRB). Vytvoříme také jednoduché grafické uživatelské rozhraní pro interakci s aplikací.

Jazyk: Python

Datová sada: GTSRB (German Traffic Sign Recognition Benchmark)

Souhrn

.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.