Zkoušeli jste vytvořit několik projektů datové vědy, abyste si vylepšili životopis, a vyděsila vás velikost kódu a množství použitých konceptů? Připadá vám to příliš nedosažitelné a zničilo to vaše sny stát se datovým vědcem? Shromáždili jsme pro vás šestnáct projektů datové vědy se zdrojovým kódem, abyste se mohli skutečně zapojit do projektů datové vědy v reálném čase. Ty vám pomohou zvýšit sebevědomí a také sdělí tazateli, že to s datovou vědou myslíte vážně.
Víte, že
Najít perfektní nápad pro svůj projekt je něco, co vás trápí víc než samotná realizace projektu, že? Proto s ohledem na to samé jsme právě pro vás sestavili seznam více než 500 nápadů na projekty. Jediné, co musíte udělat, je založit si tento článek a začít.
- Projekty v jazyce Python
- Projekty v jazyce Python Django (vývoj webu)
- Projekty v jazyce Python pro vývoj her
- Projekty v jazyce Python pro umělou inteligenci
- Projekty v jazyce Python pro strojové učení Projekty v jazyce Python
- Projekty datové vědy v jazyce Python
- Projekty hlubokého učení v jazyce Python
- Projekty počítačového vidění v jazyce Python
- Projekty internetu věcí v jazyce Python
V tomto blogu, uvedeme různé příklady projektů datové vědy v jazycích R a Python. Rozdělíme je podle obtížnosti, abyste měli správnou cestu, kterou se vydat.
Sledujte nejnovější technologické trendy
Připojte se k DataFlair na Telegramu!!!
- Nápady na nejlepší projekty datové vědy
- Začátečnické projekty datové vědy
- 1.1. Detekce falešných zpráv
- 1.2 Detekce čáry v silničním pruhu
- 1. Proč?3 Analýza sentimentu
- 1.4 Detekce Parkinsonovy nemoci
- 1.5 Detekce barev pomocí Pythonu
- 1.6 Detekce mozkových nádorů pomocí datové vědy
- 1.7 Detekce onemocnění listů
- Středně pokročilé projekty datové vědy
- 2.1 Rozpoznávání emocí řeči
- 2.2 Detekce pohlaví a věku pomocí datové vědy
- 2.3 Diabetická retinopatie
- 2.3 Analýza dat Uberu v R
- 2.4 Detekce ospalosti řidičů v Pythonu
- 2.5 Projekt chatbota v Pythonu
- Pokročilé projekty datové vědy
- 3.1 Projekt generátoru popisků obrázků v Pythonu
- 3.3 Filmový doporučovací systém
- 3.4 Segmentace zákazníků
- 3.6 Rozpoznávání dopravních značek
- Souhrn
Nápady na nejlepší projekty datové vědy
Tady jsou nejlepší nápady na projekty datové vědy se zdrojovým kódem:
Začátečnické projekty datové vědy
1.1. Detekce falešných zpráv
Postrčte svou kariéru k novým výšinám prací na Data Science Project for Beginners – Detecting Fake News with Python
Král žluté žurnalistiky, falešné zprávy jsou nepravdivé informace a hoaxy šířené prostřednictvím sociálních médií a dalších online médií za účelem dosažení politické agendy. V tomto nápadu na data science projekt použijeme Python k vytvoření modelu, který dokáže přesně rozpoznat, zda je zpráva pravdivá, nebo falešná. Sestavíme TfidfVectorizer a použijeme PassiveAggressiveClassifier ke klasifikaci zpráv na “skutečné” a “falešné”. Budeme používat datovou sadu o tvaru 7796×4 a vše provedeme v prostředí Jupyter Lab.
Jazyk: Python
Datová sada/balík: news.csv
1.2 Detekce čáry v silničním pruhu
Podívejte se na kompletní implementaci projektu Data Science Detection Lane Line: Detekce čáry jízdního pruhu v reálném čase v jazyce Python
Námět projektu datové vědy: Čáry nakreslené na silnicích ukazují lidským řidičům, kde jsou jízdní pruhy. Odkazuje také na směr, kterým má být vozidlo řízeno. Tato aplikace je kardinální pro vývoj automobilů bez řidiče.
Můžete vytvořit aplikaci, která bude mít schopnost identifikovat čáry na jízdních pruzích ze vstupních obrázků nebo souvislých snímků videa.
1. Proč?3 Analýza sentimentu
Podívejte se na kompletní implementaci Data Science Project with Source Code – Sentiment Analysis Project in R
Analýza sentimentu je akt analýzy slov s cílem určit sentimenty a názory, které mohou mít pozitivní nebo negativní polaritu. Jedná se o typ klasifikace, kde třídy mohou být binární (pozitivní a negativní) nebo vícenásobné (šťastný, naštvaný, smutný, znechucený,…). Tento projekt datové vědy budeme realizovat v jazyce R a použijeme datovou sadu balíčku ‘janeaustenR’. Použijeme lexikony pro obecné použití, jako jsou AFINN, bing a loughran, provedeme vnitřní spojení a nakonec vytvoříme mrak slov, který zobrazí výsledek.
Jazyk: R
Datová sada/balík: janeaustenR
1.4 Detekce Parkinsonovy nemoci
Předveďte se prací na projektu Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost
Data science jsme začali používat ke zlepšení zdravotní péče a služeb – pokud dokážeme nemoc předpovědět včas, má to mnoho výhod na prognózu. V tomto nápadu na projekt datové vědy se tedy naučíme rozpoznat Parkinsonovu chorobu pomocí jazyka Python. Jedná se o neurodegenerativní, progresivní onemocnění centrální nervové soustavy, které ovlivňuje pohyb a způsobuje třes a ztuhlost. Postihuje neurony produkující dopamin v mozku a každoročně postihne více než 1 milion jedinců v Indii.
Jazyk: Jazyk: Python
Datová sada/balíček: UCI ML Parkinsons dataset
1.5 Detekce barev pomocí Pythonu
Sestavte aplikaci na detekci barev pomocí Začátečnický projekt datové vědy – detekce barev pomocí OpenCV
Kolikrát se vám stalo, že jste si ani po shlédnutí nepamatovali název barvy? Na základě různých barevných hodnot RGB může existovat 16 milionů barev, ale my si pamatujeme jen některé. V tomto projektu proto vytvoříme interaktivní aplikaci, která bude z libovolného obrázku zjišťovat vybranou barvu. K její realizaci budeme potřebovat označená data všech známých barev a poté vypočítáme, která barva se nejvíce podobá vybrané hodnotě barvy: Jazyk: Python
Datová sada:
1.6 Detekce mozkových nádorů pomocí datové vědy
Námět projektu datové vědy: Existuje mnoho známých projektů hlubokého učení na datové sadě MRI skenů. Jedním z nich je detekce mozkových nádorů. Na těchto skenech MRI můžete použít přenosové učení, abyste získali požadované funkce pro klasifikaci. Nebo můžete od základu natrénovat vlastní konvoluční neuronovou síť pro detekci mozkových nádorů.
Datová sada: Datová sada snímků MRI mozku
1.7 Detekce onemocnění listů
Námět na projekt datové vědy: Detekce chorob rostlin hraje velmi důležitou roli v oblasti zemědělství. Cílem tohoto projektu Data Science je poskytnout rozhraní pro automatickou kontrolu na základě obrazu. Zahrnuje použití vlastnoručně navržených technik zpracování obrazu a hlubokého učení. Bude kategorizovat listy rostlin jako zdravé nebo infikované.
Datová sada: Dataset: Listy
Středně pokročilé projekty datové vědy
Prozkoumejte kompletní implementaci příkladu projektu datové vědy – rozpoznávání emocí řeči pomocí Librosa
Naučme se nyní používat různé knihovny. Tento projekt datové vědy používá k rozpoznávání řeči a emocí knihovnu librosa. SER je proces, který se snaží rozpoznat lidské emoce a afektivní stavy z řeči. Vzhledem k tomu, že k vyjádření emocí hlasem používáme tón a výšku tónu, je SER možný; je však náročný, protože emoce jsou subjektivní a anotace zvuku je náročná. K rozpoznávání emocí použijeme funkce mfcc, chroma a mel a použijeme datovou sadu RAVDESS. Pro model vytvoříme klasifikátor MLPC.
Jazyk: Python
Datová sada/balík: RAVDESS dataset
2.2 Detekce pohlaví a věku pomocí datové vědy
Šlápněte na pedál &zapůsobte na personalisty ultimátním projektem datové vědy – detekce pohlaví a věku pomocí OpenCV
Jedná se o zajímavý projekt datové vědy s Pythonem. Pomocí jediného obrázku se naučíte předpovídat pohlaví a věkové rozmezí jedince. Seznámíme vás v něm s počítačovým viděním a jeho principy. Sestavíme konvoluční neuronovou síť a použijeme modely vyškolené Talem Hassnerem a Gilem Levim pro datovou sadu Adience. Jazyk: Python
Datová sada/balík: Adience
2.3 Diabetická retinopatie
Námět na datový projekt: Diabetická retinopatie je hlavní příčinou slepoty. Můžete vyvinout automatickou metodu screeningu diabetické retinopatie. Můžete trénovat neuronovou síť na snímcích sítnice postižených a normálních lidí. Tento projekt umožní klasifikovat, zda má pacient retinopatii, nebo ne.
Datový soubor: Sada dat o diabetické retinopatii
2.3 Analýza dat Uberu v R
Podívejte se na kompletní implementaci Data Science Project with Source Code – Uber Data Analysis Project in R
Jedná se o projekt vizualizace dat pomocí ggplot2, kde budeme používat R a jeho knihovny a analyzovat různé parametry, například cesty podle hodin za den a cesty během měsíců v roce. Použijeme datovou sadu Uber Pickups in New York City a vytvoříme vizualizace pro různé časové úseky roku. To nám napoví, jak čas ovlivňuje cesty zákazníků: R
Datová sada/balík: Sada dat Uber Pickups in New York City
2.4 Detekce ospalosti řidičů v Pythonu
Přineste své kariéře nové úspěchy prací na Top Data Science Project – Drowsiness Detection System with OpenCV & Keras
Řízení v ospalosti je extrémně nebezpečné a každý rok se stane kolem tisíce nehod kvůli tomu, že řidiči usnou během řízení. V tomto projektu v jazyce Python vytvoříme systém, který dokáže detekovat ospalé řidiče a také je upozornit zvukovým signálem.
Tento projekt je implementován pomocí Keras a OpenCV. Pro detekci obličeje a očí použijeme OpenCV a pomocí Keras budeme klasifikovat stav oka (otevřené nebo zavřené) pomocí technik hlubokých neuronových sítí.
2.5 Projekt chatbota v Pythonu
Sestavte chatbota pomocí Pythonu &stupeň v kariéře – Chatbot s NLTK & Keras
Chatboti jsou nezbytnou součástí podnikání. Mnoho podniků musí nabízet služby svým zákazníkům a k obsluze zákazníků je potřeba spousta pracovních sil, času a úsilí. Chatboti mohou automatizovat většinu interakcí se zákazníky tím, že odpovídají na některé časté otázky, které zákazníci kladou. Existují především dva typy chatbotů: Chatboti pro konkrétní doménu a chatboti pro otevřenou doménu. Doménově specifický chatbot se často používá k řešení konkrétního problému. Je tedy třeba jej chytře přizpůsobit, aby efektivně fungoval ve vaší doméně. Chatbotům s otevřenou doménou lze položit jakýkoli typ otázky, takže k jejich trénování je zapotřebí obrovské množství dat.
Jazyk: Jazyk: Python
Datová sada:
Prakticky implementujte projekt hlubokého učení se zdrojovým kódem – rozpoznávání ručně psaných číslic pomocí CNN
Datová sada MNIST ručně psaných číslic je mezi datovými vědci a nadšenci do strojového učení velmi rozšířená. Je to úžasný projekt, díky kterému můžete začít s datovou vědou a pochopit procesy, které jsou s projektem spojené. Projekt je implementován pomocí konvolučních neuronových sítí a pro predikci v reálném čase pak také vytváříme pěkné grafické uživatelské rozhraní pro kreslení číslic na plátno a model pak předpovídá číslici.
Jazyk: Python
Datová sada:
Zajistěte si práci datového vědce pomocí nejlepších otázek k pohovoru na téma datové vědy
Pokročilé projekty datové vědy
3.1 Projekt generátoru popisků obrázků v Pythonu
Podívejte se na kompletní implementaci projektu datové vědy se zdrojovým kódem – generátor popisků obrázků s CNN & LSTM
To je zajímavý projekt datové vědy. Popsat, co je na obrázku, je pro člověka snadný úkol, ale pro počítače je obrázek jen hromada čísel, která představují hodnotu barvy každého pixelu. Pro počítače je tedy obtížné pochopit, co je na obrázku, a vytvořit popis v přirozeném jazyce, jako je angličtina, je další obtížný úkol. Tento projekt využívá techniky hlubokého učení, kdy k vytvoření generátoru popisků k obrázkům implementujeme konvoluční neuronovou síť (CNN) s rekurentní neuronovou sítí( LSTM).
Datová sada: Jazyk: Python
Rámcový systém: FFK, FFK, FFK, FFK, FFK, FFK, FFK, FFK, FFK, FFK: Projekt detekce podvodů s kreditními kartami
Předveďte své nejlepší výkony při práci na projektech datové vědy – detekce podvodů s kreditními kartami pomocí strojového učení
Teď už jste začali rozumět metodám a konceptům. Přejděme k některým pokročilým projektům datové vědy. V tomto projektu budeme používat R s algoritmy, jako jsou rozhodovací stromy, logistická regrese, umělé neuronové sítě a Gradient Boosting Classifier. Použijeme datovou sadu Card Transactions ke klasifikaci transakcí kreditními kartami na podvodné a pravé. Budeme fitovat různé modely a vykreslovat pro ně křivky výkonnosti.
Jazyk: R
Datová sada/balík: Dataset: Card Transactions
3.3 Filmový doporučovací systém
Prozkoumejte implementaci nejlepšího projektu datové vědy se zdrojovým kódem – projekt filmového doporučovacího systému v jazyce R
V tomto projektu datové vědy použijeme jazyk R k provedení filmového doporučování pomocí strojového učení. Doporučovací systém rozesílá uživatelům návrhy prostřednictvím procesu filtrování na základě preferencí ostatních uživatelů a historie prohlížení. Pokud se A a B líbí film Sám doma a B se líbí film Protivný sprostý holky, lze ho navrhnout A – mohl by se jim také líbit. To udržuje zákazníky v kontaktu s platformou.
Jazyk: R
Datová sada/balíček: DataSet: MovieLens
3.4 Segmentace zákazníků
Dejte medaili do pedálů & zapůsobte na personalisty s projektem Data Science (včetně zdrojového kódu) – Segmentace zákazníků pomocí strojového učení
Jedná se o jeden z nejoblíbenějších projektů v oblasti Data Science. Před spuštěním jakékoli kampaně firmy vytvářejí různé skupiny zákazníků.
Segmentace zákazníků je oblíbenou aplikací neřízeného učení. Pomocí shlukování společnosti identifikují segmenty zákazníků, aby se mohly zaměřit na potenciální uživatelskou základnu. Rozdělují zákazníky do skupin podle společných charakteristik, jako je pohlaví, věk, zájmy a výdajové zvyklosti, aby mohli efektivně oslovovat jednotlivé skupiny. Použijeme shlukování K-means a také vizualizujeme rozdělení podle pohlaví a věku. Poté budeme analyzovat jejich roční příjmy a skóre výdajů.
Jazyk:
Podívejte se na kompletní implementaci Data Science Project in Python – Breast Cancer Classification with Deep Learning
Vraťme se k lékařskému přínosu datové vědy, naučme se detekovat rakovinu prsu pomocí Pythonu. Použijeme datovou sadu IDC_regular k detekci přítomnosti invazivního duktálního karcinomu, nejčastější formy rakoviny prsu. Vyvíjí se v mlékovodu, který napadá vláknitou nebo tukovou tkáň prsu mimo mlékovod. V tomto nápadu na datový vědecký projekt budeme ke klasifikaci používat hluboké učení a knihovnu Keras.
Jazyk: Python
Datová sada/balíček: IDC_regular
Dosáhněte přesnosti v technologii samořídících automobilů pomocí datového vědeckého projektu na rozpoznávání dopravních značek pomocí CNN se zdrojovým kódem
Dopravní značky a pravidla jsou velmi důležité, které musí každý řidič dodržovat, aby se vyhnul případné nehodě. Aby se člověk mohl pravidly řídit, musí nejprve pochopit, jak dopravní značka vypadá. Člověk se musí naučit všechny dopravní značky dříve, než získá oprávnění k řízení jakéhokoli vozidla. Nyní však přibývá autonomních vozidel a v nadcházející budoucnosti nebudou žádní lidští řidiči. V projektu Rozpoznávání dopravních značek se dozvíte, jak může program na základě obrázku na vstupu určit typ dopravní značky. K sestavení hluboké neuronové sítě pro rozpoznávání třídy, do které dopravní značka patří, se používá německá referenční sada dat pro rozpoznávání dopravních značek (GTSRB). Vytvoříme také jednoduché grafické uživatelské rozhraní pro interakci s aplikací.
Jazyk: Python
Datová sada: GTSRB (German Traffic Sign Recognition Benchmark)
Souhrn
.