Trying to build some data science projects to improve your resume and got intimidated by size of code and number of concepts used? あまりにも手が届かないと感じ、データ サイエンティストになる夢をつぶしてしまったのでしょうか? 私たちは、あなたが実際にデータサイエンスのリアルタイムプロジェクトに参加できるように、ソースコード付きの16のデータサイエンスプロジェクトを集めました。 これらは自信を高めるのに役立ち、また、あなたがデータサイエンスについて真剣であることを面接官に伝えます。
Do you know?
あなたのプロジェクトのための完璧なアイデアを見つけることは、プロジェクト自体を実装するよりもあなたを悩ますものですよね? そこで、同じことを念頭に置いて、私たちはあなたのために500以上のプロジェクトのアイデアのリストをコンパイルしています。 この記事をブックマークして、さっそく始めてみてください。
- Python プロジェクト
- Python Django(Web開発)プロジェクト
- Python ゲーム開発プロジェクト
- Python 人工知能プロジェクト
- Python 機械学習プロジェクト プロジェクト
- Python Data Science Projects
- Python Deep Learning Projects
- Python Computer Vision Projects
- Python Internet of Things Projects
このブログでは、Pythonのデータサイエンス・プロジェクトについて説明します。 RとPythonを使った様々なデータサイエンス・プロジェクトの例を挙げていきます。 8032>
Stay updated with latest technology trends
Join DataFlair on Telegram!!!
- Top Data Science Project Ideas
- Beginner Data Science Projects
- 1.Data Science Project Top Data Science Projects Ideas Top Data Science Project Ideas 初心者向けデータサイエンス プロジェクト – Pythonによるフェイクニュースの検出 イエロージャーナリズムの王者、フェイクニュースとはソーシャルメディアやその他のオンラインメディアを通じて政治課題を達成するために流される誤った情報やデマなどのことを指します。 このデータサイエンス・プロジェクト・アイデアでは、Pythonを使用して、あるニュースが本物かフェイクかを正確に検出できるモデルを構築することにします。 TfidfVectorizerを構築し、PassiveAggressiveClassifierを使用して、ニュースを「本物」と「偽物」に分類する予定です。 形状は7796×4のデータセットを使用し、全てJupyter Lab.で実行します。 Language: Python Dataset/Package: news.csv 1.2 Road Lane Line Detection
- 1.4 Detecting Parkinson’s Disease
- 1.5 Color Detection with Python
- 1.6 データサイエンスによる脳腫瘍検出
- 1.7 葉の病気検出
- Intermediate Data Science Projects
- 2.1 Speech Emotion Recognition
- 2.2 データサイエンスによる性別と年齢の検出
- 2.3 Diabetic Retinopathy
- 2.3 Uber Data Analysis in R
- 2.4 Driver Drowsiness detection in Python
- 2.6 Handwritten Digit Recognition Project
- Advanced Data Science Projects
- 3.データサイエンティストとして採用されるために。1 Image Caption Generator Project in Python
- 3.2 クレジットカード不正検出プロジェクト
- 3.3 Movie Recommendation System
- 3.4 Customer Segmentation
- 3.5 Breast Cancer Classification
- 3.6 Traffic Signs Recognition
- Summary
Top Data Science Project Ideas
ソースコード付きの最高のデータ科学プロジェクトのアイデアはこちら:
Beginner Data Science Projects
1.Data Science Project
Top Data Science Projects Ideas Top Data Science Project Ideas
初心者向けデータサイエンス プロジェクト – Pythonによるフェイクニュースの検出
イエロージャーナリズムの王者、フェイクニュースとはソーシャルメディアやその他のオンラインメディアを通じて政治課題を達成するために流される誤った情報やデマなどのことを指します。 このデータサイエンス・プロジェクト・アイデアでは、Pythonを使用して、あるニュースが本物かフェイクかを正確に検出できるモデルを構築することにします。 TfidfVectorizerを構築し、PassiveAggressiveClassifierを使用して、ニュースを「本物」と「偽物」に分類する予定です。 形状は7796×4のデータセットを使用し、全てJupyter Lab.で実行します。
Language: Python
Dataset/Package: news.csv
1.2 Road Lane Line Detection
Lane Line Detection Data Science Projectの完全実装を確認します。 Python でリアルタイムの車線検出
Data Science Project Idea: 道路に引かれた線は、車線がどこにあるのかを人間のドライバーに案内する。 また、車を操縦する方向も示している。 このアプリケーションは、無人運転車の開発に不可欠です。
あなたは、入力画像または連続したビデオフレームからトラックラインを識別する機能を持つアプリケーションを構築することができます。3 センチメント分析
Check the complete implementation of Data Science Project with Source Code – Sentiment Analysis Project in R
Sentiment analysis is the act of analyzing words to determine sentiments and opinions that may be positive or negative in polarity.Sentiment Analysisは、感情を分析することである。 これは、クラスがバイナリ (正と負) または複数 (幸せ、怒り、悲しみ、嫌悪、…) である可能性がある分類の一種です。 このデータサイエンス・プロジェクトはR言語で実装し、「janeaustenR」パッケージによるデータセットを使用することにします。 AFINN、bing、loughranなどの汎用辞書を使用し、内部結合を行い、最後にワードクラウドを構築して結果を表示する予定です。 R
Dataset/Package: janeaustenR
1.4 Detecting Parkinson’s Disease
Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost
ヘルスケアやサービスの向上にデータサイエンスが使われ始めています–病気を早期に予測できれば、予後にも多くの利点が出てきます。 そこで、このデータサイエンス・プロジェクト・アイデアでは、Pythonを使ってパーキンソン病を検出することを学びます。 これは中枢神経系の神経変性、進行性の疾患で、動作に影響を与え、震えやこわばりを引き起こします。 これは脳のドーパミン産生ニューロンに影響を与え、毎年、インドで100万人以上が発症しています。
Language: Python
Dataset/Package: UCI ML Parkinsons dataset
1.5 Color Detection with Python
色を検出するアプリケーションを構築する Beginner Data Science Project – Color Detection with OpenCV
見た後でも、その色の名前を覚えていないことが何回ありましたか? RGBの色値の違いから1600万色あると言われていますが、私たちが覚えているのはそのうちの数色だけです。 そこで、このプロジェクトでは、任意の画像から選択された色を検出するインタラクティブなアプリを作成する予定です。 これを実装するには、すべての既知の色のラベル付きデータが必要です。次に、選択した色の値に最も似ている色を計算します。 Python
Dataset: Codebrainz Color Names
1.6 データサイエンスによる脳腫瘍検出
Data Science Project Idea: MRIスキャンのデータセットで有名な深層学習プロジェクトがたくさんあります。 そのうちの1つは、脳腫瘍の検出です。 あなたは、分類のために必要な特徴を得るために、これらのMRIスキャンに転送学習を使用することができます。 または、脳腫瘍を検出するために、ゼロから独自の畳み込みニューラルネットワークを訓練することができます
Dataset: 脳MRI画像データセット
1.7 葉の病気検出
Data Science Project Idea: 植物の病気の検出は、農業の分野で非常に重要な役割を果たしている。 このデータサイエンス・プロジェクトは、画像ベースの自動検査インタフェースを提供することを目的としている。 それは、自分で設計した画像処理と深層学習技術の使用を含む。 植物の葉を健康か感染しているかで分類します。
Dataset: Leaf Dataset
Intermediate Data Science Projects
2.1 Speech Emotion Recognition
データサイエンス プロジェクト例 – Librosaによる音声感情認識
Let’s learn to use different libraries now.の完全実装を探検すること。 このデータサイエンスプロジェクトでは、librosaを使ってSpeech Emotion Recognition(音声感情認識)を行います。 SERとは、音声から人間の感情や情緒状態を認識しようとするプロセスです。 しかし、感情は主観的なものであり、音声にアノテーションを施すことは困難です。 そこで、mfcc, chroma, melの各特徴を用い、RAVDESSデータセットを用いて、感情を認識する。 モデルにはMLPClassifierを構築します。
Language: Python
Dataset/Package: RAVDESS dataset
2.2 データサイエンスによる性別と年齢の検出
Put the pedal to the metal & impress recruiters with ultimate Data Science Project – Gender and Age Detection with OpenCV
このPythonによる興味深いデータサイエンスのプロジェクトは、「性別検出と年齢検出」をテーマとしています。 たった1枚の画像を使って、個人の性別と年齢層を予測することを学びます。 この中で、コンピュータビジョンとその原理を紹介します。 畳み込みニューラルネットワークを構築し、Adienceのデータセットに対してTal HassnerとGil Leviによって学習されたモデルを使用することになります。
Language: Python
Dataset/Package: Adience
2.3 Diabetic Retinopathy
Data Science Project Idea: 糖尿病性網膜症は、失明の主な原因となっている。 あなたは、糖尿病性網膜症の自動スクリーニング方法を開発することができます。 糖尿病患者や正常な人の網膜画像でニューラルネットワークを学習させることができます。 このプロジェクトでは、患者が網膜症かどうかを分類します。
Dataset: Diabetic Retinopathy Dataset
2.3 Uber Data Analysis in R
Check the complete implementation of Data Science Project with Source Code – Uber Data Analysis Project in R
This is a data visualization project with ggplot2 where we use R and its libraries and analyze various parameters like trips by the hours in day and trips during months in a year.今回は、Rとライブラリを使用して、1日単位での移動や1年単位での移動など、各種パラメータを分析する、ggplot2によるデータ可視化プロジェクトです。 Uber Pickups in New York Cityのデータセットを使用し、1年間の様々な時間枠のビジュアライゼーションを作成する予定です。 これは、時間が顧客のトリップにどのように影響するかを教えてくれます。
Language: R
Dataset/Package: Uber Pickups in New York City dataset
2.4 Driver Drowsiness detection in Python
トップデータサイエンスプロジェクト – Drowsiness Detection System with OpenCV & Keras
眠気運転は非常に危険で、運転中の居眠りで毎年約千件の事故が発生している。 このPythonプロジェクトでは、居眠り運転者を検出し、ビープ音で警告するシステムを構築します。
このプロジェクトは、KerasとOpenCVを使用して実装されています。 顔や目の検出にはOpenCVを使用し、KerasではDeep neural networkの技術を使用して目の状態(Open or Close)を分類する予定です。5 Pythonでチャットボットプロジェクト
Pythonでチャットボットを作る&キャリアをステップアップする-NLTKでチャットボット& Keras
チャットボットはビジネスに欠かせない存在となっています。 多くの企業は顧客にサービスを提供しなければならず、顧客に対応するために多くの人手、時間、労力を必要とします。 チャットボットは、顧客によって尋ねられる頻繁な質問のいくつかに答えることによって、顧客との対話のほとんどを自動化することができます。 チャットボットには、主に2つのタイプがあります。 ドメイン特化型チャットボットとオープンドメイン型チャットボットです。 ドメイン固有のチャットボットは、多くの場合、特定の問題を解決するために使用されます。 そのため、自分のドメインで効果的に動作するようにスマートにカスタマイズする必要があります。 オープンドメインのチャットボットは、あらゆるタイプの質問を受けることができるため、学習には膨大な量のデータが必要です。
Language: Python
Dataset: Intents json file
2.6 Handwritten Digit Recognition Project
ソースコード付きの深層学習プロジェクトを実践する – Handwritten Digit Recognition with CNN
The MNIST dataset of handwritten digit is widespread among the data scientists and machine learning enthusiasts are connected. データサイエンスを始め、プロジェクトに含まれるプロセスを理解するための素晴らしいプロジェクトです。 このプロジェクトは、畳み込みニューラルネットワークを使用して実装され、リアルタイム予測のために、キャンバス上に数字を描き、モデルがその数字を予測する、素晴らしいグラフィカル ユーザー インターフェイスも構築しました。 Python
Dataset: MNIST
Get a data scientist with Top Data Science Interview Questions
Advanced Data Science Projects
3.データサイエンティストとして採用されるために。1 Image Caption Generator Project in Python
データサイエンスプロジェクトの完全な実装をソースコードで確認 – Image Caption Generator with CNN & LSTM
これは興味深いデータサイエンスプロジェクトです。 画像に何が写っているかを記述することは、人間にとっては簡単な作業ですが、コンピューターにとっては、画像は各画素の色値を表す数字の束に過ぎません。 そのため、コンピュータが画像の内容を理解するのは難しく、さらにその内容を英語のような自然言語で生成するのもまた難しいタスクです。 このプロジェクトでは、ディープラーニングの手法を用い、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(LSTM)を実装し、画像キャプション生成器を構築しています。 Flickr 8K
Language: Python
Framework: Keras
3.2 クレジットカード不正検出プロジェクト
データサイエンス・プロジェクトに取り組んでベストを尽くそう-機械学習を用いたクレジットカード不正検出
ここまでくると、手法や概念について理解し始めているのではないでしょうか。 それでは、高度なデータサイエンス・プロジェクトに進みましょう。 このプロジェクトでは、決定木、ロジスティック回帰、人工ニューラルネットワーク、および勾配ブースティング分類器などのアルゴリズムでRを使用します。 カード取引データセットを使って、クレジットカード取引を不正なものと本物のものに分類します。 我々は、異なるモデルを適合させ、それらの性能曲線をプロットする。
Language: R
Dataset/Package: Card Transactions dataset
3.3 Movie Recommendation System
ソースコード付きのベストデータサイエンスプロジェクト-Rでの映画推薦システムプロジェクトの実装を探る
このデータ科学プロジェクトで、Rを使って機械学習による映画の推薦を実行します。 推薦システムは、他のユーザーの嗜好や閲覧履歴をもとにフィルタリングを行い、ユーザーに提案を送ります。 AとBが「ホーム・アローン」が好きで、Bが「ミーン・ガールズ」が好きなら、Aにも好きかもしれない、と提案することができるのです。 これにより、お客様はプラットフォームとの関係を維持することができます。
Language: R
Dataset/Package: MovieLens dataset
3.4 Customer Segmentation
Put the medal to the pedal & impress recruiters with Data Science Project (Source Code included) – Customer Segmentation with Machine Learning
This is one of the most popular projects in Data Science.このプロジェクトは、Data Science の中でも最も人気のあるプロジェクトの 1 つです。 キャンペーンを実行する前に、企業は顧客の異なるグループを作成します。
Customer Segmentation は、教師なし学習の一般的なアプリケーションです。 クラスタリングを使用して、企業は潜在的なユーザー ベースをターゲットにするために顧客のセグメントを識別します。 性別、年齢、興味、消費習慣などの共通項によって顧客をグループに分け、それぞれのグループに対して効果的なマーケティングを行うことができるのです。 K-meansクラスタリングを使って、性別や年齢の分布も可視化します。 そして、彼らの年収と支出スコアを分析します。
Language: R
Dataset/Package: Mall_Customers dataset
3.5 Breast Cancer Classification
Check the complete implementation of Data Science Project in Python – Breast Cancer Classification with Deep Learning
データサイエンスの医療への貢献に戻り、乳がんを検出する方法を Python で学習しましょう。 IDC_regular データセットを使用して、乳がんの最も一般的な形態である侵襲性乳管癌の存在を検出します。 乳管の外側にある繊維状または脂肪性の乳房組織に侵入して乳管内で発生します。 このデータサイエンス・プロジェクトのアイデアでは、分類にDeep LearningとKerasライブラリを使用します
Language: Python
Dataset/Package: IDC_regular
3.6 Traffic Signs Recognition
Achieve accuracy in self-driving cars technology with Data Science Project on Traffic Signs Recognition using CNN with Source Code
Traffic signs and rules are very important that every driver must follow to avoid any accident.Have a driver driver? ルールに従うためには、まず交通標識がどのように見えるかを理解する必要があります。 人間は、どのような車両でも運転免許を取得する前に、すべての交通標識を学ばなければなりません。 しかし、現在、自律走行車が台頭してきており、近い将来、人間が運転することはなくなるでしょう。 交通標識認識プロジェクトでは、画像を入力として、プログラムがどのように交通標識の種類を識別するのかを学びます。 ドイツの交通標識認識ベンチマークデータセット(GTSRB)を使用して、交通標識が属するクラスを認識するためのDeep Neural Networkを構築します。 また、アプリケーションと対話するための簡単なGUIを構築する。
Language: Python
Dataset: GTSRB (German Traffic Sign Recognition Benchmark)
Summary
Top Data Science Projects Ideas Top Data Science Project Ideas
初心者向けデータサイエンス プロジェクト – Pythonによるフェイクニュースの検出
イエロージャーナリズムの王者、フェイクニュースとはソーシャルメディアやその他のオンラインメディアを通じて政治課題を達成するために流される誤った情報やデマなどのことを指します。 このデータサイエンス・プロジェクト・アイデアでは、Pythonを使用して、あるニュースが本物かフェイクかを正確に検出できるモデルを構築することにします。 TfidfVectorizerを構築し、PassiveAggressiveClassifierを使用して、ニュースを「本物」と「偽物」に分類する予定です。 形状は7796×4のデータセットを使用し、全てJupyter Lab.で実行します。
Language: Python
Dataset/Package: news.csv
1.2 Road Lane Line Detection
Lane Line Detection Data Science Projectの完全実装を確認します。 Python でリアルタイムの車線検出
Data Science Project Idea: 道路に引かれた線は、車線がどこにあるのかを人間のドライバーに案内する。 また、車を操縦する方向も示している。 このアプリケーションは、無人運転車の開発に不可欠です。
あなたは、入力画像または連続したビデオフレームからトラックラインを識別する機能を持つアプリケーションを構築することができます。3 センチメント分析
Check the complete implementation of Data Science Project with Source Code – Sentiment Analysis Project in R
Sentiment analysis is the act of analyzing words to determine sentiments and opinions that may be positive or negative in polarity.Sentiment Analysisは、感情を分析することである。 これは、クラスがバイナリ (正と負) または複数 (幸せ、怒り、悲しみ、嫌悪、…) である可能性がある分類の一種です。 このデータサイエンス・プロジェクトはR言語で実装し、「janeaustenR」パッケージによるデータセットを使用することにします。 AFINN、bing、loughranなどの汎用辞書を使用し、内部結合を行い、最後にワードクラウドを構築して結果を表示する予定です。 R
Dataset/Package: janeaustenR
1.4 Detecting Parkinson’s Disease
Data Science Project Idea – Detecting Parkinson’s Disease with XGBoost
ヘルスケアやサービスの向上にデータサイエンスが使われ始めています–病気を早期に予測できれば、予後にも多くの利点が出てきます。 そこで、このデータサイエンス・プロジェクト・アイデアでは、Pythonを使ってパーキンソン病を検出することを学びます。 これは中枢神経系の神経変性、進行性の疾患で、動作に影響を与え、震えやこわばりを引き起こします。 これは脳のドーパミン産生ニューロンに影響を与え、毎年、インドで100万人以上が発症しています。
Language: Python
Dataset/Package: UCI ML Parkinsons dataset
1.5 Color Detection with Python
色を検出するアプリケーションを構築する Beginner Data Science Project – Color Detection with OpenCV
見た後でも、その色の名前を覚えていないことが何回ありましたか? RGBの色値の違いから1600万色あると言われていますが、私たちが覚えているのはそのうちの数色だけです。 そこで、このプロジェクトでは、任意の画像から選択された色を検出するインタラクティブなアプリを作成する予定です。 これを実装するには、すべての既知の色のラベル付きデータが必要です。次に、選択した色の値に最も似ている色を計算します。 Python
Dataset: Codebrainz Color Names
1.6 データサイエンスによる脳腫瘍検出
Data Science Project Idea: MRIスキャンのデータセットで有名な深層学習プロジェクトがたくさんあります。 そのうちの1つは、脳腫瘍の検出です。 あなたは、分類のために必要な特徴を得るために、これらのMRIスキャンに転送学習を使用することができます。 または、脳腫瘍を検出するために、ゼロから独自の畳み込みニューラルネットワークを訓練することができます
Dataset: 脳MRI画像データセット
1.7 葉の病気検出
Data Science Project Idea: 植物の病気の検出は、農業の分野で非常に重要な役割を果たしている。 このデータサイエンス・プロジェクトは、画像ベースの自動検査インタフェースを提供することを目的としている。 それは、自分で設計した画像処理と深層学習技術の使用を含む。 植物の葉を健康か感染しているかで分類します。
Dataset: Leaf Dataset
Intermediate Data Science Projects
2.1 Speech Emotion Recognition
データサイエンス プロジェクト例 – Librosaによる音声感情認識
Let’s learn to use different libraries now.の完全実装を探検すること。 このデータサイエンスプロジェクトでは、librosaを使ってSpeech Emotion Recognition(音声感情認識)を行います。 SERとは、音声から人間の感情や情緒状態を認識しようとするプロセスです。 しかし、感情は主観的なものであり、音声にアノテーションを施すことは困難です。 そこで、mfcc, chroma, melの各特徴を用い、RAVDESSデータセットを用いて、感情を認識する。 モデルにはMLPClassifierを構築します。
Language: Python
Dataset/Package: RAVDESS dataset
2.2 データサイエンスによる性別と年齢の検出
Put the pedal to the metal & impress recruiters with ultimate Data Science Project – Gender and Age Detection with OpenCV
このPythonによる興味深いデータサイエンスのプロジェクトは、「性別検出と年齢検出」をテーマとしています。 たった1枚の画像を使って、個人の性別と年齢層を予測することを学びます。 この中で、コンピュータビジョンとその原理を紹介します。 畳み込みニューラルネットワークを構築し、Adienceのデータセットに対してTal HassnerとGil Leviによって学習されたモデルを使用することになります。
Language: Python
Dataset/Package: Adience
2.3 Diabetic Retinopathy
Data Science Project Idea: 糖尿病性網膜症は、失明の主な原因となっている。 あなたは、糖尿病性網膜症の自動スクリーニング方法を開発することができます。 糖尿病患者や正常な人の網膜画像でニューラルネットワークを学習させることができます。 このプロジェクトでは、患者が網膜症かどうかを分類します。
Dataset: Diabetic Retinopathy Dataset
2.3 Uber Data Analysis in R
Check the complete implementation of Data Science Project with Source Code – Uber Data Analysis Project in R
This is a data visualization project with ggplot2 where we use R and its libraries and analyze various parameters like trips by the hours in day and trips during months in a year.今回は、Rとライブラリを使用して、1日単位での移動や1年単位での移動など、各種パラメータを分析する、ggplot2によるデータ可視化プロジェクトです。 Uber Pickups in New York Cityのデータセットを使用し、1年間の様々な時間枠のビジュアライゼーションを作成する予定です。 これは、時間が顧客のトリップにどのように影響するかを教えてくれます。
Language: R
Dataset/Package: Uber Pickups in New York City dataset
2.4 Driver Drowsiness detection in Python
トップデータサイエンスプロジェクト – Drowsiness Detection System with OpenCV & Keras
眠気運転は非常に危険で、運転中の居眠りで毎年約千件の事故が発生している。 このPythonプロジェクトでは、居眠り運転者を検出し、ビープ音で警告するシステムを構築します。
このプロジェクトは、KerasとOpenCVを使用して実装されています。 顔や目の検出にはOpenCVを使用し、KerasではDeep neural networkの技術を使用して目の状態(Open or Close)を分類する予定です。5 Pythonでチャットボットプロジェクト
Pythonでチャットボットを作る&キャリアをステップアップする-NLTKでチャットボット& Keras
チャットボットはビジネスに欠かせない存在となっています。 多くの企業は顧客にサービスを提供しなければならず、顧客に対応するために多くの人手、時間、労力を必要とします。 チャットボットは、顧客によって尋ねられる頻繁な質問のいくつかに答えることによって、顧客との対話のほとんどを自動化することができます。 チャットボットには、主に2つのタイプがあります。 ドメイン特化型チャットボットとオープンドメイン型チャットボットです。 ドメイン固有のチャットボットは、多くの場合、特定の問題を解決するために使用されます。 そのため、自分のドメインで効果的に動作するようにスマートにカスタマイズする必要があります。 オープンドメインのチャットボットは、あらゆるタイプの質問を受けることができるため、学習には膨大な量のデータが必要です。
Language: Python
Dataset: Intents json file
2.6 Handwritten Digit Recognition Project
ソースコード付きの深層学習プロジェクトを実践する – Handwritten Digit Recognition with CNN
The MNIST dataset of handwritten digit is widespread among the data scientists and machine learning enthusiasts are connected. データサイエンスを始め、プロジェクトに含まれるプロセスを理解するための素晴らしいプロジェクトです。 このプロジェクトは、畳み込みニューラルネットワークを使用して実装され、リアルタイム予測のために、キャンバス上に数字を描き、モデルがその数字を予測する、素晴らしいグラフィカル ユーザー インターフェイスも構築しました。 Python
Dataset: MNIST
Get a data scientist with Top Data Science Interview Questions
Advanced Data Science Projects
3.データサイエンティストとして採用されるために。1 Image Caption Generator Project in Python
データサイエンスプロジェクトの完全な実装をソースコードで確認 – Image Caption Generator with CNN & LSTM
これは興味深いデータサイエンスプロジェクトです。 画像に何が写っているかを記述することは、人間にとっては簡単な作業ですが、コンピューターにとっては、画像は各画素の色値を表す数字の束に過ぎません。 そのため、コンピュータが画像の内容を理解するのは難しく、さらにその内容を英語のような自然言語で生成するのもまた難しいタスクです。 このプロジェクトでは、ディープラーニングの手法を用い、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(LSTM)を実装し、画像キャプション生成器を構築しています。 Flickr 8K
Language: Python
Framework: Keras
3.2 クレジットカード不正検出プロジェクト
データサイエンス・プロジェクトに取り組んでベストを尽くそう-機械学習を用いたクレジットカード不正検出
ここまでくると、手法や概念について理解し始めているのではないでしょうか。 それでは、高度なデータサイエンス・プロジェクトに進みましょう。 このプロジェクトでは、決定木、ロジスティック回帰、人工ニューラルネットワーク、および勾配ブースティング分類器などのアルゴリズムでRを使用します。 カード取引データセットを使って、クレジットカード取引を不正なものと本物のものに分類します。 我々は、異なるモデルを適合させ、それらの性能曲線をプロットする。
Language: R
Dataset/Package: Card Transactions dataset
3.3 Movie Recommendation System
ソースコード付きのベストデータサイエンスプロジェクト-Rでの映画推薦システムプロジェクトの実装を探る
このデータ科学プロジェクトで、Rを使って機械学習による映画の推薦を実行します。 推薦システムは、他のユーザーの嗜好や閲覧履歴をもとにフィルタリングを行い、ユーザーに提案を送ります。 AとBが「ホーム・アローン」が好きで、Bが「ミーン・ガールズ」が好きなら、Aにも好きかもしれない、と提案することができるのです。 これにより、お客様はプラットフォームとの関係を維持することができます。
Language: R
Dataset/Package: MovieLens dataset
3.4 Customer Segmentation
Put the medal to the pedal & impress recruiters with Data Science Project (Source Code included) – Customer Segmentation with Machine Learning
This is one of the most popular projects in Data Science.このプロジェクトは、Data Science の中でも最も人気のあるプロジェクトの 1 つです。 キャンペーンを実行する前に、企業は顧客の異なるグループを作成します。
Customer Segmentation は、教師なし学習の一般的なアプリケーションです。 クラスタリングを使用して、企業は潜在的なユーザー ベースをターゲットにするために顧客のセグメントを識別します。 性別、年齢、興味、消費習慣などの共通項によって顧客をグループに分け、それぞれのグループに対して効果的なマーケティングを行うことができるのです。 K-meansクラスタリングを使って、性別や年齢の分布も可視化します。 そして、彼らの年収と支出スコアを分析します。
Language: R
Dataset/Package: Mall_Customers dataset
3.5 Breast Cancer Classification
Check the complete implementation of Data Science Project in Python – Breast Cancer Classification with Deep Learning
データサイエンスの医療への貢献に戻り、乳がんを検出する方法を Python で学習しましょう。 IDC_regular データセットを使用して、乳がんの最も一般的な形態である侵襲性乳管癌の存在を検出します。 乳管の外側にある繊維状または脂肪性の乳房組織に侵入して乳管内で発生します。 このデータサイエンス・プロジェクトのアイデアでは、分類にDeep LearningとKerasライブラリを使用します
Language: Python
Dataset/Package: IDC_regular
3.6 Traffic Signs Recognition
Achieve accuracy in self-driving cars technology with Data Science Project on Traffic Signs Recognition using CNN with Source Code
Traffic signs and rules are very important that every driver must follow to avoid any accident.Have a driver driver? ルールに従うためには、まず交通標識がどのように見えるかを理解する必要があります。 人間は、どのような車両でも運転免許を取得する前に、すべての交通標識を学ばなければなりません。 しかし、現在、自律走行車が台頭してきており、近い将来、人間が運転することはなくなるでしょう。 交通標識認識プロジェクトでは、画像を入力として、プログラムがどのように交通標識の種類を識別するのかを学びます。 ドイツの交通標識認識ベンチマークデータセット(GTSRB)を使用して、交通標識が属するクラスを認識するためのDeep Neural Networkを構築します。 また、アプリケーションと対話するための簡単なGUIを構築する。
Language: Python
Dataset: GTSRB (German Traffic Sign Recognition Benchmark)