Tentei construir alguns projetos de ciência de dados para melhorar seu currículo e me intimidei com o tamanho do código e o número de conceitos utilizados? Sente-se muito fora de alcance, e esmaga seus sonhos de se tornar um cientista de dados? Nós coletamos para você dezesseis projetos de ciência de dados com código fonte para que você possa realmente participar dos projetos de ciência de dados em tempo real. Estes ajudarão a aumentar a confiança e também a dizer ao entrevistador que você está levando a sério a ciência dos dados.
Você sabe?
Encontrar uma idéia perfeita para seu projeto é algo que lhe preocupa mais do que implementar o projeto em si, não é? Então, tendo o mesmo em mente, compilamos uma lista de mais de 500+ idéias de projetos só para você. Tudo o que você tem que fazer é marcar este artigo e começar.
- Python Projects
- Python Django (Web Development) Projects
- Python Game Development Projects
- Python Artificial Intelligence Projects
- Python Machine Learning Projetos
- Python Data Science Projects
- Python Deep Learning Projects
- Python Computer Vision Projects
- Python Internet of Things Projects
Neste blog, vamos listar diferentes exemplos de projetos de ciência de dados nas linguagens R e Python. Vamos separá-los com base na dificuldade para que você tenha um caminho adequado a seguir.
Fique atualizado com as últimas tendências tecnológicas
Junte DataFlair no Telegrama!!
- Pop Data Science Project Ideas
- Projetos de Data Science de iniciantes
- 1.1 Detecção de Notícias Falsas
- 1.2 Detecção de Linha de Rodovia
- 1.3 Análise de Sentimento
- 1.4 Detectando a Doença de Parkinson
- 1.5 Detecção de cor com Python
- 1.6 Detecção de tumor cerebral com Data Science
- 1.7 Detecção de Doenças de Folha
- Projetos de Ciência de Dados Intermédios
- 2.1 Reconhecimento de Emoção de Fala
- 2.2 Detecção de Género e Idade com Data Science
- 2.3 Retinopatia Diabética
- 2.3 Análise de Dados Uber em R
- 2.4 Driver Drowsiness Detection in Python
- 2.5 Projeto Chatbot em Python
- 2.6 Projeto de Reconhecimento de Dígitos Escritos à Mão
- Projetos Avançados de Ciência de Dados
- 3.1 Projeto Gerador de Legendas de Imagens em Python
- 3.2 Projeto de Detecção de Fraude de Cartão de Crédito
- 3.3 Sistema de Recomendação de Filmes
- 3.4 Segmentação de clientes
- 3.5 Classificação do cancro da mama
- 3.6 Reconhecimento de sinais de trânsito
- Sumário
Pop Data Science Project Ideas
Aqui estão as melhores idéias de projetos de Data Science com código fonte:
Projetos de Data Science de iniciantes
1.1 Detecção de Notícias Falsas
>
Drive your career to new heights by working on Data Science Project for Beginners – Detectando Notícias Falsas com Python
>
>
Um rei do jornalismo amarelo, notícias falsas são informações falsas e embustes espalhados através de mídias sociais e outras mídias online para alcançar uma agenda política. Nesta idéia de projeto de ciência de dados, vamos usar Python para construir um modelo que possa detectar com precisão se uma notícia é real ou falsa. Vamos construir um TfidfVectorizer e usar um PassiveAggressiveClassifier para classificar as notícias em “Real” e “Fake”. Vamos usar um conjunto de dados com a forma 7796×4 e executar tudo no Jupyter Lab.
Linguagem: Python
Dataset/Package: news.csv
1.2 Detecção de Linha de Rodovia
>
Cheque a implementação completa do Projeto de Ciência de Dados de Detecção de Linha de Rodovia: Detecção de Linha de Pista em Tempo Real em Python
>
Idéia de Projeto de Ciência de Dados: As linhas desenhadas nas estradas guiam os condutores humanos onde se encontram as faixas. Refere-se também à direcção a seguir para conduzir o veículo. Esta aplicação é cardinal para desenvolver carros sem condutor.
Pode construir uma aplicação com a capacidade de identificar linhas de pista a partir de imagens de entrada ou quadros de vídeo contínuo.
1.3 Análise de Sentimento
Verifica a implementação completa do Projecto de Ciência de Dados com Código Fonte – Projecto de Análise de Sentimento em R
>
>
>
Análise de Sentimento é o acto de analisar palavras para determinar sentimentos e opiniões que podem ser positivos ou negativos na polaridade. Este é um tipo de classificação onde as classes podem ser binárias (positivas e negativas) ou múltiplas (felizes, zangadas, tristes, enojadas,…). Vamos implementar este projeto de ciência de dados na linguagem R e usar o conjunto de dados pelo pacote ‘janeaustenR’. Vamos usar léxicos de uso geral como AFINN, bing e loughran, realizar uma união interna, e no final, vamos construir uma nuvem de palavras para mostrar o resultado.
Linguagem: R
Dataset/Pacote: janeaustenR
1.4 Detectando a Doença de Parkinson
Põe o teu melhor pé para a frente trabalhando em Ideia de Projecto de Ciência de Dados – Detectando a Doença de Parkinson com XGBoost
Começámos a usar a ciência de dados para melhorar os cuidados de saúde e os serviços – se conseguirmos prever uma doença precocemente, ela tem muitas vantagens no prognóstico. Portanto, nesta idéia de projeto de ciência de dados, vamos aprender a detectar a doença de Parkinson com Python. Esta é uma doença neurodegenerativa e progressiva do sistema nervoso central que afeta o movimento e causa tremores e rigidez. Isto afeta os neurônios produtores de dopamina no cérebro e a cada ano, afeta mais de 1 milhão de indivíduos na Índia.
Linguagem: Python
Dataset/Package: UCI ML Parkinsons dataet
1.5 Detecção de cor com Python
Build um aplicativo para detectar cores com o Projeto Ciência dos Dados para Iniciantes – Detecção de Cor com OpenCV
Quantas vezes já lhe ocorreu que mesmo depois de ver, você não se lembra do nome da cor? Pode haver 16 milhões de cores com base nos diferentes valores de cor RGB, mas só nos lembramos de algumas. Então neste projeto, vamos construir um aplicativo interativo que detectará a cor selecionada a partir de qualquer imagem. Para implementar isto vamos precisar de dados etiquetados de todas as cores conhecidas, então vamos calcular qual a cor que mais se assemelha com o valor da cor selecionada.
Language: Python
Dataset: Codebrainz Color Names
1.6 Detecção de tumor cerebral com Data Science
Data Science Project Idea: Há muitos projetos famosos de aprendizagem profunda no conjunto de dados de varredura MRI. Um deles é a detecção de Tumor Cerebral. Você pode usar a aprendizagem por transferência nestas varreduras de MRI para obter as características necessárias para a classificação. Ou você pode treinar sua própria rede neural de convolução a partir do zero para detectar tumores cerebrais.
Dataset: Conjunto de dados de imagens de RM do cérebro
1.7 Detecção de Doenças de Folha
Idéia de Projeto de Ciência de Dados: A detecção de doenças em plantas tem um papel muito importante no campo da agricultura. Este projeto Data Science tem como objetivo fornecer uma interface de inspeção automática baseada em imagens. Envolve o uso de técnicas de processamento de imagem auto-projetadas e aprendizagem profunda. Ele irá categorizar as folhas das plantas como saudáveis ou infectadas.
Dataset: Leaf Dataset
Projetos de Ciência de Dados Intermédios
2.1 Reconhecimento de Emoção de Fala
Explorar a implementação completa do Projeto de Ciência de Dados Exemplo – Reconhecimento de Emoção de Fala com Librosa
>3068
Agora vamos aprender a usar diferentes bibliotecas. Este projeto de ciência de dados usa librosa para realizar o Reconhecimento da Emoção da Fala. SER é o processo de tentar reconhecer a emoção humana e os estados afetivos a partir da fala. Como usamos tom e tom para expressar emoções através da voz, SER é possível; mas é difícil porque as emoções são subjetivas e anotar áudio é um desafio. Vamos usar os recursos mfcc, chroma e mel e usar o conjunto de dados RAVDESS para reconhecer a emoção. Nós vamos construir um MLPClassifier para o modelo.
Language: Python
Dataset/Package: Conjunto de dados RAVDESS
2.2 Detecção de Género e Idade com Data Science
Põe o pedal no metal &Imprime os recrutadores com o derradeiro Projecto Data Science – Detecção de Género e Idade com OpenCV
>
>
Este é um interessante projecto de Data Science com Python. Usando apenas uma imagem, você vai aprender a prever o sexo e a faixa etária de um indivíduo. Nisto, apresentamos-lhe a Computer Vision e os seus princípios. Vamos construir uma Rede Neural Convolucional e usar modelos treinados por Tal Hassner e Gil Levi para o conjunto de dados Adience. Vamos usar alguns arquivos .pb, .pbtxt, .prototxt e .caffemodel ao longo do caminho.
Language: Python
Dataset/Package: Adiência
2.3 Retinopatia Diabética
Idéia do Projeto Data Science: A Retinopatia Diabética é uma das principais causas da cegueira. Você pode desenvolver um método automático de triagem da retinopatia diabética. Você pode treinar uma rede neural em imagens de retina de pessoas afetadas e normais. Este projecto irá classificar se o paciente tem ou não retinopatia.
Dataset: Dataset de Retinopatia Diabética
2.3 Análise de Dados Uber em R
Cheque a implementação completa do Data Science Project com código fonte – Uber Data Analysis Project em R
>
>
Este é um projeto de visualização de dados com ggplot2 onde usaremos R e suas bibliotecas e analisaremos vários parâmetros como viagens por horas em um dia e viagens durante meses em um ano. Vamos usar o conjunto de dados Uber Pickups em Nova York e criar visualizações para diferentes períodos do ano. Isto nos diz como o tempo afeta as viagens do cliente.
Língua: R
Dataset/Pacote: Uber Pickups em Nova Iorque: Conjunto de dados
2.4 Driver Drowsiness Detection in Python
Drive your career to new heights by working on Top Data Science Project – Drowsiness Detection System with OpenCV & Keras
>
Drowsy driving is extremely dangerous and around thousands of accidents happen each year due to drivers falling asleep while driving. Neste projecto Python, vamos construir um sistema que pode detectar condutores adormecidos e também alertá-los através de um alarme sonoro.
Este projecto é implementado utilizando Keras e OpenCV. Usaremos OpenCV para a detecção facial e ocular e com Keras, classificaremos o estado do olho (Abrir ou Fechar) usando técnicas de rede neural profunda.
2.5 Projeto Chatbot em Python
Build a chatbot usando Python &Personalize sua carreira – Chatbot com NLTK & Keras
Chatbots são uma parte essencial do negócio. Muitas empresas têm que oferecer serviços aos seus clientes e necessitam de muita mão de obra, tempo e esforço para lidar com os clientes. Os chatbots podem automatizar a maior parte da interacção com os clientes respondendo a algumas das perguntas frequentes que são feitas pelos clientes. Existem principalmente dois tipos de “chatbots”: chatbots de domínio específico e chatbots de domínio aberto. O chatbot de domínio específico é frequentemente utilizado para resolver um problema específico. Portanto, você precisa personalizá-lo de forma inteligente para trabalhar eficazmente no seu domínio. Os chatbots de domínio aberto podem ser colocados a qualquer tipo de pergunta, por isso é necessária uma enorme quantidade de dados para treinar.
Linguagem: Python
Dataset: Intents json file
2.6 Projeto de Reconhecimento de Dígitos Escritos à Mão
Praticamente implementar o Projeto de Aprendizagem Profunda com Código Fonte – Reconhecimento de Dígitos Escritos à Mão com CNN
>
O conjunto de dados MNIST de dígitos escritos à mão é difundido entre os cientistas de dados e entusiastas da aprendizagem de máquinas. É um projeto incrível para começar com a ciência dos dados e entender os processos envolvidos em um projeto. O projeto é implementado usando as Redes Neurais Convolucionais e então para previsão em tempo real também construímos uma boa interface gráfica para desenhar dígitos em uma tela e então o modelo irá prever o dígito.
Linguagem: Python
Dataset: MNIST
>
Contratado como um cientista de dados com perguntas de Entrevista de Ciência de Dados de Topo
>
Projetos Avançados de Ciência de Dados
>
3.1 Projeto Gerador de Legendas de Imagens em Python
Verifica a implementação completa do projeto de ciência de dados com código fonte – Gerador de Legendas de Imagens com CNN& LSTM
>
>
Este é um projeto de ciência de dados interessante. Descrever o que está em uma imagem é uma tarefa fácil para humanos, mas para computadores, uma imagem é apenas um monte de números que representam o valor da cor de cada pixel. Então esta é uma tarefa difícil para os computadores entenderem o que está na imagem e depois gerar a descrição em linguagem Natural como o Inglês é outra tarefa difícil. Este projeto usa técnicas de aprendizado profundo onde implementamos uma rede neural Convolucional (CNN) com Rede Neural Recorrente (LSTM) para construir o gerador de legendas de imagens.
Dataset: Flickr 8K
Linguagem: Python
>
Framework: Keras
3.2 Projeto de Detecção de Fraude de Cartão de Crédito
Põe o teu melhor pé à frente trabalhando em Projetos de Ciência de Dados – Detecção de Fraude de Cartão de Crédito com Aprendizagem de Máquina
>
Até agora, você começou a entender os métodos e conceitos. Vamos passar para alguns projetos avançados de ciência de dados. Neste projeto, vamos usar R com algoritmos como Árvores de Decisão, Regressão Logística, Redes Neurais Artificiais, e Gradient Boosting Classifier. Vamos usar o conjunto de dados de Transações com Cartão de Crédito para classificar as transações com cartão de crédito em fraudulentas e genuínas. Nós vamos ajustar os diferentes modelos e traçar curvas de desempenho para eles.
Linguagem: R
Dataset/Package: Conjunto de dados de Transacções de Cartão
3.3 Sistema de Recomendação de Filmes
Explorar a implementação do Melhor Projecto de Ciência de Dados com Código Fonte – Projecto de Sistema de Recomendação de Filmes em R
>
Neste projecto de Ciência de Dados, usaremos o R para realizar uma recomendação de filmes através da aprendizagem de máquinas. Um sistema de recomendação envia sugestões aos usuários através de um processo de filtragem baseado nas preferências dos outros usuários e no histórico de navegação. Se A e B gostam de Home Alone e B gostam de Mean Girls, pode ser sugerido a A – elas também podem gostar. Isto mantém os clientes envolvidos com a plataforma.
Linguagem: R
Dataset/Package: MovieLens dataet
3.4 Segmentação de clientes
Põe a medalha no pedal &Imprime os recrutadores com o Projecto Data Science (Código Fonte incluído) – Segmentação de clientes com o Projecto Machine Learning
Este é um dos projectos mais populares em Data Science. Antes de executar qualquer campanha as empresas criam diferentes grupos de clientes.
Segmentação de clientes é uma aplicação popular de aprendizagem não supervisionada. Usando o clustering, as empresas identificam segmentos de clientes para direcionar a base de usuários em potencial. Eles dividem os clientes em grupos de acordo com características comuns como sexo, idade, interesses e hábitos de consumo para que possam comercializar para cada grupo de forma eficaz. Usaremos o agrupamento de meios K e também visualizamos as distribuições por sexo e idade. Em seguida, analisaremos suas rendas anuais e notas de gastos.
Linguagem: R
Dataset/Pacote: Mall_Customers dataet
3.5 Classificação do cancro da mama
Verifica a implementação completa do Projecto de Ciência de Dados em Python – Classificação do Cancro da Mama com Aprendizagem Profunda
Voltando às contribuições médicas da ciência de dados, vamos aprender a detectar o cancro da mama com Python. Vamos usar o conjunto de dados IDC_regular para detectar a presença do Carcinoma Ductal Invasivo, a forma mais comum de câncer de mama. Desenvolve-se num ducto de leite que invade o tecido fibroso ou gorduroso da mama fora do ducto. Nesta idéia de projeto de ciência de dados, vamos usar o Deep Learning e a biblioteca Keras para classificação.
Linguagem: Python
Dataset/Pacote: IDC_regular
3.6 Reconhecimento de sinais de trânsito
Acuracidade na tecnologia de auto-condução com o Projecto de Ciência de Dados sobre Reconhecimento de Sinais de Trânsito usando CNN com Código Fonte
>
Acuracidade na tecnologia de auto-condução com o Projecto de Ciência de Dados sobre Reconhecimento de Sinais de Trânsito Para seguir a regra é preciso primeiro entender como é a sinalização de trânsito. Um humano tem que aprender todos os sinais de trânsito antes de receber a carta de condução para conduzir qualquer veículo. Mas agora veículos autônomos estão subindo e não haverá condutores humanos no futuro próximo. No projeto de reconhecimento de sinais de trânsito, você aprenderá como um programa pode identificar o tipo de sinal de trânsito, tomando uma imagem como entrada. O conjunto de dados de referência de reconhecimento de sinais de trânsito alemães (GTSRB) é usado para construir uma rede neural profunda para reconhecer a classe à qual pertence um sinal de trânsito. Também construímos uma GUI simples para interagir com a aplicação.
Linguagem: Python
Dataset: GTSRB (German Traffic Sign Sign Recognition Benchmark)