Wideskills

Introdução

O processo inteiro de mineração de dados não pode ser completado em uma única etapa. Em outras palavras, você não pode obter as informações necessárias a partir dos grandes volumes de dados tão simples quanto isso. É um processo muito complexo do que pensamos, envolvendo uma série de processos. Os processos incluindo limpeza de dados, integração de dados, seleção de dados, transformação de dados, data mining, avaliação de padrões e representação de conhecimento devem ser completados na ordem determinada.

Tipos de Processos de Data Mining

Diferentes processos de data mining podem ser classificados em dois tipos: preparação ou pré-processamento de dados e data mining. Na verdade, os primeiros quatro processos, que são limpeza, integração, seleção e transformação de dados, são considerados como processos de preparação de dados. Os três últimos processos, incluindo mineração de dados, avaliação de padrões e representação de conhecimento são integrados em um processo chamado mineração de dados.

a) Limpeza de dados

Limpeza de dados é o processo onde os dados são limpos. Os dados no mundo real são normalmente incompletos, ruidosos e inconsistentes. Os dados disponíveis nas fontes de dados podem não ter valores de atributo, dados de interesse, etc. Por exemplo, você quer os dados demográficos dos clientes e se os dados disponíveis não incluírem atributos para o sexo ou idade dos clientes? Então os dados estão, naturalmente, incompletos. Às vezes, os dados podem conter erros ou aberturas. Um exemplo é um atributo de idade com valor 200. É óbvio que o valor de idade está errado neste caso. Os dados também podem ser inconsistentes. Por exemplo, o nome de um empregado pode ser armazenado de forma diferente em diferentes tabelas de dados ou documentos. Aqui, os dados são inconsistentes. Se os dados não estiverem limpos, os resultados da mineração de dados não seriam confiáveis nem precisos.

A limpeza de dados envolve uma série de técnicas, incluindo o preenchimento manual dos valores em falta, inspeção combinada do computador e humana, etc. A saída do processo de limpeza de dados é adequadamente limpa.

b) Integração de dados

A integração de dados é o processo onde dados de diferentes fontes de dados são integrados em uma só. Os dados estão em diferentes formatos em diferentes locais. Os dados podem ser armazenados em bancos de dados, arquivos de texto, planilhas, documentos, cubos de dados, Internet e assim por diante. A integração de dados é uma tarefa realmente complexa e complicada porque os dados de diferentes fontes não combinam normalmente. Suponha que uma tabela A contenha uma entidade chamada customer_id onde como outra tabela B contenha um número de entidade chamado. É realmente difícil garantir que essas duas entidades se refiram ao mesmo valor ou não. Os metadados podem ser usados efetivamente para reduzir erros no processo de integração de dados. Outro problema enfrentado é a redundância de dados. Os mesmos dados podem estar disponíveis em tabelas diferentes na mesma base de dados ou mesmo em fontes de dados diferentes. A integração de dados tenta reduzir a redundância ao máximo possível sem afetar a confiabilidade dos dados.

c) Seleção de dados

Processo de mineração de dados requer grandes volumes de dados históricos para análise. Assim, geralmente o repositório de dados com dados integrados contém muito mais dados do que os realmente necessários. A partir dos dados disponíveis, os dados de interesse precisam ser selecionados e armazenados. A seleção de dados é o processo onde os dados relevantes para a análise são recuperados do banco de dados.

d) Transformação de dados

A transformação de dados é o processo de transformar e consolidar os dados em diferentes formas que são adequadas para mineração. A transformação de dados normalmente envolve a normalização, agregação, generalização, etc. Por exemplo, um conjunto de dados disponível como “-5, 37, 100, 89, 78” pode ser transformado como “-0,05, 0,37, 1,00, 0,89, 0,78”. Aqui os dados se tornam mais adequados para a mineração de dados. Após a integração dos dados, os dados disponíveis estão prontos para a data mining.

e) Data Mining

Data mining é o processo central onde um número de métodos complexos e inteligentes são aplicados para extrair padrões dos dados. O processo de mineração de dados inclui uma série de tarefas como associação, classificação, previsão, agrupamento, análise de séries temporais e assim por diante.

f) Avaliação de padrões

A avaliação de padrões identifica os padrões verdadeiramente interessantes representando o conhecimento com base em diferentes tipos de medidas de interesse. Um padrão é considerado interessante se for potencialmente útil, facilmente compreensível pelos humanos, valida alguma hipótese que alguém queira confirmar ou validar em novos dados com algum grau de certeza.

g) Representação do Conhecimento

A informação extraída dos dados precisa ser apresentada ao usuário de uma forma apelativa. Diferentes técnicas de representação e visualização do conhecimento são aplicadas para fornecer o resultado da mineração de dados para os usuários.

Resumo

Os métodos de preparação de dados juntamente com as tarefas de mineração de dados completam o processo de mineração de dados como tal. O processo de mineração de dados não é tão simples como explicamos. Cada processo de mineração de dados enfrenta uma série de desafios e problemas no cenário real e extrai informações potencialmente úteis.

Deixe uma resposta

O seu endereço de email não será publicado.