Wideskills

Introduction

データマイニングの全プロセスを一度に完了させることはできません。 言い換えれば、大量のデータから必要な情報を得ることは、そう簡単にはできないのです。 多くのプロセスを含む、私たちが考えているよりも非常に複雑なプロセスなのです。 データクリーニング、データ統合、データ選択、データ変換、データマイニング、パターン評価、知識表現などのプロセスは、所定の順序で完了する必要があります。

データマイニング・プロセスの種類

異なるデータマイニング・プロセスは、データ準備またはデータ前処理とデータマイニングという2種類に分類することができる。 実際、最初の 4 つのプロセス、つまり、データ クリーニング、データ統合、データ選択、およびデータ変換は、データ準備プロセスとして考慮されます。 1254>

a) データ洗浄

データ洗浄とは、データをきれいにするプロセスである。 実世界のデータは通常、不完全で、ノイズが多く、一貫性がありません。 データソースで利用可能なデータは、属性値や関心のあるデータなどが不足している可能性があります。 例えば、顧客の属性データが必要な場合、利用可能なデータに顧客の性別や年齢などの属性が含まれていなければどうだろうか。 その場合、当然ながらデータは不完全なものになります。 データにはエラーや異常値が含まれていることもある。 例えば、値200の年齢属性があるとします。 この場合、年齢の値が間違っていることは明らかです。 また、データに一貫性がない場合もあります。 例えば、ある従業員の名前が、異なるデータ・テーブルや文書で異なる形で保存されていることがあります。 ここでは、データに一貫性がない。 データがクリーンでない場合、データマイニングの結果は信頼性も正確性もありません。

データクリーニングには、欠落値を手動で埋める、コンピュータと人間の複合検査など、多くのテクニックが含まれます。 1254>

b) データ統合

データ統合は、異なるデータソースからのデータを1つに統合するプロセスである。 データはさまざまな場所に、さまざまな形式で存在する。 データは、データベース、テキストファイル、スプレッドシート、ドキュメント、データキューブ、インターネットなどに格納されている可能性があります。 データ統合は、異なるソースからのデータが正常に一致しないため、実に複雑で厄介な作業である。 テーブルAは別のテーブルBは番号という名前のエンティティが含まれているとして、customer_idという名前のエンティティが含まれているとします。 それは、これらの両方のエンティティが同じ値を参照するかどうかを確認することは本当に困難です。 メタデータは、データ統合プロセスにおけるエラーを削減するために効果的に使用することができます。 もう一つの問題は、データの冗長性である。 同じデータが同じデータベースの異なるテーブル、あるいは異なるデータソースで利用可能である場合がある。 データ統合は、データの信頼性に影響を与えることなく、冗長性を最大限に減らそうとするものである。 そのため、通常、データを統合したデータリポジトリには、実際に必要なデータよりもはるかに多くのデータが含まれている。 利用可能なデータから、関心のあるデータを選択し、保存する必要がある。

d) データ変換

データ変換とは、データを変換し、マイニングに適したさまざまな形に統合するプロセスである。 データ変換には通常、正規化、集計、一般化などが含まれる。 例えば、「-5, 37, 100, 89, 78」というデータセットを「-0.05, 0.37, 1.00, 0.89, 0.78」というように変換することができる。 こうすることで、よりデータマイニングに適したデータになる。 1254>

e) データマイニング

データマイニングは、データからパターンを抽出するために、多くの複雑で知的な方法を適用する中核となるプロセスである。 データマイニングプロセスには、関連付け、分類、予測、クラスタリング、時系列分析など、多くのタスクが含まれる。

f) パターン評価

パターン評価は、異なるタイプの面白さ尺度に基づいて、知識を表す本当に面白いパターンを特定するものである。 パターンは、潜在的に有用であり、人間が容易に理解でき、誰かが確認したいある仮説を検証し、あるいは新しいデータである程度確実に検証できる場合、興味深いものとみなされる。

g) 知識表現

データからマイニングされた情報は、魅力的な方法でユーザーに提示される必要がある。 さまざまな知識表現および視覚化技術が、データマイニングの出力をユーザーに提供するために適用されます。

概要

データマイニング作業とともにデータ準備方法が、データマイニングのプロセスをそのように完成させます。 データマイニングプロセスは、説明するほど単純なものではありません。 各データマイニングプロセスは、実生活のシナリオの中で多くの課題や問題に直面し、潜在的に有用な情報を抽出します。

コメントを残す

メールアドレスが公開されることはありません。