Skip to main content

相関クラスタリングとは何ですか?

corsellation Clusteringは、データベースやその他の大規模なデータソースで実行され、同様のデータセットをグループ化すると同時に、ユーザーに類似のデータセットを警告します。これはいくつかのグラフで完全に実行できますが、他のグラフは異なるデータと同様を区別することが困難であるため、エラーを経験します。後者の場合、相関クラスタリングはエラーを自動的に削減するのに役立ちます。これは、多くの場合、データマイニング、または類似点の扱いにくいデータを検索するために使用されます。異なるデータは一般に削除されるか、別のクラスターに配置されます。ユーザーは、プログラムに何を検索するか、そしてそれが見つかったときにデータをどこに配置するかを伝えます。これは通常、不可能になると非常に大きなデータソースに適用されます。または時間をかけすぎてmdash;データを手動で検索します。完璧なクラスタリングまたは不完全なクラスタリングのいずれかがあります。これは、データには2種類しかないことを意味し、1つはユーザーが探しているものであり、もう1つは不要です。すべての正または必要なデータは1つのクラスターに配置され、他のデータは削除または移動されます。このシナリオでは、混乱はなく、すべてが完全に機能します。たとえば、グラフには3つの変数があります:x、y、z、x、yは類似しています、x、zは類似していますが、y、zは類似しています。ただし、3つの可変クラスターは非常に似ているため、完全な相関クラスタリングを行うことは不可能です。このプログラムは、正の相関の数を最大化するために機能しますが、これにはユーザーからの手動での検索が必要になります。dataデータマイニングでは、特に大規模なデータセットを扱う場合、相関クラスタリングは同様のデータを同様のデータとグループ化するために使用されます。たとえば、ビジネスが大規模なWebサイトまたはデータベースのデータを採掘し、特定の側面についてのみ知りたい場合、その側面のすべてのデータを検索するには永遠に必要です。クラスタリング式を使用することにより、適切な分析のためにデータが確保されます。情報は他のプロジェクトに役立つ可能性があるため、ユーザーは異なるクラスターに異なるデータを送信することを選択できます。データが不要で、メモリを無駄にしているだけの場合、異なる情報が捨てられます。不完全なクラスタリングでは、ユーザーが探しているデータに非常に似ているため、いくつかの異なる情報が捨てられない可能性があります。