クラスター間の距離

トップページ研究分野と周辺パターン情報処理

クラスター分析では、最も近いペアから次第にグループが作られて行くが、既に複数の要素がクラスターを構成している場合(図の赤い円に相当)、クラスター同士の距離をどう測るかについて、複数の方法がある。

最短距離法は、二つのクラスターの要素の全ての組合せの中で、最も近いのをクラスター間の距離とする(図の青線を距離とする)。

最長距離法(最遠隣法)は、二つのクラスターの要素の全ての組合せの中で、最も遠いのをクラスター間の距離とする(図の青線を距離とする)。

重心法は、二つのクラスターの其々の重心同士の距離をクラスターの距離とする。

群平均法は、二つのクラスターの要素の全ての組合せの距離の平均を、二つのクラスター間の距離とする(以下の4つの線の長さの平均とする)。

Ward法は、まず、結合前の二つのクラスターの各要素と其々の重心までの距離を調べ、その自乗和(各距離を自乗したものの総和)を求める。
下図の場合、青丸をカテゴリーB、赤丸をカテゴリーRとすると、青線の自乗和をL(B)、赤線の自乗和をL(R)とする。次に、結合後の重心までの双方の全ての要素からの距離の自乗和を求める。
下図の場合、緑線の自乗和をL(B∨R)とする。L(B∨R)-L(B)-L(R)を、二つのクラスターの距離とする。