パターン情報処理

トップページ研究分野と周辺

情報は大きく「シンボル情報」と「パターン情報」に分類出来るとされ、従ってパターン情報処理は非常に幅広い概念と言える。
ニューラルネットワークでも、パターン識別(誤差逆伝播法等)やパターン分類(自己組織化特徴マップ等)を行い、データマイニング等もパターン情報処理になる場合も多い。
シンボル情報は記号(文字や数字、マーク等)で、表層の情報の裏に「意味情報」を持つ。パターン情報は形状、分布等、表層の情報自体を指している。
従って、シンボル情報は全てパターン情報でもある。「入」という漢字はシンボル情報として見れば「入る」等の意味を持ち、パターン情報として見れば、ギリシャ文字のラムダ(λ)に似ている。
或いは、「一字は二字である」「二文字は三文字である」といったパラドックス的な表現は、両者の関係を端的に説明している。「一字」はシンボル情報として見れば「一つの文字」の意味で、パターン情報として見れば二つの漢字から成っている。
代表的なパターン情報処理としては、分類(クラスタリング)、識別(認識:或るパターンを或るクラスに割り当てる)が大きなウエイトを占める。
他に、前段階としての観測、前処理(圧縮、特徴抽出等を含む)等があり、合成・生成、表示等も含まれる。受容感覚別に画像処理(文字認識を含む)、音声処理等の分類もされる。

ハフマン符号化

算術符号化

k-means(k-平均)法(非階層的クラスタリング)

予め分類後のグループの数を決めて行なうクラスタリング(非階層的クラスタリング等と呼ばれる)の代表的な方法である。基本的なアルゴリズムは、以下のように非常に単純だ。
1.n個のデータをk個のグループに分類する場合、分類したいデータとは別のk個の「代表データ」をランダムな位置に配置する。後は、以下を繰返し行なう。
2.各データは、そのデータと最も近い代表データのグループに所属するものとして分類される(3.の代表データの移動により、所属グループが変わるデータもある)。
3.2.の分類で得られたグループ毎の平均データの位置に、代表データを移動する。
4.2~3の過程を繰返し、グループを変わるデータが無くなったら、分類完成(変わるデータが無ければ平均値も同じなので、代表データの移動が無くなったという条件でもよい)。
ここで「位置」は扱うデータにもよるが、ここでは簡単に2次元の座標であるとする。n個のデータがx座標、y座標を持つとする。
以下の例は、クラスター(グループ)数が3、データ数は計10個となる。四角が代表データで、丸がデータで所属するグループの代表データど同系統の色としている。

最初は、上記のような配置になった。

次は、例えば青の代表データが移動したら、右上の緑だったデータが青に変わっている。また、赤と緑の代表データの移動に伴って、緑だったデータが赤に変わっている。

次に、代表データが真ん中に移動した。今回は、所属が変わるデータが無く、分類はこれで終了した。

階層的クラスタリング

階層的クラスタリングの最も基本的な手順は、以下のようになる。
1.分類したいデータをまず一つずつ別のグループとする。
2.或る法則(ここでは距離が近いとする)によって、一番その法則に合致する(距離が近い)二つのグループを一つのグループとする。
3.合併したグループは、その重心を求める等の方法で、別のグループや単体データとの距離等を測れるようにしておく。
4.2~3の過程を繰返し、全体が一つのグループになったら終了する。
全体を一つにしたのでは、クラスタリングの意味が無いと思えるが、この過程でデンドログラムという束ね方の履歴を示す樹形図が出来る。
この樹形図を任意の高さで切る事により、任意の数のグループに分類する事が可能となる。

図は、データが4つで、最初のデータ間の距離は直線距離(ユークリッド距離)とした。合併後のグループの位置はその重心とした。
最初は1と3が最も近いのでこれを束ね、次に出来たグループ1_3の重心と一番近い4と合併させる。其の後、1_3_4のグループと2が合併して終了する。
このとき、以下のようなデンドログラムが出来ている(束ねた順番を示す。データの番号は束ねた順に入換えた)。

全体を二つのグループに分けたい場合は、赤い線で切ればよい。三つにしたい場合は青い線と、任意の数に分割する事が出来る。
なお、ここでは合併グループが一つずつ取り込む形になったが、単体同士を束ねる二つのグループ等が先にいくつか出来て行く場合もある。
相当大きなグループが出来た後に、残っていた単体同士が束ねられる場合もある。
グループの重心と、単体の位置は平等に計算され、その時の一番近いもの同士が束ねられていく。

仮に、左図のように1と3が束ねられた後に、2と4が束ねられる場合、デンドログラムでは束ねられた順番に従って高さに差を付けておく。
こうする事で、任意の数での適切なグループ分けを可能としている。

クラスター間の距離