形態素解析手法による文の類音変換

読みの似た「類音」に変換してみたい文章を、必ず全部「平仮名」で入力してください。
文字数は制限ありませんが、10文字以内の方が成功率は高いです。
システムの持つデータベースで対応できない場合は、変換に失敗しますので、別の文字列で試してみてください。
市販の「ことわざ辞典」に収録されていることわざの例で試したところ、変換成功率は約30%でした。
文字列は平仮名で書かれたものなら、固有名詞その他、どんな内容でも構いません。
(入力文字列によっては、処理に時間がかかる場合があります。)



入力文字列:



変換結果:

変換失敗 or これから入力してスタート。


コンピュータによる言葉や文章の生成

このシステムの説明

「形態素解析手法と通俗的単語群に基づく類音文変換システム」(金久保)として、情報処理学会論文誌,Vol.54, No.7, pp.1937-1950,(2013.7).に掲載された。概要は以下の通り。

ひらがな文が入力されると、先頭からN文字が切り出され、それを読みに持つ単語が選択される。その次の読みの先頭からまたN文字が切り出され、それを読みに持つ単語が接続される。
但し、接続は文法的にあり得る接続規則に従い、該当する単語に絞られる。
また、ひらがなN文字を切り出す際、入力そのものに加え、類音に置き換えたひらがなN(±1)文字も生成され、それらの読みを持つ単語も同時に探索される。
これらの過程で、N=1~4を全て試みる。また、其々の切り出されたひらがな文字列に対し、類音も複数生成される。また、同じ読みに対し該当する単語も複数選択され得る。
つまり、接続を繰り返すたびに、単語列の組み合わせは増加するが、それらを全て探索する。

このシステムは、以下のような単語切り位置の違いによる、意外な変換結果を作る可能性がある。

「単語切り位置」の違いの他、論文では「音の一致度」「印象的な単語をいくつ含むか」も其々点数化し、多くの生成結果から得点の高いものをフィルタリングする効果も検証している。
類音変換は、同母音(たすき→たぬき)、同行音(そふと→しふと)、音引きの変換(あいすくりーむ→あいすくりいむ)、省略・挿入(い、う、ん、っ等の省略・挿入)、母音の二重化(です→どえす)、濁音化(か→が)半濁音化(は→ぱ)、同音削除(かか→か)、同音挿入(か→かか)、等を採用している。
単語接続規則は、以下のようなものに大幅に限定し、単語の結びつきによる違和感を抑制するようにしている。

本システムでは名詞(体言)を以下のものに限定し、それを「基本体言」と呼んでいる。
「人間の呼称(性別を示すもの)」「衣服」「動物(哺乳類)」「食物」「贅沢品」「玩具」の六種類で、比較的、ユーモラスな印象を惹起しやすいカテゴリーである(ベルグソン「笑い」等を参考にした)。
国立国語研究所基本語彙、Wikipedia等から、これらカテゴリーに該当する2671語を収集し、京都大学の格フレームデータから、これと共起頻度の高い用言721語、副詞445語を追加する等している。「文頭語」は「おっ」「あ、」等の印象を強める語群である。
市販の辞典から1563の慣用句について、ひらがなとして入力したところ、476(約30.5%)について文末までの類音変換が行われた。
様々な印象評価に於いても、人間が作成した類音変換(押っ取り刀で来る→夫にガタが来る、等)と同等の意外性、ユーモア等の評価を得た出力結果もある。
以下が、本システムの出力結果の一例である。

システムが自動的に選出した例

システムが生成した中から人間が選出した例