機械処理の日本語文法

トップページ研究分野と周辺自然言語(日本語)処理

国文法の詳細は、国語学者によって見解の分かれる所もあるが、ここでは自然言語処理で一般的に用いられている日本語文法(中学校レベル)をまとめておく。

日本語の品詞分類

まず、品詞として以下の十種類を用いるのが、一般的である。単語データベースでは必須の情報となる。

自立語は単独でも句(単語のまとまり)を構成し得るが、付属語は自立語と結びつかないと句にはならない。
ここでは接続先や意味の違いによって語形変化(活用)を起こす語を「活用語」、語形変化を起こさない語を「不活語」と呼んでいる。
動詞、形容詞、形容動詞は、活用を起こすので用言と呼ばれる。形容詞と形容動詞は活用の在り方が違うが、機能は似ている。コンピュータ処理では、形容詞をイ形容詞、形容動詞をナ形容詞と呼ぶ(形容動詞、という言葉は使わない)事も多い。
名詞は主語(主体)に成り得るもので、体言と呼ばれる。
副詞は用言を修飾する語、連体詞は体言を修飾するが、形容詞や形容動詞と違って、活用しない語である(あらゆる、この等)。
接続詞は「そして」等、感動詞は「ああ!、やれやれ」等である。
助動詞は例えば、「笑わ・れる」の「れる(受身を示す」の部分で、活用する。助詞は「て、に、を、は」等となる。

用言の六活用形

現代の日本語(文語ではない口語)の活用形としては、国語の時間に習った通り、以下の六種類がコンピュータ処理でも使われる。
データとしては語幹を登録し、語尾は活用のタイプ(五段活用、上一段活用等)の違いによって、予め行ごとの活用形を配列データ等に入れ、適宜、接続する事になる。

右側に「書く」を例に挙げてある。未然形は他に「書こ+う(意志の助動詞に連続する場合)」もある。
連用形は他に、「書い+た(過去・完了の助動詞に連続する場合)」もある。また連用形は、そこで切って名詞化する場合もある(「笑う事」を「笑い」等)。
活用のタイプにもよるが、多くの動詞で終止形と連体形、仮定形と命令形が同じである。これは一つのデータとして纏めておく方がデータベースのビット数が小さくて済む。
活用形によって、連続可能な品詞が限定されるので、これは形態素解析等の連接可能規則として用いる事が出来る。

語幹、語尾、接辞

活用する語の、変化しない部分を活用語幹、変化する部分を活用語尾という(上記の例では「書」が活用語幹、「か」「き」「く」「け」が活用語尾)。
また、「暖かさ」のように、或る語の語幹+別の語で、一つの語を作る場合がある。その語幹を派生語幹、付く別の語を接尾辞と呼ぶ事もある(助動詞と接尾辞の区別は曖昧との指摘もある)。

動詞の活用のタイプ

動詞の活用には、語尾の変化パターンに以下のようなタイプがあり、具体的な単語毎に異なる。単語データベースには、その動詞の活用のタイプを記録する。
ここで「ア・イ・ウ・エ・オ」はア行で代表させた記述で、動詞毎に対応する行に読み替える(書く(五段活用)であれば、其々「か・き・く・け・こ」となる)。
単語データとして例えば「終止形」のみ登録し、活用のタイプを登録しておけば、以下の法則によって活用形を自動生成する事が出来る。

五段活用の未然形は、意志・推量の助動詞「う」に接続する場合に「オ」、それ以外は「ア」となる。
五段活用の連用形には上記の表には無い例外もある。過去・完了の「た」、接続の「て」等に繋ぐ場合で、「い」(書いた、等)、「っ」(立った、等)、「ん」(読んだ、等)等になる。
データベースではこれら例外は、動詞毎に登録するか、法則性を捜して(語幹の行により或る程度、グループ化出来る)プログラム化する。
また、「ん」の場合は、接続する「た」「て」が、「だ」「で」と濁る。
上一段活用は、例えば「着る」であれば、「着(き)」が上記の語形変化の対象となり、語尾となる(語幹が無い、等と説明され、活用表には(着)と括弧付きで示される)。
上一段活用でも「起きる」の例では、「起(お)」の部分が活用語幹となる。
下一段活用も、「得る」のように全体が語尾になってしまう場合と、「見える」のように語幹「見(み)」がある場合に分かれる。
カ行変格活用は「来る」の一語、サ行変格活用は「する」と、「勉強する」のように「名詞等+する」の複合動詞の語尾変化である。
名詞データベースでは、「する」が付き得る名詞に「サ変名詞」というラベルを貼る場合が多い。

形容詞・形容動詞の活用のタイプ

「白い」「楽しい」のように終止形の語尾が「い」なのが形容詞、「綺麗だ」のように「だ」で終わるのが形容動詞。
語尾の活用は表のように単純で、配列データは動詞に比べると格段に少なくて済む。

命令形は無いとされる。連用形は付き先により、違いがある。形容詞は例えば過去の「た」に付く場合が「かっ」、否定の「ない」に付く場合が「く」になる。
表の例外として、助動詞「そうだ」に付く場合は、直接語幹で接続する(楽し+そうだ)場合もある。
また、後ろに否定の「ない」が付く場合、動詞は未然形だったが、形容詞・形容動詞は連用形になる(間違いやすい)。
形容動詞の連用形は、例えば過去の「た」に付く場合が「だっ」、否定の「ない」に付く場合が「で」、動詞の「なる」に付く場合が「に」になる(静かになる、等)。
形容動詞の語幹は「健康」のように、名詞として使われるものも多い。

助動詞の意味・活用・接続(主要なもの)

用言(主に)に接続する助動詞に関するデータベースは比較的、煩雑になる。意味については、代表的とされる範囲を挙げた。
助動詞自身も活用し、さらに別の助動詞に接続して複合助動詞を作る場合も多い。
また、助動詞は左側に接続する用言の活用形にも(例外もあるが)かなりの法則性がある。
表で○は、その活用形が存在しない場合を指す(活用表では×でなく、○を使うのが一般的で、どの資料でもそうなっている)。
表に挙げた助動詞の他に、丁寧な表現を示す「ます」「です」もある。

命令形は動詞を補完する「れる・られる」「せる・させる」しかない。これらの助動詞は(主に)動詞未然形に接続する(「自発」は「思い出される」のように自然発生的な動作を示す)。
過去・完了の「た・だ」は、用言や他の助動詞の連用形に接続するが、動詞の連用形が「ん」になる動詞に付くときに「だ」となる。
断定の「だ」は、体言(愉快・だ)と助詞(楽しい・から・だ)に接続する。「だ」は形容動詞の活用形、過去・完了の助動詞の濁った場合と三種類がある。
否定の「ない」は未然形・連用形に接続する。否定としては「ない」の他に「ぬ」もあるが、意味的には「ない」と同じである。
推定の「らしい」は用言と助動詞の終止形の他、名詞(ここは静岡らしい)や形容動詞の語幹(ここは賑やからしい)、助詞(ここまでらしい)にも接続する事がある。
「そうだ」は様態(物の様子)を示す場合は動詞連用形(晴れそうだ)、形容詞の語幹(寒そうだ)と形容動詞の語幹(健康そうだ)に接続する。伝聞を示す場合は終止形に接続する(晴れるそうだ、寒いそうだ、健康だそうだ)。
比喩・例示・推定の「ようだ」は、用言と助動詞の連体形の他、格助詞「の」(真夏のようだ)に接続する。
推量・意志・勧誘の「う(よう)」は、用言と助動詞の未然形に接続する。推量の意味で用いる例は、「安かろ・う」等が挙げられる。
打消し推量・打消し意志の「まい」も、用言と助動詞の未然形(させ・まい)に接続する。打消し意志の場合は、用言終止形に接続(やる・まい)する場合もある。
自分の希望を示すのが「たい」、他人の希望を示すのが「たがる」。動詞連用形と受身・使役助動詞の連用形等に接続する。
これらの接続規則は、形態素解析等でも重要である。以上は、単語データベース等で共通して使われている基本的な範囲の法則となる。
接続の例外、活用の例外、さらに細かい微妙な意味の違い等も考えられ、必要に応じて、信頼出来る国語辞典や国文法の教科書から追加していく事になる。

助詞の分類と代表的な意味

助詞は、格助詞・接続助詞・副助詞・終助詞等に大別されるが、名詞的概念の動詞的概念に対する関係(格関係)の決定に関与する(格助詞)等、構文解析・意味解析に於いて非常に重要な役割を果たしている。
ドイツ語のようにder,des,dem,den等で格を明示する言語と違い、日本語では助詞で格を示すが、格は様々な定義や分類、呼び名が存在する。
機械による自然言語処理では、特に細かいニュアンスを省略して大意を扱う場合も多く、珍しい用法や細かい意味の違いは省略せざるを得ない場合もある。
また、一つの助詞が多数の意味で使われる事も多く、表に挙げたのはあくまで最も代表的なものである。
ここで、「対格」は(英文法等で)直接目的と呼ばれるもの、「与格」は間接目的と呼ばれるものに相当している。
「具格」は名詞が道具である事を示す。「所格」は場所、「出格」は起点、「到格」は終点等を示す。
格助詞とは別に、名詞と名詞の間に挟まったり、右に用言がある場合でも、格ではなく左の名詞を修飾する意味の助詞(副助詞)もある(真ん中の欄)。
さらに、左右の接続関係を示す助詞(接続助詞)、文の最後に付き動詞を補足する助詞(終助詞)もある(右の欄)。

表には各助詞の代表的な意味しか載せていないが、非常に幅広い意味を持つ助詞も多い。
例えば、格助詞「が」は、主格の他に対象(肉が嫌い)を示す場合もある。対格を示す「を」は、所格(道を歩く)にも、出格(家を出る)にも使われる。
「に」に至っては、与格と所格の他に、到格(家に付く)、方向(東に行く)、方向性のある対象(勉強に熱中する)、時点(江戸時代に存在した)、変化の結果(病気になる)、受身の対象(泥棒に入られる)等もあり、細かい意味の違いも考慮すると20程度の意味を持つと言われる。
助詞の種類も表に挙げたものの他に、女性が用いる助詞(~わ、~よ)等の他、まだ幾つかの種類がある。
単語データベースを作る際には、国語辞典又は信頼出来る国文法の教科書から、左右の接続規則、意味等を登録する。