バイグラムとトリグラムとは何ですか(素人の説明をお願いします)?


ベストアンサー

人々はテキストを読みます。テキストは文で構成され、文も単語で構成されます。人間は言語構造とその意味を簡単に理解できますが、機械はまだ自然言語理解では十分に成功していません。ですから、小学生のように機械にいくつかの言語を教えようとしています。これが主要な概念です。単語は基本的で意味のある要素であり、文の中にあるときに異なる意味を表すことができます。この時点で、意味を説明するときに、単語グループが1つの単語だけよりも多くの利点を提供する場合があることに注意してください。これが私たちの文章です「アメリカの歴史についての本を読みました。」機械は文章を細かく分割して意味を理解したいと考えています。それはどのようにすべきですか? 1.単語を1つずつ見ることができます。これは ユニグラム です。各単語はグラムです。 「私」、「読む」、「a」、「本」、「約」、「the」、「history」、「of」、「America」2。単語を2つずつ見ることができます。これは バイグラム ダイグラム);隣接する2つの単語ごとにバイグラムが作成されます。 「読んだ」、「読んだ」、「本」、「本について」、「について」、「歴史」、「歴史」、「アメリカの」3.一度に3つの単語を見ることができます。これは トリグラム です。 隣接する3つの単語ごとに、トリグラムが作成されます。 「私は読んだ」、「本を読んだ」、「本について」、「についての本」、「歴史について」、「の歴史」、「アメリカの歴史」

回答

おそらくあなたの質問は「バイグラム/トリグラムとは何か」のようなもので、なぜそれが必要なのですか?

はいの場合、ここに私の答えがあります:アイデアは(統計的)文の中で何が起こっているかについての予測。発生する可能性があるのは、特定の単語が次に表示されること、または特定の単語クラスに属する要素が次に表示されることです(たとえば、「男が…」の後に動詞を期待しています。したがって、理想的には、開始* the *から* had *までのすべてを考慮に入れると、予測が改善されると予想されます。これにより、7グラム(6つの予測子と7番目の予測子)が形成されます。問題は、データがまばらになりすぎることです。 nが…2(またはおそらく4)より大きい数の場合、n + 1グラムに基づいて予測を行うため!上記の例は6 + 1グラムでした。したがって、人々はバイグラム(1 + 1グラム)のような近似で作業します。 )とトリグラム(2 + 1グラム)。バイグラムは前の単語に基づいて単語を予測し、トリグラムはその前の2つの単語に基づいて単語を予測します。

、実際には、バイグラムの実際のアプリケーションはありませんが(私が覚えている場合)、トライグラムは正常に機能します。ユニグラムは単語だけで構成され、ユニグラムから得られる唯一の利益w絶対的なすべてが等しい分布で発生することを許可するのではなく、予測子として単語の頻度を持っている可能性があります。 (英語の場合、ユニグラムは「最も可能性の高い単語は常に「the」です。バイグラムは「have」のようなものを提供しますが、「the」の後にはそれほど可能性がありません。トリグラムは「apple」を提供します。 「腐った」後。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です