Meilleure réponse
Les gens lisent des textes. Les textes se composent de phrases et également des phrases composées de mots. Les êtres humains peuvent facilement comprendre les structures linguistiques et leurs significations, mais les machines ne réussissent pas encore assez bien dans la compréhension du langage naturel. Donc, nous essayons denseigner certaines langues à des machines comme nous le faisons pour un enfant du primaire. Cest le concept principal; les mots sont des éléments basiques et significatifs capables de représenter une signification différente lorsquils sont dans une phrase. À ce stade, nous gardons à lesprit que parfois les groupes de mots offrent plus davantages quun seul mot pour expliquer la signification. Voici notre phrase « Jai lu un livre sur lhistoire de lAmérique. » La machine veut comprendre le sens de la phrase en la séparant en petits morceaux. Comment devrait-il faire ça? 1. Il peut considérer les mots un par un. Cest unigramme ; chaque mot est un gramme. « I », « read », « a », « book », « about », « the », « history », « of », « America » 2. Il peut considérer les mots deux à la fois. Il sagit du bigramme ( digram ); chaque deux mots adjacents créent un bigramme. « Jai lu », « lu un », « un livre », « un livre sur », « sur le », « lhistoire », « lhistoire de », « de lAmérique » 3. Il peut considérer les mots trois à la fois. Il sagit du trigramme ; chacun des trois mots adjacents crée un trigramme. « Jai lu un », « lire un livre », « un livre sur », « un livre sur », « sur lhistoire », « lhistoire de », « lhistoire de lAmérique »
Réponse
Peut-être que votre question est plus quelque chose comme « quest-ce quun bigramme / trigramme » et pourquoi en aurais-je besoin?
Si oui, voici ma réponse: lidée est de faire (statistique ) prédictions sur ce qui se passe dans une phrase. Il se peut quun mot particulier apparaisse ensuite ou quun élément appartenant à une classe de mots particulière apparaisse ensuite (comme: je mattends vraiment à un verbe après « Le gars a dit quil avait… ». Donc, idéalement, on sattend à ce que votre prédiction soit meilleure si vous prenez en compte tout depuis le début * le * jusquau * had *, ce qui formerait un 7 grammes (six prédicteurs et le septième à prédire). Le problème est que les données deviennent trop rares pour faire des prédictions basées sur n + 1-grammes, quand n est un nombre supérieur à… 2 (ou peut-être 4)! Lexemple ci-dessus était un 6 + 1-gramme. Donc les gens travaillent avec des approximations comme les bigrammes (1 + 1-grammes ) et des trigrammes (2 + 1-grammes). Un bigramme fait une prédiction pour un mot basé sur celui qui précède, et un trigramme fait une prédiction pour le mot basé sur les deux mots précédents.
Eh bien , en fait, il ny a pas de vraies applications pour les bigrammes (si je me souviens bien), mais les trigrammes fonctionnent bien. Un unigramme se compose simplement du mot, et le seul gain que vous auriez dun unigramme w Il se pourrait que vous ayez la fréquence du mot comme prédicteur, au lieu de permettre à tout absolu de se produire avec une distribution égale. (Pour langlais, les unigrammes vous donnent quelque chose comme « le mot le plus probable est toujours » le « ; le bigramme vous donne quelque chose comme » avoir « nest pas vraiment si probable après » le « , et un trigramme vous donne » pomme « est tout à fait possible après « le pourri ».