O que é um bigrama e um trigrama (explicação leiga, por favor)?


Melhor resposta

As pessoas leem textos. Os textos consistem em frases e também frases consistem em palavras. Os seres humanos podem compreender as estruturas linguísticas e seus significados facilmente, mas as máquinas ainda não são bem-sucedidas o suficiente na compreensão da linguagem natural. Então, tentamos ensinar algumas línguas para as máquinas, como fazemos para um garoto do ensino fundamental. Este é o conceito principal; as palavras são elementos básicos e significativos com a capacidade de representar um significado diferente quando estão em uma frase. Nesse ponto, temos em mente que às vezes os grupos de palavras fornecem mais benefícios do que apenas uma palavra ao explicar o significado. Aqui está nossa frase “ Li um livro sobre a história da América. ” A máquina deseja obter o significado da frase separando-a em pequenos pedaços. Como deveria fazer isso? 1. Pode considerar as palavras uma por uma. Este é unigrama ; cada palavra é um grama. “I”, “read”, “a”, “book”, “about”, “the”, “history”, “of”, “America” ​​2. Pode referir-se a duas palavras de cada vez. Este é bigram ( digram ); cada duas palavras adjacentes criam um bigrama. “Eu li”, “li um”, “um livro”, “livro sobre”, “sobre o”, “a história”, “história da”, “da América” ​​3. Pode incluir três palavras de cada vez. Este é o trigrama ; cada três palavras adjacentes cria um trigrama. “Eu li um”, “li um livro”, “um livro sobre”, “livro sobre o”, “sobre a história”, “a história da”, “história da América” ​​

Resposta

Talvez a sua pergunta seja mais algo como “o que é um bigrama / trigrama” e por que eu precisaria dele?

Se sim, aqui está minha resposta: A ideia é fazer (estatística ) previsões sobre o que está acontecendo em uma frase. As coisas que podem acontecer podem ser que uma palavra específica apareça em seguida, ou que um elemento pertencente a uma classe de palavras específica apareça em seguida (como: Estou realmente esperando um verbo depois de “O cara disse que ele tinha …”. Então, o ideal é espera-se que sua previsão seja melhor se você levar em consideração tudo desde o início * o * até * * tinha *, o que formaria um 7 gramas (seis preditores e o sétimo para prever). O problema é que os dados ficam muito esparsos para fazer previsões com base em n + 1 gramas, quando n é um número maior que … 2 (ou talvez 4)! O exemplo acima foi 6 + 1 grama. Então, as pessoas trabalham com aproximações como bigramas (1 + 1 grama ) e trigramas (2 + 1 gramas). Um bigrama faz uma previsão para uma palavra com base na anterior e um trigrama faz uma previsão para a palavra com base nas duas palavras anteriores.

Bem , na verdade, não há aplicativos reais para bigramas (se bem me lembro), mas os trigramas funcionam bem. Um unigrama consiste apenas na palavra, e o único ganho que você teria com um unigrama w Pode ser que você tenha a frequência da palavra como um preditor, em vez de permitir que tudo absoluto ocorra com distribuição igual. (Para inglês, os unigramas fornecem algo como “a palavra mais provável é sempre” o “; o bigrama fornece algo como” ter “não é tão provável depois de” o “, e um trigrama fornece” maçã “é bem possível depois do “podre”.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *