¿Qué es un bigrama y un trigrama (explicación simple, por favor)?


Mejor respuesta

La gente lee textos. Los textos constan de frases y también las frases constan de palabras. Los seres humanos pueden comprender las estructuras lingüísticas y sus significados fácilmente, pero las máquinas aún no tienen el éxito suficiente en la comprensión del lenguaje natural. Entonces, tratamos de enseñar algunos idiomas a las máquinas como lo hacemos con un niño de escuela primaria. Este es el concepto principal; las palabras son elementos básicos y significativos con la capacidad de representar un significado diferente cuando están en una oración. En este punto, tenemos en cuenta que a veces los grupos de palabras brindan más beneficios que una sola palabra al explicar el significado. Aquí está nuestra oración « Leí un libro sobre la historia de Estados Unidos. » La máquina quiere obtener el significado de la oración separándola en pequeños pedazos. ¿Cómo debería hacer eso? 1. Puede considerar las palabras una por una. Esto es unigram ; cada palabra es un gramo. «Yo», «leí», «un», «libro», «acerca de», «la», «historia», «de», «América» ​​2. Puede considerar palabras de dos en dos. Esto es bigram ( digram ); cada dos palabras adyacentes crean un bigrama. «Leí», «leí un», «un libro», «un libro sobre», «sobre el», «la historia», «la historia de», «de América» ​​3. Puede considerar palabras de tres en tres. Este es trigram ; cada tres palabras adyacentes crean un trigrama. «Leí un», «leí un libro», «un libro sobre», «un libro sobre», «sobre la historia», «la historia de», «la historia de América» ​​

Respuesta

Tal vez su pregunta sea más algo como «¿qué es un bigrama / trigrama» y por qué lo necesitaría?

Si es así, aquí está mi respuesta: La idea es hacer (estadístico ) predicciones sobre lo que está sucediendo en una oración. Las cosas que suceden podrían ser que una palabra en particular aparezca a continuación, o que un elemento que pertenezca a una clase de palabras en particular aparezca a continuación (como: Realmente estoy esperando un verbo después de «El tipo dijo que tenía …». Se espera que su predicción sea mejor si tiene en cuenta todo, desde el inicio * el * hasta * tuvo *, lo que formaría un 7 gramos (seis predictores y el séptimo para predecir). El problema es que los datos se vuelven demasiado escasos para hacer predicciones basadas en n + 1 gramos, cuando n es un número mayor que… 2 (o quizás 4). El ejemplo anterior era un 6 + 1 gramo. Por lo tanto, la gente trabaja con aproximaciones como bigramas (1 + 1 gramos ) y trigramas (2 + 1-gramos). Un bigrama hace una predicción de una palabra basada en la anterior, y un trigrama hace una predicción de la palabra basada en las dos palabras anteriores.

Bueno , de hecho, no hay aplicaciones reales para los bigramas (si mal no recuerdo), pero los trigramas funcionan bien. Un unigrama solo consta de la palabra, y la única ganancia que obtendría de un unigrama w O podría ser que tenga la frecuencia de la palabra como predictor, en lugar de permitir que todo absoluto ocurra con una distribución igual. (Para Englisch, los unigramas le dan algo como «la palabra más probable es siempre» el «; el bigrama le da algo como» tener «no es realmente tan probable después de» el «, y un trigrama le da» manzana «es bastante posible después de «el podrido».

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *