A legjobb válasz
Az emberek szövegeket olvasnak. A szövegek mondatokból, valamint mondatok szavakból állnak. Az emberek könnyen megérthetik a nyelvi struktúrákat és azok jelentését, de a gépek még nem elég sikeresek a természetes nyelv megértésében. Tehát megpróbálunk néhány nyelvet megtanítani olyan gépekre, mint egy általános iskolás gyerek számára. Ez a fő fogalom; a szavak alapvető, értelmes elemek, amelyek képesek eltérő jelentést képviselni, amikor egy mondatban vannak. Ekkor azt tartjuk szem előtt, hogy a jelentés magyarázata során néha a szócsoportok több előnnyel járnak, mint egy szó. Itt van a következő mondatunk: “ egy könyvet olvastam Amerika történetéről. ” A gép apró darabokra szétválasztva akarja megérteni a mondat értelmét. Hogyan kell ezt megtennie? 1. Egyesével képes figyelembe venni a szavakat. Ez unigram ; minden szó egy gramm. “Én”, “olvasni”, “a”, “könyv”, “róla”, “a”, “történelem”, “az”, “Amerikáról” 2. Egyszerre kettőt is képes figyelembe venni. Ez bigram ( digram ); mind a két szomszédos szó létrehoz egy bigramot. “Olvastam”, “olvastam”, “könyvet”, “könyvet róla”, “Amerikáról”, “történelméről”, “történelméről”, “Amerikáról”. 3. Egyszerre három szóra képes. Ez trigram ; mind a három szomszédos szó trigrammát hoz létre. “Olvastam”, “könyvet olvastam”, “egy könyvet”, “könyvet a”, “a történelemről”, “a történelemről”, “Amerika történetéről”
Válasz
Talán a kérdése inkább valami „mi a bigram / trigram”, és miért lenne szükségem rá?
Ha igen, itt a válaszom: Az ötlet az, hogy ) jóslatok arról, hogy mi történik egy mondatban. Előfordulhat, hogy egy adott szó jelenik meg legközelebb, vagy hogy egy adott szóosztályhoz tartozó elem jelenik meg legközelebb (például: nagyon várok egy igét a „A srác azt mondta, hogy van…” után. Ideális esetben jóslata várhatóan jobb lesz, ha mindent figyelembe vesz a kezdetektől a * * -ig * -ig *, ami 7 grammot képez (hat prediktort, a hetediket pedig megjósolja). A probléma az, hogy az adatok túl ritkák n + 1 gramm alapján történő előrejelzésekhez, amikor n nagyobb szám, mint… 2 (vagy talán 4)! A fenti példa 6 + 1 gramm volt. Tehát az emberek olyan közelítésekkel dolgoznak, mint a bigramok (1 + 1 gramm) ) és trigrammák (2 + 1 gramm). A bigram előrejelzést készít egy szóra az előző szó alapján, egy trigram pedig előrejelzést készít a szóra az azt megelőző két szó alapján.
Nos valójában nincsenek igazi alkalmazások a bigramokra (ha emlékszem), de a trigrammák jól működnek. Az unigram csak a szóból áll, és az egyetlen nyereséged egy unigram w Előfordulhat, hogy a szó gyakorisága prediktorként rendelkezik, ahelyett, hogy abszolút mindent egyenlő eloszlással történne. (Englisch esetében az unigrammák valami olyasmit adnak, hogy „a legvalószínűbb szó mindig a„ the ”; a bigram olyasmit ad, mint a„ have ”, valójában nem valószínű, hogy a„ the ”után, és egy trigram„ almát ”ad „az elkorhadt” után.