18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

458 28. Der moderne Vortragsraum<br />

KLASSE-30 = { ASTHMA TUBERCULOSIS DIABETES POLIO PNEUMONIA<br />

DIARRHEA CHOLERA RAPHAEL ALCOHOLISM HEPATITIS MALARIA OBESITY<br />

MEASLES DEHYDRATION SCHIZOPHRENIA INGENUITY NAUSEA ADVIL<br />

MALNUTRITION ALLERGIES VALIUM UNTREATED MELANOMA HERPES<br />

ACETAMINOPHEN DYSENTERY ULCER SYPHILIS OSTEOPOROSIS COLDS<br />

LONGEVITY VOMITING PEROXIDE FLASHBACKS LIGGETT MENINGITIS ALS<br />

DIZZINESS TREMORS INFLUENZA SOYBEANS INDIGESTION DIPHTHERIA<br />

INSOMNIA NUMBNESS BULIMIA DEMENTIA LUPUS SIRHAN MENOPAUSAL<br />

AFFECTIONS PIMPLES MAIM MARKIE CHLAMYDIA POLYGAMY }<br />

Abb. 28.7. Beispiel für eine Wortklasse im Sprachmodell von [RS01]<br />

Sei v ein Wort das in das Sprachmodell eingefügt werden soll, und sei<br />

Φ(w) der Index der Klasse in die das Nicht-OOV-Wort w gehört. Für jede<br />

Klasse c ∈ Z wird Φv c (w) definiert als:<br />

Φ v ⎧<br />

⎨Φ(w)<br />

w ∈ V<br />

c(w) = c w = v<br />

⎩<br />

Φ(UNK) sonst<br />

(28.3)<br />

p(w|Φ v ⎧<br />

⎪⎨<br />

p(OOVc|c) · p(v|OOVc) w = v<br />

c (w)) =<br />

⎪⎩ #(w)<br />

#(Instanzen in c)<br />

w ∈ V<br />

(28.4)<br />

wobei<br />

p(OOVc|c) =<br />

und<br />

p(v|OOVc) =<br />

#(OOV-Instanzen in c)<br />

#(alle Instanzen in c)<br />

1<br />

#(verschiedene OOV Wörter in c)<br />

(28.5)<br />

(28.6)<br />

ist annähernd die Wahrscheinlichkeit dafür das Wort v unter den OOV-<br />

Wörtern in c ist, unter der Annahme daß alle Wörter darin gleichverteilt<br />

sind.<br />

Ĉv = argmax c∈Z<br />

wobei H = Φ v c(w1), . . . Φ v c(wj−1)<br />

<br />

j p(wj|Φ v c (wj)) · p(Φ v c (wj)|H)<br />

(28.7)<br />

Hier steht wj für das j-te Wort eines Textes der aus der Konkatenation<br />

aus dem Internet heruntergeladener Dokumente, die v enthalten, besteht<br />

Während in Gl. 28.7, H im allgemeinen die gesamte Historie des Wortes wj

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!