Sprachliche Mensch-Maschine-Kommunikation

Empfehlungen

Info

20.2 Erkennung beliebiger Namen 349 heraus, daß gerade das Falscherkennen oder Nichterkennen von Eigennamen zwar selten aber dafür umso ärgerlicher ist. Wenn gelegentlich der Kasus eines Artikels nicht richtig erkannt wird (dem statt den), so hat das meistens keine negativen Konsequenzen, der Satz kann immer noch richtig verstanden und übersetzt werden, die Reaktion des Gesamtsystems fällt immer noch zur Zufriedenheit des Benutzers aus. Wenn aber ein Eigenname (Person, Ort, Firma, Ereignis, etc.) falsch erkannt wird, ist ein korrektes Verstehen meist gar nicht möglich. Bei der Behandlung von unbekannten Wörtern gibt es zwei wesentliche Probleme zu lösen: Zum einen muß der Erkenner detektieren, daß an einer bestimmten Stelle ein unbekanntes Wort wahrscheinlich ist, und zum anderen muß er dann an dieser Stelle ein Wort hypothetisieren, das nicht in seinem Vokabular vorhanden ist. Die Detektion des Vorhandenseins eines Wortes außerhalb des Erkennervokabulars (OOV-Wort) kann auf unterschiedliche Art geschehen. In der Regel wird ein Detektor nicht nur eine binäre Entscheidung treffen, sondern eine bestimmte Wahrscheinlichkeit dafür schätzen, daß an einer Stelle der Hypothese ein OOV-Wort steht. Die naheliegendste Methode für solche Schätzungen ist die direkte Verwendung einer OOV-Sprachmodellklasse. Meist werden beim Berechnen von Sprachmodellen mit Hilfe großer Textkorpora selten beobachtete Wortfolgen als sogenanntes Discounting nicht explizit geschätzt. In vielen Fällen werden nicht nur ganze Wortfolgen, sondern sogar selten vorkommende Wörter – egal in welchem Kontext – überhaupt nicht modelliert. Wenn diese Wörter im Trainingstext für das Sprachmodell durch ein spezielles Wort, z.B. ” OOV“, ersetzt werden, und nicht in das Vokabular des Erkenners aufgenommen werden, dann berechnet das Sprachmodell die Wahrscheinlichkeit, daß OOV“ an einer bestimmten Stelle auftritt. Diese Wahrscheinlichkeit ” ist im Grunde schon relativ gut geschätzt, und weitere Informationsquellen scheinen nicht nötig zu sein, insbesondere wenn man bedenkt, daß bei vielen Erkennungsaufgaben die Wahrscheinlichkeit, ein OOV-Wort zu beobachten, sowieso ziemlich klein ist. Weitere Informationsquellen können aus dem akustischen Modell kommen. Typischerweise würde man erwarten, daß an einer Stelle der Hypothese, an der die Wahrscheinlichkeiten, die das akustische Modell für ein Wort liefert, wesentlich höher ist als die Wahrscheinlichkeiten für alle anderen Wörter, der Erkenner viel sicherer, d.h. konfidenter, ist als an einer Stelle, an der viele verschiedene Wörter eine Wahrscheinlichkeit ähnlich der besten Wahrscheinlichkeit haben. An solchen Stellen niedriger Konfidenz ist eher anzunehmen, daß ein OOV-Wort vorliegt, als an Stellen hoher Konfidenz.
350 20. Erkennung von Spezialvokabular Verschiedene Vorgehensweisen wurden untersucht, um nicht nur neue Wörter zu detektieren, sondern auch um eine sinnvolle Hypothese an ihrer Stelle auszugeben. In [?] wurde ein generisches Modell Verwendet, das durch ein großes HMM modelliert wurde, das alle Phoneme und eine gewisse Phonotaktik in Form bestimmter erlaubter Zustandsübergänge enthielt. Dieses Neue-Wörter-HMM wurde in der Suche genauso wie alle anderen Wörter verwendet und konkurrierte mit diesen. In vielen Fällen wurde das Neue-Wörter-HMM in die Hypothese eingebunden, wenn keines der Vokabularwörter eine ausreichend hohe Wahrscheinlichkeit hatte. Durch die relativ Große Freiheit in der Bildung von Phonemfolgen konnte in solchen Fällen die Wahrscheinlichkeit für irgend eine erlaubte Phonemfolge des Neue-Wörter-HMMs größer sein als die für jedes Vokabularwort (inklusive der entsprechenden Sprachmodellwahrscheinlichkeiten). Als Hypothese kann dann die Folge der Zustände durch das HMM angegeben werden, die dann zumindest die phonetische Repräsentation des Wortes Enthält, welche von einem geeigneten Algorithmus (zum Beispiel mittels HMMs [?]) in eine Textuelle Form gebracht werden kann. Für Diktiererkenner ist eine Vorgehensweise sinnvoll, wie sie zum Beispiel in der HDLA-Techik (s. Abs. 16.7.2) verwendet wird. Dort wird das Lexikon nach der ersten Erkennung verändert. Aus einem riesigen Hintergrundlexikon, das der Spracherkenner nicht verarbeiten könnte, das aber sehr viele Wörter und Eigennamen enthält, werden die erfolgversprechendsten Kandidaten anhand der zunächst fehlerhaften Hypothese ausgewählt und in das Erkennnervokabular aufgenommen. Ein erneuter zweiter Erkennungsvorgang hat dann eine größere Wahrscheinlichkeit, die korrekte Ausgabe zu liefern. Bei spontaner Sprache entsteht ein zusätzliches Problem, das bei Diktiererkenner weniger wichtig ist, nämlich das häufige Vorkommen von Wortfragmenten. Man kann nicht wirklich erwarten, daß ein Hintergrundlexikon nicht nur fast alle sinnvollen Wörter enthält und zusätzlich noch aller möglicherweise sprechbaren Wortfragmente. Daher wird in [?] ein Algorithmus vorgestellt, der einen endlichen Automaten aus einer Liste aller im Deutschen regulären Silben (ca. 11 000 Stück) baut, und dieses als Neue-Wörter-Modell verwendet. In [?] wird vor allem die Problematik der unbekannten Eigennamen behandelt, die sich oft nicht an die übliche Phonotaktik halten. Die dort verfolgte Idee besteht darin, keine ganzen Wörter durch HMMs mit hohen Freiheiten bei der Phonemfolgenwahl zu modellieren, sondern nur Teile davon. Die Anfänge der neuen Wörter müssen statt dessen mit einer Phonemsequenz aus einer aus den Trainingsdaten gewonnenen Menge beginnen. Dadurch werden dem Erkenner weniger Freiheiten gegeben und die Wahrscheinlichkeit für das Auftreten so genannter false alarms für
Seite 1:
Ivica Rogina Sprachliche Mensch-Mas
Seite 5 und 6:
Inhaltsverzeichnis Tabellenverzeich
Seite 7 und 8:
Inhaltsverzeichnis IX 8. Verarbeitu
Seite 9 und 10:
Inhaltsverzeichnis XI 16. Verwendun
Seite 11 und 12:
Inhaltsverzeichnis XIII 23. Versteh
Seite 13 und 14:
Tabellenverzeichnis 1.1 Eingabegesc
Seite 15 und 16:
Abbildungsverzeichnis 2.1 Wortfehle
Seite 17 und 18:
Abbildungsverzeichnis XIX 8.1 Signa
Seite 19 und 20:
Abbildungsverzeichnis XXI 13.1 Trai
Seite 21 und 22:
Abbildungsverzeichnis XXIII 18.1 Zu
Seite 23 und 24:
Abbildungsverzeichnis XXV 28.1 Vers
Seite 25 und 26:
2 1. Nutzen und Anwendungen 1.1 Vor
Seite 27 und 28:
4 1. Nutzen und Anwendungen 1.2 Anw
Seite 29 und 30:
6 1. Nutzen und Anwendungen plomarb
Seite 31 und 32:
8 1. Nutzen und Anwendungen Wo imme
Seite 33 und 34:
10 1. Nutzen und Anwendungen zugeor
Seite 35 und 36:
12 1. Nutzen und Anwendungen Sprach
Seite 37 und 38:
14 1. Nutzen und Anwendungen Sprach
Seite 39 und 40:
16 1. Nutzen und Anwendungen Mensch
Seite 41 und 42:
18 2. Eigenschaften und Taxonomie v
Seite 43 und 44:
Seite 45 und 46:
Seite 47 und 48:
Seite 49 und 50:
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58:
34 3. Geschichte eine abhörsichere
Seite 59 und 60:
36 3. Geschichte Fehler erkennen k
Seite 61 und 62:
38 3. Geschichte auch hier ca. 1000
Seite 64 und 65:
4. Anatomie Sprachproduktion und Pe
Seite 66 und 67:
4.1 Anatomie des Artikulationsappar
Seite 68 und 69:
Seite 70 und 71:
Seite 72 und 73:
Seite 74 und 75:
Seite 76 und 77:
4.2 Anatomie des Gehörs 53 Nasenra
Seite 78 und 79:
5. Akustische Grundlagen Zum Verst
Seite 80 und 81:
Quelle a x 2a Abb. 5.2. Schallenerg
Seite 82 und 83:
absolute Schalldruckpegel ist defin
Seite 84 und 85:
5.2 Messung der Schallintensität 6
Seite 86 und 87:
6. Phonetische Grundlagen Die Phone
Seite 88 und 89:
6.2 Die IPA Lautemenge 65 des zwanz
Seite 90 und 91:
6.3 Gruppierung von Phonemen 67 fü
Seite 92 und 93:
Abb. 6.2. Das Vokalviereck uÏ oÇ
Seite 94 und 95:
6.3 Gruppierung von Phonemen 71 In
Seite 96 und 97:
6.3.3 Artikulationsorte 6.3 Gruppie
Seite 98:
Lippenrundung 6.3 Gruppierung von P
Seite 101 und 102:
78 7. Grundlagen der Signalverarbei
Seite 103 und 104:
Seite 105 und 106:
Seite 107 und 108:
Seite 109 und 110:
Seite 111 und 112:
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
100 7. Grundlagen der Signalverarbe
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
106 8. Verarbeitung von Sprachsigna
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 150 und 151:
9. Klassifikation und Mustererkennu
Seite 152 und 153:
Transkript A/D Converter Parameters
Seite 154 und 155:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Seite 156 und 157:
9.1 Klassifikatoren 133 Beispiel au
Seite 158 und 159:
9.1 Klassifikatoren 135 den durchsc
Seite 160 und 161:
9.1 Klassifikatoren 137 Eine weiter
Seite 162 und 163:
B A A B C Abb. 9.8. Das Bucket-Voro
Seite 164 und 165:
K1 p(x|2) x K2 max p(2) . p(x|n) Kn
Seite 166 und 167:
9.1 Klassifikatoren 143 Hierbei ist
Seite 168 und 169:
Dabei wird γtk geschätzt als γtk
Seite 170 und 171:
9.3 Diskriminanzoptimierung 147 wob
Seite 172 und 173:
9.3 Diskriminanzoptimierung 149 im
Seite 174 und 175:
10. Erkennung statischer Sprachsign
Seite 176 und 177:
10.1 Zeitsignalbasierte Erkennung 1
Seite 178 und 179:
10.1 Zeitsignalbasierte Erkennung 1
Seite 180 und 181:
F2 [Hz] 4000 2000 1000 500 0 ÁÁÁ
Seite 182 und 183:
11. Erkennung dynamischer Sprachsig
Seite 184 und 185:
11.1 Minimale Editierdistanz 161 Ab
Seite 186 und 187:
11.2 Dynamisches Programmieren 163
Seite 188 und 189:
Seite 190 und 191:
Seite 192 und 193:
11.3 Spracherkennung mittels Dynami
Seite 194 und 195:
Seite 196 und 197:
Steigung 2 1/2 2 11.3 Spracherkennu
Seite 198:
Seite 201 und 202:
178 12. Hidden Markov Modelle Wenn
Seite 203 und 204:
180 12. Hidden Markov Modelle Mathe
Seite 205 und 206:
182 12. Hidden Markov Modelle linea
Seite 207 und 208:
184 12. Hidden Markov Modelle der E
Seite 209 und 210:
186 12. Hidden Markov Modelle 12.3
Seite 211 und 212:
188 12. Hidden Markov Modelle aus d
Seite 213 und 214:
190 12. Hidden Markov Modelle αt
Seite 215 und 216:
192 12. Hidden Markov Modelle Wiede
Seite 217 und 218:
194 12. Hidden Markov Modelle zt(j
Seite 219 und 220:
196 12. Hidden Markov Modelle γt(i
Seite 221 und 222:
198 12. Hidden Markov Modelle Für
Seite 223 und 224:
200 12. Hidden Markov Modelle 12.5.
Seite 225 und 226:
202 12. Hidden Markov Modelle Bakis
Seite 227 und 228:
204 12. Hidden Markov Modelle aller
Seite 229 und 230:
206 13. Das Trainieren von Spracher
Seite 231 und 232:
Seite 233 und 234:
Seite 235 und 236:
Seite 237 und 238:
Seite 239 und 240:
Seite 241 und 242:
Seite 243 und 244:
Seite 245 und 246:
Seite 247 und 248:
224 14. Das akustische Modell 14.2
Seite 249 und 250:
226 14. Das akustische Modell Da be
Seite 251 und 252:
228 14. Das akustische Modell Codeb
Seite 253 und 254:
230 14. Das akustische Modell Der g
Seite 255 und 256:
232 14. Das akustische Modell Signa
Seite 257 und 258:
234 14. Das akustische Modell Σ Σ
Seite 259 und 260:
236 14. Das akustische Modell 14.6
Seite 261 und 262:
238 14. Das akustische Modell akust
Seite 263 und 264:
240 14. Das akustische Modell mit V
Seite 265 und 266:
242 14. Das akustische Modell schei
Seite 267 und 268:
244 14. Das akustische Modell Verwe
Seite 269 und 270:
246 14. Das akustische Modell letzt
Seite 271 und 272:
248 15. Erkennung kontinuierlicher
Seite 273 und 274:
Seite 275 und 276:
Seite 277 und 278:
Seite 279 und 280:
Seite 281 und 282:
Seite 284 und 285:
16. Verwendung von Sprachmodellen I
Seite 286 und 287:
16.2 Wahrscheinlichkeiten von Wortf
Seite 288 und 289:
16.3 N-Gramme 265 also alle Histori
Seite 290 und 291:
16.4 Perplexität 267 Qualität des
Seite 292 und 293:
16.4 Perplexität 269 Gleichverteil
Seite 294 und 295:
wi 0.8 0.03 0.17 ” ein“ ” und
Seite 296 und 297:
16.5 Glättung und Interpolation 27
Seite 298 und 299:
16.6 Verschiedene weitere Sprachmod
Seite 300 und 301:
Seite 302 und 303:
Seite 304 und 305:
Seite 306 und 307:
tf(w, Di) = #w in Di |Di| 16.7 Adap
Seite 308 und 309:
16.7 Adaption von Sprachmodellen 28
Seite 310 und 311:
16.7 Adaption von Sprachmodellen 28
Seite 312 und 313:
17. Kontextabhängige akustische Mo
Seite 314 und 315:
als die der Silben. 17.1 Suche nach
Seite 316 und 317:
17.1 Suche nach der optimalen Sprac
Seite 318 und 319:
100000 Wortfolge Modelle 17.1 Suche
Seite 320 und 321:
17.2 Ballung von Kontexten 17.2 Bal
Seite 322 und 323: 17.2 Ballung von Kontexten 299 mit
Seite 324 und 325: 17.2 Ballung von Kontexten 301 Lee
Seite 326 und 327: 17.2 Ballung von Kontexten 303 korr
Seite 328 und 329: 17.2 Ballung von Kontexten 305 Ein
Seite 330 und 331: Anzahl der Fragen ✻ 2000 17.2 Bal
Seite 332 und 333: 17.2 Ballung von Kontexten 309 1. I
Seite 334 und 335: 17.2.6 Einbindung von Modalitätenf
Seite 336: 0000000 1111111 01 0000000 1111111
Seite 339 und 340: 316 18. Effiziente Decodierverfahre
Seite 352 und 353: 19. Parameterraumoptimierung Bei de
Seite 354 und 355: 19.2 Parameterkopplung 331 der Einf
Seite 356 und 357: 19.2 Parameterkopplung 333 Längenm
Seite 358 und 359: 19.3 Architekturentwurf 335 Als Kri
Seite 360 und 361: 19.4 Kompaktifizierung 337 bei der
Seite 362 und 363: 19.4.2 Vereinfachung von Kovarianzt
Seite 364 und 365: 19.4 Kompaktifizierung 341 die Gene
Seite 366 und 367: Tabelle 19.1. Fehlerraten bei Kovar
Seite 368 und 369: 20. Erkennung von Spezialvokabular
Seite 370 und 371: 20.1 Buchstabiererkennung 347 Netze
Seite 374: 20.2 Erkennung beliebiger Namen 351
Seite 377 und 378: 354 21. Robustheit und Adaption zu
Seite 379 und 380: 356 21. Robustheit und Adaption le
Seite 381 und 382: 358 21. Robustheit und Adaption tet
Seite 383 und 384: 360 21. Robustheit und Adaption Tra
Seite 385 und 386: 362 21. Robustheit und Adaption Ein
Seite 387 und 388: 364 21. Robustheit und Adaption Par
Seite 389 und 390: 366 21. Robustheit und Adaption 21.
Seite 391 und 392: 368 21. Robustheit und Adaption wir
Seite 394 und 395: 22. Künstliche Neuronale Netze Kü
Seite 396 und 397: p(x|A) 22.2 Architekturen 373 p(x|B
Seite 398 und 399: Jordan Elman 22.2 Architekturen 375
Seite 400 und 401: o1 . . . oj . . . vt1 . . . vti . .
Seite 402 und 403: 22.2 Architekturen 379 welchem Laut
Seite 404 und 405: g d b b d g Integration über die Z
Seite 406 und 407: Wn . . . W2 W1 Wn W2 W1 Abb. 22.8.
Seite 408 und 409: 22.2 Architekturen 385 lohnt es sic
Seite 410: 22.2 Architekturen 387 Die Adaption
Seite 413 und 414: 390 23. Verstehen von Sprache wenn
Seite 415 und 416: 392 23. Verstehen von Sprache der B
Seite 417 und 418: 394 23. Verstehen von Sprache ist e
Seite 419 und 420: 396 23. Verstehen von Sprache Strah
Seite 421 und 422: 398 23. Verstehen von Sprache Nomin
Seite 423 und 424:
400 23. Verstehen von Sprache ∃w
Seite 425 und 426:
402 24. Dialogsteuerung ein Dialog
Seite 427 und 428:
404 24. Dialogsteuerung noch Prädi
Seite 429 und 430:
406 24. Dialogsteuerung der Zweck d
Seite 431 und 432:
408 24. Dialogsteuerung Vorschlag/Z
Seite 433 und 434:
410 24. Dialogsteuerung Selbst bei
Seite 436 und 437:
25. Erkennung verschiedener Sprache
Seite 438 und 439:
25.1.3 Komposition von Wörtern 25.
Seite 440 und 441:
25.2 Identifikation von Sprachen (L
Seite 442 und 443:
26. Zusätzliche Modalitäten Zweif
Seite 444 und 445:
26.1 Lippenlesen auf Videoaufnahmen
Seite 446 und 447:
∆d = m · r c 26.2 Sprecherlokali
Seite 448 und 449:
26.2 Sprecherlokalisierung 425 Eine
Seite 450 und 451:
26.4 Fehlerbehandlungsmethoden 427
Seite 452:
26.5 Multimodale Zeitzuordnung 429
Seite 455 und 456:
432 27. Entwicklung von Anwendungen
Seite 457 und 458:
Seite 459 und 460:
Seite 461 und 462:
Seite 463 und 464:
Seite 465 und 466:
Seite 467 und 468:
444 28. Der moderne Vortragsraum Wa
Seite 469 und 470:
446 28. Der moderne Vortragsraum zu
Seite 471 und 472:
448 28. Der moderne Vortragsraum In
Seite 473 und 474:
450 28. Der moderne Vortragsraum E
Seite 475 und 476:
452 28. Der moderne Vortragsraum ti
Seite 477 und 478:
454 28. Der moderne Vortragsraum st
Seite 479 und 480:
456 28. Der moderne Vortragsraum me
Seite 481 und 482:
458 28. Der moderne Vortragsraum KL
Seite 483 und 484:
460 28. Der moderne Vortragsraum 28
Seite 485 und 486:
462 28. Der moderne Vortragsraum Vo
Seite 488 und 489:
Literaturverzeichnis [Abt98] Abt. I
Seite 490 und 491:
Literaturverzeichnis 467 [DH73] R.
Seite 492 und 493:
Literaturverzeichnis 469 Engineerin
Seite 494 und 495:
Literaturverzeichnis 471 [Ita75] F.
Seite 496 und 497:
Literaturverzeichnis 473 SPEECH’9
Seite 498 und 499:
Literaturverzeichnis 475 [Nag85] H.
Seite 500 und 501:
Literaturverzeichnis 477 [RW95] I.
Seite 502 und 503:
Literaturverzeichnis 479 [Ver98] Ve
Seite 504:
Literaturverzeichnis 481 [Zwi60] E.
Seite 507 und 508:
484 Sachverzeichnis Bark-Skala, 117
Seite 509 und 510:
486 Sachverzeichnis Hintergrundger
Seite 511 und 512:
488 Sachverzeichnis Parameterraum,
Seite 513:
490 Sachverzeichnis Wall Street Jou
Alle anzeigen

Sprachliche Mensch-Maschine-Kommunikation

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?