27.07.2014 Views

Wpływ separacji przestrzennej źródeł zakłócających na ...

Wpływ separacji przestrzennej źródeł zakłócających na ...

Wpływ separacji przestrzennej źródeł zakłócających na ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Uniwersytet im. Adama Mickiewicza<br />

w Poz<strong>na</strong>niu<br />

Wydział Fizyki<br />

Instytut Akustyki<br />

Pracownia Psychofizycz<strong>na</strong> 1<br />

Wpływ <strong>separacji</strong> <strong>przestrzennej</strong> źródeł zakłócających <strong>na</strong> zrozumiałość<br />

mowy polskiej<br />

Opracowanie oraz ©:<br />

dr Jędrzej Kociński<br />

1


Spis treści<br />

Spis treści ................................................................................................................................... 2<br />

Wstęp.......................................................................................................................................... 4<br />

1 Charakterystyka mowy....................................................................................................... 5<br />

1.1 Wytwarzanie dźwięków mowy .................................................................................. 5<br />

1.1.1 Narząd głosu....................................................................................................... 5<br />

1.1.2 Zjawiska segmentalne ........................................................................................ 8<br />

1.1.2.1 Głoski ............................................................................................................. 9<br />

1.1.2.2 Samogłoski i spółgłoski ............................................................................... 10<br />

1.1.2.3 Sylaba. Funkcjo<strong>na</strong>l<strong>na</strong> definicja samogłoski................................................. 10<br />

1.1.2.4 Logatomy ..................................................................................................... 10<br />

1.1.2.5 Wyrazistość i zrozumiałość mowy............................................................... 11<br />

1.1.3 Artykulacja....................................................................................................... 12<br />

1.1.3.1 Fonem........................................................................................................... 13<br />

1.1.3.2 Sposób i miejsce artykulacji......................................................................... 15<br />

1.1.3.3 Koartykulacja ............................................................................................... 16<br />

1.2 Suprasegmentalne cechy mowy ............................................................................... 16<br />

1.2.1 Rytm................................................................................................................. 16<br />

1.2.2 Into<strong>na</strong>cja........................................................................................................... 16<br />

1.2.3 Akcent .............................................................................................................. 17<br />

1.3 Fizyczne cechy mowy .............................................................................................. 17<br />

1.3.1 Widmo mowy................................................................................................... 18<br />

1.3.2 Średni poziom ciśnienia akustycznego mowy dla kobiet i mężczyzn.............. 19<br />

1.3.3 Zakres częstotliwości dla głosów męskich i kobiecych ................................... 20<br />

1.4 A<strong>na</strong>liza mowy .......................................................................................................... 20<br />

1.5 Podstawowe aspekty percepcji mowy oraz jej badanie ........................................... 22<br />

1.5.1 Percepcja kategorial<strong>na</strong>...................................................................................... 23<br />

1.5.2 Redundancja syg<strong>na</strong>łu mowy............................................................................. 24<br />

1.5.3 Modele percepcji.............................................................................................. 24<br />

1.5.3.1 Modele Aktywne .......................................................................................... 24<br />

1.5.3.2 Model Pasywny............................................................................................ 25<br />

1.5.4 Treść lingwistycz<strong>na</strong> a percepcja mowy............................................................ 26<br />

1.5.5 Badanie percepcji mowy .................................................................................. 27<br />

1.5.5.1 Pomiary percepcji mowy.............................................................................. 27<br />

1.5.5.2 Kryteria lingwistyczne doboru list odsłuchowych ....................................... 27<br />

1.5.5.3 Dodatkowe czynniki wpływające <strong>na</strong> zrozumiałość mowy .......................... 28<br />

2 Słyszenie bi<strong>na</strong>uralne......................................................................................................... 30<br />

2.1 Czynniki lokalizacyjne............................................................................................. 31<br />

2.2 Lateralizacja dźwięku............................................................................................... 34<br />

2.3 Bi<strong>na</strong>uralne różnice poziomu maskowania................................................................ 36<br />

2.4 Bi<strong>na</strong>ural<strong>na</strong> różnica poziomu maskowania a zrozumiałość mowy ........................... 40<br />

3 3. Przestrzenne odmaskowywanie mowy. Supresja przestrzen<strong>na</strong>.................................... 43<br />

4 Eksperyment..................................................................................................................... 51<br />

4.1 Generacja I rejestracja syg<strong>na</strong>łów.............................................................................. 51<br />

4.2 Konfiguracja przestrzen<strong>na</strong> źródeł w kabinie bezechowej ........................................ 51<br />

4.3 Prezentacja syg<strong>na</strong>łów ............................................................................................... 52<br />

4.4 Program sterujący..................................................................................................... 54<br />

4.5 Plik wyjściowy ......................................................................................................... 56<br />

5 Bibliografia....................................................................................................................... 57<br />

2


6 Dodatki............................................................................................................................. 61<br />

6.1 Dodatek 1. Podział polskich samogłosek i spółgłosek............................................. 61<br />

6.2 Dodatek 2. Ciśnienie skuteczne, p<br />

rms<br />

...................................................................... 63<br />

3


Wstęp<br />

W otaczającym <strong>na</strong>s środowisku praktycznie nieustannie dochodzą do <strong>na</strong>s dźwięki<br />

pochodzące z różnych źródeł zlokalizowanych w różnych miejscach przestrzeni. Moż<strong>na</strong> więc<br />

z całą pewnością stwierdzić, iż oprócz źródeł istotnych dla słuchacza (np. rozmówca),<br />

współistnieje także wiele innych źródeł powodujących różnego rodzaju zakłócenia. Tak więc<br />

komunikacja zostaje często utrudnio<strong>na</strong> ponieważ normalnie słyszalne syg<strong>na</strong>ły mogą być<br />

maskowane przez współistniejące z nimi zakłócenia. W skrajnych przypadkach (przy bardzo<br />

niskich stosunkach syg<strong>na</strong>łu do szumu 1 ), w wyniku maskowania syg<strong>na</strong>ł mowy nie może<br />

efektywnie pobudzać receptorów nerwowych, które normalnie by stymulował, ponieważ<br />

receptory te odpowiadają już <strong>na</strong> o wiele bardziej intensywny szum. Te dodatkowe syg<strong>na</strong>ły<br />

wpływają więc w istotny sposób <strong>na</strong> zdolność słuchacza do prawidłowego odbioru i<br />

zrozumienia informacji. Niezdolność do słyszenia i rozumienia mowy może, jak łatwo się<br />

domyślić, powodować wiele z<strong>na</strong>czących problemów.<br />

Jed<strong>na</strong>k trzeba pamiętać, że <strong>na</strong>sz układ słuchowy ma niepowtarzalną zdolność do<br />

rozseparowania poszczególnych źródeł i selekcjonowa<strong>na</strong> z nich istotnej dla niego informacji.<br />

Zdolność ta jest często <strong>na</strong>zywa<strong>na</strong> efektem „coctail party”. Mimo tego w przypadku obecności<br />

zakłóceń zrozumiałość mowy może ulec z<strong>na</strong>cznemu obniżeniu, a co za tym idzie- informacja<br />

docierająca do słuchacza może nie być odebra<strong>na</strong> w całości i właściwie zinterpretowa<strong>na</strong>.<br />

Z tego właśnie powodu zaczęto badać wzajemny wpływ syg<strong>na</strong>łów <strong>na</strong> siebie oraz<br />

zdolność słuchu do odbioru informacji przy jednoczesnym jej maskowaniu. Pojawiło się<br />

wiele prac poświęconych przestrzennemu odmaskowywaniu mowy <strong>na</strong> tle różnego rodzaju<br />

zakłóceń: szumów, czy też innej mowy, itp. (np. Licklider, 1948; Dirks i Wilson, 1969;<br />

Plomp i Mimpen, 1981; Bronkhorst i Plomp, 1988; Bronkhorst i Plomp, 1990; Hewley,<br />

Litovsky i Colburn, 1999). Wskazano <strong>na</strong> zmiany zrozumiałości (lub też progu rozumienia<br />

mowy) w zależności od wzajemnego przestrzennego położenia źródła syg<strong>na</strong>łu i zakłócenia,<br />

nie zmieniano przy tym stosunku syg<strong>na</strong>łu do szumu (czy innego zakłócenia). Z badań tych<br />

widać wyraźnie, że ogromny wpływ <strong>na</strong> poprawę zrozumiałości mowy ma przestrzenne<br />

rozseparowanie źródeł syg<strong>na</strong>łu i zakłóceń.<br />

Po<strong>na</strong>dto w sytuacji, w której występuje wiele rozseparowanych przestrzennie zakłóceń<br />

może dochodzić do tzw. supresji <strong>przestrzennej</strong>, czyli „wzajemnego tłumienia” syg<strong>na</strong>łów<br />

zakłócających, prowadzącego do polepszenia zrozumiałości mowy. Okazuje się bowiem, że<br />

dwa syg<strong>na</strong>ły maskujące mające ten sam poziom całkowity, ale dochodzące z różnych<br />

kierunków są często mniej skutecznymi maskerami niż jeden masker o tym samym poziomie.<br />

Stąd też mówi się często o „wzajemnym tłumieniu” się dwóch syg<strong>na</strong>łów maskujących, choć<br />

jest to jedynie zmniejszenie maskujących właściwości szumu. Supresja przestrzen<strong>na</strong> jest więc<br />

efektem psychologicznym, nie mającym nic wspólnego z fizycznym tłumieniem syg<strong>na</strong>łów.<br />

1 Często stosunek syg<strong>na</strong>łu do szumu oz<strong>na</strong>cza się skrótem SNR (z ang. sig<strong>na</strong>l-to-noise ratio).<br />

4


1 Charakterystyka mowy<br />

Syg<strong>na</strong>ł mowa, ze względu <strong>na</strong> swą rolę, zajmuje szczególne miejsce wśród dźwięków<br />

percypowanych przez człowieka. Służy bowiem do komunikowania się między ludźmi.<br />

Mowa stanowi zbiór dźwięków o określonym brzmieniu, które są przekazywane za pomocą<br />

głosu. Sposób wytwarzania mowy jest już dobrze poz<strong>na</strong>ny i szczegółowo opisany, jed<strong>na</strong>kże<br />

dokładny opis jej percepcji stanowi do dzisiaj poważne wyzwanie. Powstało już wiele modeli<br />

próbujących wyjaśnić ten proces.<br />

1.1 WYTWARZANIE DŹWIĘKÓW MOWY<br />

Ozimek (2002) wyróżnia kilka procesów związanych bezpośrednio z wytwarzaniem<br />

dźwięków mowy, takich, jak:<br />

• proces psychologiczny- konceptualizacja informacji zamierzonej do przekazania;<br />

• proces neurologiczny- pobudzenie w ośrodkowym układzie nerwowym oraz <strong>na</strong> drodze<br />

eferentnej mięśni <strong>na</strong>rządów mowy;<br />

• proces fizjologiczny- artykulacja, czyli działalność <strong>na</strong>rządów mowy;<br />

• proces aerody<strong>na</strong>miczny- przepływ powietrza w torze głosowym i wzbudzenie drgań o<br />

złożonej strukturze widmowo-czasowej.<br />

Z fizycznego punktu widzenia <strong>na</strong>jważniejsze są dwa ostatnie procesy. Dlatego też poniżej<br />

opisano nieco szerzej tor głosowy i podstawowe charakterystyki dźwięków mowy.<br />

1.1.1 Narząd głosu<br />

Wytwarzanie głosu i mowy wymaga ścisłego współdziałania ze sobą wielu <strong>na</strong>rządów,<br />

które Pruszewicz (1992) dzieli <strong>na</strong> <strong>na</strong>stępujące <strong>na</strong>rządy:<br />

• wytwarzające niezbędny strumień powietrza wydechowego (płuca, oskrzela,<br />

tchawica);<br />

• wytwarzające ton krtaniowy (krtań);<br />

• formujące barwę głosu i tworzące głoski mowy (<strong>na</strong>sada: gardło, jama nosowa, jama<br />

ust<strong>na</strong>).<br />

Na Rys. 1-1 przedstawiono schematycznie organy biorące udział w wytwarzaniu<br />

dźwięków mowy.<br />

5


Rys. 1-1. Organy biorące udział w wytwarzaniu dźwięków mowy. Rysunek zaadaptowano z<br />

(O'Shaughnessy, 2000).<br />

Przekrój toru głosowego został szczegółowo zaprezentowany <strong>na</strong> Rys. 1-2. Tor<br />

głosowy może być przyrów<strong>na</strong>ny do sprzężonych ze sobą elementów rezo<strong>na</strong>nsowych<br />

(odpowiadającym filtrom pasmowoprzepustowym), z rezo<strong>na</strong>nsami (<strong>na</strong>zywanymi formantami)<br />

oraz antyrezo<strong>na</strong>nsami. Ruch elementów toru głosowego zmienia jego parametry rezo<strong>na</strong>nsowe<br />

(przekroje w różnych jego miejscach), co w konsekwencji powoduje zmiany w odpowiedzi<br />

częstotliwościowej układu. W czasie przepływu powietrza przez tor głosowy, pewne<br />

częstotliwości są tłumione, a inne wzmacniane. Taki swoisty „filtr” wzmacnia energię w<br />

pobliżu formantów, tłumiąc jednocześnie energię pomiędzy formantami (antyrezo<strong>na</strong>nse).<br />

Przekładając to <strong>na</strong> „język” filtrów, moż<strong>na</strong> stwierdzić, że rezo<strong>na</strong>nse związane są z<br />

biegu<strong>na</strong>mi odpowiedzi częstotliwościowej takiego układu, <strong>na</strong>tomiast wyciszenie<br />

powodowane jest przez występowanie zer w tej odpowiedzi.<br />

6


Rys. 1-2. Przekrój toru głosowego oraz jego części biorących udział w artykulacji :1- fałdy głosowe, 2-<br />

gardło, 3- podniebienie miękkie, 4- podniebienie twarde, 5- dziąsła, 6- zęby, 7- wargi, 8- język, 9- dol<strong>na</strong><br />

szczęka, 10- jama nosowa, 11- jama ust<strong>na</strong>, 12- nozdrza, 13- tchawica, 14- głośnia. Rysunek zaadaptowano<br />

z (O'Shaughnessy, 2000).<br />

Tor głosowy często modeluje się za pomocą układu połączonych cylindrów o różnej<br />

powierzchni przekroju poprzecznego. Jed<strong>na</strong>k trzeba pamiętać, iż rzeczywisty kształt jest<br />

z<strong>na</strong>cznie bardziej złożony, gdyż ściany poszczególnych części toru mogę zmieniać kształty<br />

(Hamlet i in., 1986). Najbardziej ruchomymi częściami są język, dolne zęby oraz wargi zaś<br />

<strong>na</strong>jbardziej złożonym (choć w zasadzie niemodyfikowalnym) elementem jest jama nosowa,<br />

składająca się z labiryntu przejść pokrytych błoną śluzową, bez struktur, których ruch jest<br />

zależny od woli człowieka. Ma o<strong>na</strong> dużą wewnętrzną powierzchnię w porów<strong>na</strong>niu do<br />

objętości (około 60 cm 3 , przy objętości zatok poniżej 20 cm 3 ) i pełni rolę tłumika dla fal<br />

dźwiękowych przez nią przechodzących (Feng i Castelli, 1996).<br />

Ruchy poszczególnych elementów toru głosowego są kontrolowane za pomocą<br />

mięśni. Układ mięśniowy krtani stanowią mięśnie zewnętrzne i wewnętrzne. Te pierwsze<br />

poruszają całą krtanią (unoszą ją, obniżają lub przesuwają ku tyłowi). Mięśnie wewnętrzne<br />

warunkują <strong>na</strong>tomiast wzajemne ustawienie poszczególnych chrząstek krtaniowych i związane<br />

z tym zwężenie lub poszerzenie szpary głośni 2 , <strong>na</strong>pięcie fałdów głosowych i zmianę ich<br />

kształtu.<br />

Pierwotną funkcją krtani jest regulacja przepływu powietrza przez głośnię. Poprzez jej<br />

podnoszenie i opuszczanie zmienia się długość toru głosowego, aby:<br />

• odpowiednio podwyższyć lub obniżyć częstotliwości formantowe;<br />

• powiększyć jamę gardła powodując trwające dłużej drganie fałdów głosowych;<br />

• ułatwić ruch wyższych części toru głosowego połączonych z krtanią.<br />

W czynności fo<strong>na</strong>cyjnej krtani szczególną rolę odgrywa fałd głosowy, umożliwiający<br />

generowanie tonu krtaniowego, czyli pewnego pierwotnego dźwięku harmonicznego,<br />

stanowiącego zasadniczy składnik tzw. dźwięcznych części mowy. Podstawowymi<br />

składnikami fałdu głosowego są więzadła głosowe oraz mięsień głosowy. Pruszewicz (1992)<br />

dzieli fałd głosowy <strong>na</strong> dwie części o różnych właściwościach biofizycznych: mięsień głosowy<br />

i błonę śluzową. W błonie śluzowej wymienia trzy warstwy: powierzchniową, pośrednią,<br />

zbudowaną z włókien elastycznych i głęboką. Dwie ostatnie warstwy tworzą więzadło<br />

głosowe. Pełny rozwój budowy warstwowej fałdu głosowego <strong>na</strong>stępuje po osiągnięciu<br />

2 Szpara głośni- szpara w krtani ograniczo<strong>na</strong> fałdami głosowymi.<br />

7


dojrzałości płciowej. W zależności od okresu życia osobniczego człowieka w fałdach<br />

głosowych zachodzą zmiany głównie w ilościowych stosunkach włókien mięśniowych.<br />

Jamę krtani podzielić moż<strong>na</strong> <strong>na</strong> trzy piętra:<br />

• piętro górne- przedsionek krtani łączący się z częścią krtaniową gardła;<br />

• piętro środkowe- jama pośrednia krtani;<br />

• piętro dolne- jama podgłośniowa.<br />

Do wytworzenia prawidłowego głosu niezbędne jest współdziałanie <strong>na</strong>stępujących<br />

elementów:<br />

• podgłośniowego zbiornika powietrza oddechowego, wytwarzającego podmuch o<br />

wysokim ciśnieniu;<br />

• sprawnie działającego mechanizmu drgającego, powodującego rytmiczne otwieranie i<br />

zamykanie głośni;<br />

• przestrzeni rezo<strong>na</strong>cyjnych klatki piersiowej oraz gardła, jamy ustnej i jamy nosowej,<br />

które wybiórczo wzmacniają lub osłabiają niektóre składowe tonu krtaniowego i<br />

<strong>na</strong>dają mu charakterystyczną barwę.<br />

Pruszewicz (1992) interpretuje mechanizm drgania fałdów głosowych w <strong>na</strong>stępujący<br />

sposób: „Fałdy głosowe doprowadzone do zwarcia (...) z powodu wzrastającego ciśnienia<br />

podgłośniowego rozsuwają się, a <strong>na</strong>stępnie powracają do stanu zwarcia. W ten sposób<br />

powstają okresy zagęszczenia i rozrzedzenia słupa powietrznego. Częstość tych faz<br />

zagęszczenia i rozrzedzenia określa wysokość tonu krtaniowego. Powrót fałdów głosowych,<br />

po chwilowym rozsunięciu do fazy zwarcia tłumaczy się (...) siłą ssania, jaka powstaje przy<br />

przechodzeniu powietrza przez wąską szczelinę (...) i rytmicznymi, czynnymi, skurczami<br />

mięśni przywodzących fałdy głosowe. Taką funkcję fałdów głosowych zapewnia ich<br />

warstwowa budowa. (...) Moc, jaka powstaje przy przepływie strumienia powietrza między<br />

zwartymi fałdami głosowymi jest ocenia<strong>na</strong> <strong>na</strong> około 0,5 W, z czego tylko 0,0005-0,5 % jest<br />

zamieniane <strong>na</strong> energię akustyczną, a reszta <strong>na</strong> ciepło; krążenie krwionośne i limfatyczne<br />

zapobiega <strong>na</strong>dmiernemu gromadzeniu się ciepła w fałdach głosowych. (...) Zwraca się też<br />

ostatnio uwagę <strong>na</strong> systemy nerwowej kontroli fo<strong>na</strong>cji. Na kontrolę tę składa się: 1)<br />

<strong>na</strong>stawienie prefo<strong>na</strong>cyjne (działanie dowolne), 2) działanie w czasie fo<strong>na</strong>cji (nieświadome)<br />

poprzez układy odruchowe z błony śluzowej, mięśni i stawów krtani, 3) monitorowanie<br />

fo<strong>na</strong>cji poprzez <strong>na</strong>rząd słuchu (...)”.<br />

Do czynników wpływających <strong>na</strong> wysokość tonu krtaniowego moż<strong>na</strong> zaliczyć:<br />

• długość i <strong>na</strong>pięcie fałdów głosowych- im fałd krótszy i bardziej <strong>na</strong>pięty, tym ton jest<br />

wyższy;<br />

• masę i kształt fałdów głosowych- w zakresie tonów niskich fałdy są szerokie i drgają<br />

<strong>na</strong> całej długości. Ich <strong>na</strong>pięcie jest względnie małe. Przy wzroście wysokości dźwięku<br />

zwiększa się nie tyko <strong>na</strong>pięcie fałdów głosowych, ale stają się one cieńsze i drga ich<br />

krótszy odcinek.<br />

Te mechanizmy wystarczają do regulacji wysokości głosu podczas mowy; w czasie śpiewu<br />

wraz ze wzrostem wysokości tonu wydłużają się fałdy głosowe; wydłużenie to jest<br />

kompensowane wzrostem <strong>na</strong>pięcia.<br />

Wytworzony w ten sposób dźwięk, zwany tonem krtaniowym, jest syg<strong>na</strong>łem<br />

harmonicznym. Jego składowa podstawowa ( F o<br />

) jest odpowiedzial<strong>na</strong> za percypowaną<br />

wysokość głosu. Trzeba tu podkreślić, iż wszystkie częstotliwości poszczególnych<br />

składowych ulegają wahaniom w czasie.<br />

1.1.2 ZJAWISKA SEGMENTALNE<br />

Aby w pełni zaprezentować sposoby artykulacji, metody a<strong>na</strong>lizy mowy i badania jej<br />

zrozumiałości, warto <strong>na</strong>jpierw zdefiniować kilka pojęć z zakresu fonetyki i audiologii, które<br />

8


pojawią się w dalszej części tej pracy. Przedstawione zostaną więc definicje segmentu, głoski,<br />

samogłoski i spółgłoski oraz sylaby i logatomu. Definicja fonemu, dla zachowania większej<br />

przejrzystości, została <strong>na</strong>tomiast przedstawio<strong>na</strong> w rozdziale poświęconym artykulacji.<br />

Pruszewicz (1992) definiuje segment jako „(...) fragment syg<strong>na</strong>łu mowy, który w<br />

normalnych warunkach słyszenia daje nierozkładalne wrażenie dźwiękowe. Jest to zatem<br />

minimalny, percepcyjnie jednolity element mowy. W niektórych przypadkach zachodzi prosta<br />

relacja między segmentem a pisownią. Na przykład wyraz las składa się z trzech liter (postać<br />

graficz<strong>na</strong>), a zarazem z trzech segmentów (postać fonetycz<strong>na</strong>). Często jed<strong>na</strong>k relacje takie są<br />

ilościowo i jakościowo złożone. (...) Zjawiska segmentalne dotyczą oddzielnych, kolejnych<br />

segmentów, suprasegmentalne <strong>na</strong>tomiast obejmują pewne ciągi segmentów. Zjawiskiem<br />

suprasegmentalnym jest m. in. into<strong>na</strong>cja, której jednostki funkcjo<strong>na</strong>lne rozciągają się<br />

niejednokrotnie <strong>na</strong> długie ciągi <strong>na</strong>wet kilkudziesięciu kolejnych segmentów (...)”.<br />

Segment moż<strong>na</strong> też interpretować jako „porcję” mowy, w której cechy fonetyczne<br />

(akustyczne lub artykulacyjne) pozostają względnie stałe.<br />

1.1.2.1 Głoski<br />

Głoski są <strong>na</strong>jmniejszymi elementami fonetycznymi. Definiuje się je jako pojedynczy<br />

segment lub ciąg łącznie występujących w danym języku segmentów fonetycznych<br />

(zazwyczaj dwóch lub trzech), które klasyfikuje się wg <strong>na</strong>stępujących kryteriów<br />

artykulacyjnych:<br />

• mechanizm inicjowania przepływu powietrza- wyróżnia się tu mechanizm płucny<br />

(związany z ruchem żeber i przepony), mechanizm krtaniowy (polega <strong>na</strong> zamknięciu<br />

otworu głośni i wyko<strong>na</strong>niu ruchu krtanią w górę lub w dół) oraz mechanizm welarny 3<br />

(przez silne zwarcie tylnej części języka z podniebieniem miękkim i raptowne<br />

przesunięcie go w tył powstaje wewnątrz jamy ustnej przepływ powietrza do<br />

wewnątrz);<br />

• kierunek przepływu powietrza- w zależności od tego, czy powietrze zostaje wtłoczone<br />

do wewnątrz jamy ustnej, czy wypchnięte z niej, rozróżniamy głoski ingresywne i<br />

regresywne. W językach europejskich występują wyłącznie głoski regresywne;<br />

• tor przepływu powietrza- zależnie od tego, czy powietrze przepływa wyłącznie przez<br />

jamę ustną, wyłącznie przez nosową, czy też równocześnie obiema drogami,<br />

rozróżniamy głoski ustne, nosowe i ustno-nosowe;<br />

• rodzaj przewężenia w torze głosowym- każdemu segmentowi przypisać moż<strong>na</strong> jeden z<br />

kilku możliwych rodzajów przewężenia w określonym miejscu toru głosowego.<br />

Moż<strong>na</strong> tu wyróżnić <strong>na</strong>stępujące stany: 1) zwarcie- chwilowe całkowite zablokowanie<br />

przepływu powietrza, 2) przewężenie turbulencyjne- powoduje nieregularny ruch<br />

cząstek powietrza, a zatem nieperiodyczne drganie dające wrażenie szumu, 3)<br />

przewężenie niestabilne- powoduje stan, w którym lokal<strong>na</strong> turbulencja przyjmuje<br />

wartości minimalne, a wrażenie szumu jest zanikające, 4) przewężenie bezfrykcyjnejest<br />

<strong>na</strong> tyle szerokie, ze nie powstaje turbulencja, 5) wibracyjność- polega <strong>na</strong><br />

wprowadzeniu aktywnego <strong>na</strong>rządu po<strong>na</strong>dkrtaniowego w drganie o małej<br />

częstotliwości, rzędu kilku<strong>na</strong>stu Hz. Drganiom tym podlegają wargi, przód języka lub<br />

języczek, 6) uderzeniowość- rodzaj artykulacji polegający <strong>na</strong> jednorazowym<br />

uderzeniu przodu języka o wypukłość zębodołów lub języczka o tylną część grzbietu<br />

języka;<br />

• fo<strong>na</strong>cja (stan krtani)- Pruszewicz (1992) rozróżnia <strong>na</strong>stępujące rodzaje fo<strong>na</strong>cji:<br />

1)dźwięcz<strong>na</strong>- wibracyj<strong>na</strong>: quasi periodyczne drgania więzadeł głosowych <strong>na</strong> całej ich<br />

długości, 2) bezdźwięcz<strong>na</strong>: cała głośnia szeroko otwarta, 3) mormoracyj<strong>na</strong>: z wibracją<br />

3 Głoski tego typu są często używane w wielu językach afrykańskich i zwane mlaskami.<br />

9


tylko w przedniej części krtani, 4) charcząca: nieregularne drgania o średniej<br />

częstotliwości poniżej 50 Hz w przedniej części krtani, 5) blokowa<strong>na</strong>: chwilowe,<br />

trwające kilka<strong>na</strong>ście do kilkudziesięciu ms zwarcie więzadeł głosowych <strong>na</strong> całej<br />

długości z wytworzeniem <strong>na</strong>dciśnienia podgłośniowego, 6) szept; zbliżenie więzadeł<br />

głosowych z wąską podłużną szczeliną powodującą turbulencję, 7) szeptanodźwięcz<strong>na</strong>:<br />

więzadła <strong>na</strong>pięte i drgające quasi periodycznie w przedniej części krtani z<br />

równoczesną turbulencją w części tylnej tworzącej wąską podłużną szczelinę.<br />

Na podstawie powyższych parametrów moż<strong>na</strong> rozróżnić dwa zasadnicze typy głosek:<br />

samogłoski i spółgłoski.<br />

1.1.2.2 Samogłoski i spółgłoski<br />

Samogłoski (głoski wokaliczne), są to głoski bezfrykcyjne, przy powstawaniu których<br />

uczestniczą jedynie więzadła głosowe, a strumień powietrza swobodnie przepływa przez<br />

ka<strong>na</strong>ł głosowy. Charakteryzują się regularnym rozkładem energii akustycznej (w dziedzinie<br />

czasu) i mają wyraźną strukturę formantową.<br />

Spółgłoska <strong>na</strong>tomiast, to dźwięk języka mówionego powstający w wyniku<br />

całkowitego lub częściowego zablokowania przepływu powietrza przez aparat mowy (ka<strong>na</strong>ł<br />

głosowy). W czasie wymawiania spółgłosek powstaje szmer, gdy powietrze <strong>na</strong>trafia <strong>na</strong><br />

przeszkodę (zwarcie, zbliżenie).<br />

Do opisu artykulacji spółgłoski stosuje się <strong>na</strong>stępujące kryteria:<br />

• sposób artykulacji, czyli stopień/sposób ograniczenia przepływu przez ka<strong>na</strong>ł<br />

głosowy,<br />

• miejsce artykulacji, czyli lokalizacja <strong>na</strong>jwiększego zbliżenia lub zwarcia <strong>na</strong>rządów<br />

mowy,<br />

• <strong>na</strong>rząd artykulacji biorący udział w tworzeniu zwężenia lub zwarcia,<br />

• udział więzadeł głosowych (dźwięczność/bezdźwięczność).<br />

1.1.2.3 Sylaba. Funkcjo<strong>na</strong>l<strong>na</strong> definicja samogłoski<br />

Pruszewicz (1992) definiuje sylabę (zgłoskę) jako „ (...) ciąg głosek określony dla<br />

każdego języka przez uniwersalne prawidło zmiennej głośności segmentów oraz dodatkowo<br />

przez specyficzne dla danego języka reguły. Każda sylaba składa się co <strong>na</strong>jmniej z części<br />

zwanej szczytem. Stanowi go głoska o maksymalnej głośności. W wypowiedzi ojciec czeka<br />

szczytami sylabicznymi są głoski odpowiadające literom o, a, dwa razy e. Tym samym<br />

wypowiedź składa się z czterech sylab. W polskim języku obowiązuje (...) zasada, iż za<br />

sylabotwórczy uz<strong>na</strong>je się tylko taki szczyt głośności, który jest segmentem wokalicznym. Z<br />

drugiej jed<strong>na</strong>k strony nie każdy segment wokaliczny jest sylabotwórczy, gdyż nie każdy<br />

spełnia warunek maksymalnej lokalnie głośności. Samogłoską funkcjo<strong>na</strong>lną jest w polskim<br />

języku samogłoska określo<strong>na</strong> parametrycznie, czyli głoska wokalicz<strong>na</strong> stanowiąca szczyt<br />

sylaby. W rzadkich przypadkach określonych szczegółowymi regułami segment wokaliczny<br />

jest sylabotwórczy, jeśli <strong>na</strong>wet nie stanowi lokalnego maksimum głośności”.<br />

W języku polskim spółgłoski nie tworzą zasadniczo sylaby (są niesylabiczne). W<br />

niektórych jed<strong>na</strong>k językach spółgłoski mogą być elementem sylabicznym. Przykładem może<br />

być tu język czeski, w którym spółgłoski r, l tworzą sylaby np. wyrazy: čtvrt (ćwierć), vlk<br />

(wilk), są jednosylabowe.<br />

1.1.2.4 Logatomy<br />

Logatomy zwane są często pseudowyrazami (w języku angielskim używa się<br />

określenia non-sense-words lub non-words). Są one wymówionymi <strong>na</strong>turalnie ciągami głosek,<br />

które nie występują w leksykonie danego języka, ale są skonstruowane w ścisłej zgodności z<br />

10


egułami fonotaktycznymi tego języka. Przykładami polskich logatomów są: trzygławrze<br />

/tʃɨgwavʒe/, pochosa /po’xosa/, itp. Listy logatomowe z powodu niskiej redundancji są<br />

<strong>na</strong>jbardziej obiektywnymi testami wykorzystywanymi do wyz<strong>na</strong>czania wyrazistości mowy.<br />

Ponieważ logatomy nie mają z<strong>na</strong>czenia, słuchacz musi usłyszeć dokładnie wszystkie fonemy,<br />

by prawidłowo zrozumieć każdy z logatomów.<br />

1.1.2.5 Wyrazistość i zrozumiałość mowy<br />

Pojęcie wyrazistości odnosi się do tych elementów fonetycznych mowy, które nie<br />

mają określonego z<strong>na</strong>czenia semantycznego (np. głosek, zgłosek, logatomów itd.). Pojęcie<br />

zrozumiałości dotyczy zaś elementów mowy wyższego rzędu, mających określone z<strong>na</strong>czenie<br />

semantyczne lub zawierające określoną treść myślową (np. wyrazów, zdań). Jako miarę<br />

wyrazistości lub zrozumiałości mowy przyjmuje się często stosunek liczby poprawnie<br />

odebranych elementów fonetycznych do całkowitej liczby zaprezentowanych elementów.<br />

Moż<strong>na</strong> także wyz<strong>na</strong>czyć tzw. próg rozumienia mowy (z ang. Speech Reception Threshold,<br />

SRT), czyli taką wartość parametru względem którego mierzy się zrozumiałość mowy (np.<br />

SNR lub poziom ciśnienia akustycznego syg<strong>na</strong>łu), przy której wyrazistość/zrozumiałość<br />

osiąga wartość 50 %.<br />

Jak się okazuje, zrozumiałość mowy jest dość złożoną funkcją wyrazistości, tj.<br />

poprawnego odbioru określonych elementów mowy. Elementy te bowiem niosą zróżnicowaną<br />

ilość informacji. Ogólnie przyjmuje się, że ilość informacji zawarta w samogłoskach jest<br />

raczej niewielka, <strong>na</strong>tomiast zawartość informacji w spółgłoskach zależy od częstości ich<br />

występowania w danym języku. Na Rys. 1-3a pokazano zależność zrozumiałości wyrazów i<br />

zdań od wyrazistości sylab dla języka angielskiego.<br />

Wyrazistość i zrozumiałość wyz<strong>na</strong>cza się bardzo często w obecności szumu<br />

maskującego. Jak wiadomo, maskujące działanie szumu powoduje podwyższenie progu<br />

słyszalności o pewną wartość lub zmienia głośność syg<strong>na</strong>łu. Jeśli np. widmo szumu zbliżone<br />

jest do szumu białego, to wówczas próg słyszalności podwyższa się o pewną stałą wartość (do<br />

poziomu progu maskowania) i <strong>na</strong>jefektywniej maskowane są te fragmenty syg<strong>na</strong>łu mowy,<br />

których poziomy „leżą” poniżej poziomu szumu. Na Rys. 1-3b pokazano porów<strong>na</strong>nie<br />

krzywych zrozumiałości (lub wyrazistości w przypadku logatomów) dla trzech rodzajów<br />

elementów mowy języka angielskiego: liczb, wyrazów w zdaniach i logatomów w zależności<br />

od wartości stosunku syg<strong>na</strong>łu do szumu. Jak moż<strong>na</strong> zauważyć, zrozumiałość mowy zależy<br />

wyraźnie od rodzaju syg<strong>na</strong>łów testowych stosowanych w doświadczeniu.<br />

Głównym czynnikiem wpływającym <strong>na</strong> zmianę zrozumiałości niezniekształconej<br />

mowy jest stosunek syg<strong>na</strong>łu do szumu (SNR). Fakt ten jest bezpośrednio związany ze<br />

zjawiskiem maskowania dźwięków, choć relacja między maskowaniem tonów prostych i<br />

dźwięków mowy jest wielce złożo<strong>na</strong>. Przy percepcji mowy ważną rolę odgrywają bowiem<br />

dodatkowe czynniki, jak choćby kontekst.<br />

Dla określonego stosunku syg<strong>na</strong>łu do szumu, <strong>na</strong>jlepszą zrozumiałość osiąga się dla<br />

testów liczbowych, słabszą dla wyrazów w zdaniach, a zdecydowanie <strong>na</strong>jsłabszą dla<br />

logatomów. Zrozumiałość liczb dąży do 100% już przy stosunkowo niskich SNR, i<strong>na</strong>czej niż<br />

to ma miejsce w przypadku pozostałych testów (przy testach logatomowych <strong>na</strong>wet dla bardzo<br />

dużych SNR nie osiąga się wartości 100%). Na tej podstawie moż<strong>na</strong> stwierdzić, że im dany<br />

element jest bardziej jednoz<strong>na</strong>czny (istnieje małe prawdopodobieństwo jego alter<strong>na</strong>tywnego<br />

zrozumienia), tym lepsza jego zrozumiałość. Jeśli liczba możliwych alter<strong>na</strong>tywnych z<strong>na</strong>czeń<br />

danego elementu rośnie, wówczas większy musi być stosunek syg<strong>na</strong>łu do szumu, aby uzyskać<br />

taką samą zrozumiałość.<br />

Ozimek (2002) podaje, że „(...) jeśli SNR wynosi 6 dB, moż<strong>na</strong> uz<strong>na</strong>ć zrozumiałość<br />

mowy za zupełnie zadowalającą. Dla wartości tego stosunku równego 0 dB zrozumiałość<br />

mowy wynosi około 50%. W pewnych przypadkach mowę moż<strong>na</strong> zrozumieć również wtedy,<br />

11


gdy jej poziom ciśnienia akustycznego jest mniejszy od poziomu szumu, ma to miejsce<br />

wówczas, gdy słuchacz z<strong>na</strong> temat rozmowy, bądź, gdy mowa i szum docierają do obserwatora<br />

z różnych kierunków (...)”. Trzeba jed<strong>na</strong>k zdawać sobie sprawę z faktu, iż duże z<strong>na</strong>czenie ma<br />

także widmowa struktura zakłóceń. Jeśli bowiem zakres widma szumu pokrywa się z<br />

zakresem mowy, to fakt ten stanowi dodatkowe utrudnienie, powodujące zmniejszenie<br />

zrozumiałości przy tym samym stosunku syg<strong>na</strong>łu do szumu, co w przypadku szumu którego<br />

zakres widmowy jest inny niż zakres spektralny mowy. Moż<strong>na</strong> więc ogólnie stwierdzić, że im<br />

bardziej podobne do siebie są widma mocy syg<strong>na</strong>łów, tym większy jest efekt maskowania.<br />

100<br />

a<br />

0 20 40 60 80 100<br />

-18 -12 -6 0 6 12 18<br />

100<br />

b<br />

80<br />

80<br />

zrozumiałość, %<br />

60<br />

40<br />

20<br />

0<br />

zdania<br />

wyrazy<br />

0 20 40 60 80 100<br />

wyrazistość sylab, %<br />

60<br />

40<br />

liczby 20<br />

wyrazy w zdaniu<br />

logatomy<br />

0<br />

-18 -12 -6 0 6 12 18<br />

SNR, dB<br />

Rys. 1-3. a) zależność pomiędzy zrozumiałością wyrazów i zdań od wyrazistości sylab dla języka<br />

angielskiego; b) zależność zrozumiałości mowy w funkcji stosunku syg<strong>na</strong>łu do szumu dla liczb i wyrazów<br />

w zdaniach oraz wyrazistość dla logatomów. Dane pochodzą z prac: a- (Sapożkow, 1966), b-(Miller i in.,<br />

1951b).<br />

1.1.3 ARTYKULACJA<br />

W fonetyce przez artykulację rozumie się proces kształtowania dźwięków mowy<br />

ludzkiej, odbywający się w części aparatu mowy, który obejmuje jamy po<strong>na</strong>dkrtaniowe, tzw.<br />

<strong>na</strong>sadę. Artykulacja jest jednym z zasadniczych aspektów procesu wytwarzania głosek, <strong>na</strong><br />

który po<strong>na</strong>dto składają się: inicjacja, czyli mechanizm wytworzenia prądu powietrza i fo<strong>na</strong>cja,<br />

związa<strong>na</strong> z aktywnością wiązadeł głosowych.<br />

W czasie artykulacji prąd powietrza, który jest niezbędnym tworzywem dla<br />

wytwarzania dźwięków, jest modelowany przez ruchome i nieruchome artykulatory, czyli<br />

elementy ka<strong>na</strong>łu głosowego. Najczęściej modulacji poddawane jest powietrze wydychane z<br />

płuc.<br />

Biorąc pod uwagę liczbę różnych dźwięków wytwarzanych w torze głosowym,<br />

<strong>na</strong>jważniejszymi jego częściami są język i wargi. Wargi, <strong>na</strong>jbardziej widoczne z wszystkich<br />

struktur toru głosowego, są parą fałd mięśniowych <strong>na</strong> twarzy, które działają <strong>na</strong> dwa sposoby:<br />

• powodują zamknięcie lub z<strong>na</strong>czne przewężenie toru głosowego u wylotu, jeśli są one<br />

ściśnięte razem lub jeśli dol<strong>na</strong> warga <strong>na</strong>ciska <strong>na</strong> górne zęby;<br />

• mogą się zaokrąglać, wystawać (wykrzywiać) lub rozszerzać i cofać.<br />

Zamykanie jest <strong>na</strong>jczęściej dokonywane przez ruch szczęki i dolnych warg, podczas<br />

gdy zaokrąglanie spowodowane jest przez mięsień, który otacza wargi. Drugi mięsień<br />

odpowiedzialny jest za rozwieranie i cofanie ust.<br />

Pośród zębów, tylko górne cztery przednie siekacze wydają się odgrywać rolę w<br />

artykulacji Wykorzystywane są np. przy wymawianiu /f/ (dol<strong>na</strong> warga jest z nimi zwarta). Za<br />

12


zębami z<strong>na</strong>jduje się podniebienie twarde, struktura o kształcie kopuły zbudowa<strong>na</strong> z czterech<br />

kości. Wiele dźwięków mowy wykorzystuje różne ułożenie języka względem właśnie tej<br />

części podniebienia np. /t,s/. Najczęstszym punktem styku jest przednia część podniebienia,<br />

w okolicach dziąseł.<br />

Szczęka jest często rozważa<strong>na</strong> jako artykulator pośredni, gdyż jedynie pomaga w<br />

odpowiednim ustawianiu języka i warg dla wytworzenia wielu dźwięków.<br />

Typowe pozycje artykulacyjne zostały zaprezentowane <strong>na</strong> Rys. 1-4.<br />

Rys. 1-4. Typowe pozycje artykulacyjne: a- samogłoska, dwie wysokości ustawienia języka, b- wysoka<br />

samogłoska- przednia i tyl<strong>na</strong> pozycja języka, c- dziąsłowe i podniebienne miejsce artykulacji, d-<br />

artykulacja w przypadku spółgłosek trących. Rysunek zaadaptowano z (O'Shaughnessy, 2000).<br />

1.1.3.1 Fonem<br />

Mimo, że człowiek potrafi wytwarzać wiele różnych dźwięków, to jed<strong>na</strong>k każdy język<br />

ma dość mały zbiór jednostek lingwistycznych, zwanych fonemami, opisujących dźwięki<br />

danego języka. Fonem jest <strong>na</strong>jmniejszą, mającą z<strong>na</strong>czenie jednostką fonologii języka.<br />

Dźwięki powiązane z jednym fonemem zazwyczaj mają pewne wspólne artykulacyjne<br />

konfiguracje elementów toru głosowego. Każde słowo składa się z serii fonemów<br />

odpowiadających pewnym ruchom toru głosowego, potrzebnych do wytworzenia słowa.<br />

Większość języków posiada 20-40 fonemów (istnieją języki, w których liczba fonemów<br />

przekracza 80, np. niektóre języki kaukaskie). Zakłada się istnienie skończonej liczby<br />

fonetycznych cech dystynktywnych, takich, że za ich pomocą moż<strong>na</strong> adekwatnie każdą<br />

głoskę opisać jako element zbioru, który jest unikatowy 4 pod względem opisu za pomocą<br />

cech dystynktywnych. Pruszewicz (2000) stosuje dedukcyjną definicję fonemu: Jed<strong>na</strong> z<br />

odmian definicji dedukcyjnej stosuje cechy bi<strong>na</strong>rne, tj. takie, które przyjmują tylko wartości<br />

‘0’ lub ‘1’. ZERO oz<strong>na</strong>cza, że da<strong>na</strong> cecha dystynktyw<strong>na</strong> jest negatyw<strong>na</strong>, a JEDEN, że cecha<br />

ta jest pozytyw<strong>na</strong>. Trzeba także zwrócić uwagę <strong>na</strong> fakt, iż nie wszystkie cechy dystynktywne<br />

mogą charakteryzować każdy z fonemów. Powyższa klasyfikacja prowadzi do ograniczenia<br />

liczby jednostek segmentalnych do 37 (Tabela 1-1). Podane zestawienie pozwala w sposób<br />

<strong>na</strong>jłatwiejszy i <strong>na</strong>jbardziej przejrzysty stwierdzić poprawność klasyfikacji polskich fonemów<br />

względem założenia orzekającego, że żaden fonem nie może być zespołem cech<br />

stanowiących podzbiór cech jakiegokolwiek innego fonemu.<br />

Tabela 1-1. Fonemy języka polskiego 5 . Dane pochodzą z (Pruszewicz, 2000).<br />

Cecha<br />

dystynktyw<strong>na</strong><br />

ɨ u w i j a o e r l m n ɲ ɳ p b t d c ɟ k g f v s z t ɕ dz x ɕ ʑ tc dʑ ʃ Ʒ tʃ dƷ<br />

Spółgłoskowy 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />

Po<strong>na</strong>dkrtaniowy 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />

Nosowy 0 0 1 1 1 1<br />

Łagodny 0 1 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1<br />

Skupiony 0 0 0 0 0 1 1 1 0 0 1 1 0 0 0 0 1 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1<br />

Jasny 0 0 0 1 1 0 0 0 0 1 0 0 1 1 0 0 1 1 1 1 0 1 1 1 1 1 1 1 1<br />

4 Przez unikatowy zbiór rozumie się taki, który nie jest podzbiorem żadnego innego zbioru <strong>na</strong>cechowanego tymi<br />

samymi cechami oraz jedną lub większą liczbą innych cech.<br />

5 Dokładny opis wszystkich cech dystynktywnych z<strong>na</strong>jduje się w materiałach źródłowych- (Pruszewicz, 2000).<br />

13


Niskotonowy 0 1 1 0 1 0 1 0 0 1 1 0 0 0 0 1 1 1 1<br />

Krótki 0 1 0 1 0 0 1 1 0 0 1 1 0 0 1 1<br />

Dźwięczny 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1<br />

In<strong>na</strong> definicja fonemu, poda<strong>na</strong> np. przez Ozimka (2002) mówi, że fonemy są to<br />

dźwięki, które same nie mają z<strong>na</strong>czenia, ale są zdolne do różnicowania z<strong>na</strong>czenia wyrazów w<br />

danym języku.<br />

Pomimo tego, że poszczególne języki różnią się w z<strong>na</strong>cznym stopniu w strukturze<br />

semantycznej i gramatycznej, wszystkie muszą wykorzystywać tor głosowy w podobny<br />

sposób. Dźwięki samogłosek /i,a,u/ pojawiają się w wielu językach, a inne są<br />

charakterystyczne tylko dla kilku lub <strong>na</strong>wet dla jednego (np. dźwięk angielskiego th lub<br />

holenderskiego i flamandzkiego grafemu g).<br />

Dźwięk wytwarzany podczas artykulacji fonemu <strong>na</strong>zywany jest niekiedy fonem (z<br />

ang. phon) (O'Shaughnessy, 2000). Ze względu <strong>na</strong> to, iż tor głosowy nie jest systemem<br />

dyskretnym, i może się zmieniać <strong>na</strong> praktycznie nieskończoną liczbę sposobów, więc<br />

nieskończo<strong>na</strong> liczba fonów może odpowiadać każdemu fonemowi (wymawiane wielokrotnie<br />

przez jednego mówcę te same fonemy różną się od siebie, ale w mniejszym stopniu niż te<br />

same fonemy wymawiane przez różnych mówców). Termin alofon określa zazwyczaj klasę<br />

fonów odpowiadającą danej odmianie fonemu, szczególnie, gdy różne kształty toru<br />

głosowego wytwarzają ten sam fonem. Na przykład fonem /k/ wymaga zwarcia tylnej części<br />

języka z podniebieniem miękkim, ale w zależności od tego jaki typ samogłoski bezpośrednio<br />

poprzedza /k/, zwarcie <strong>na</strong>stępuje bardziej z przodu lub tyłu podniebienia. Spółgłoski zwarte<br />

<strong>na</strong>jczęściej mają więcej alofonów niż inne fonemy i w zależności od kontekstu sposób i<br />

miejsce ich wytwarzania może ulegać zmianie. Ważne jest, że gdy w syg<strong>na</strong>le mowy zostanie<br />

zamieniony alofon fonemu, to zrozumiałość nie powin<strong>na</strong> zostać zachwia<strong>na</strong>, pomimo tego, że<br />

zmodyfikowany syg<strong>na</strong>ł może brzmieć mniej <strong>na</strong>turalnie (O'Shaughnessy, 2000). Taka<br />

transformacja fonemów między alofo<strong>na</strong>mi pociąga za sobą efekt tzw. koartykulacji:<br />

konfiguracja artykulacyj<strong>na</strong> fonemu wpływa <strong>na</strong> sposób wytwarzania fonemów sąsiadujących.<br />

Z tego względu syg<strong>na</strong>ł mowy nie może być podzielony <strong>na</strong> oddzielne fony poprzez prostą<br />

zależność 1:1 z fonemami. Ruchy elementów toru głosowego powiązane z <strong>na</strong>stępującymi po<br />

sobie fonemami tak dalece <strong>na</strong> siebie wpływają, że cechy każdego fonemu wpływają często <strong>na</strong><br />

kilka poprzednich i <strong>na</strong>stępnych fonów. Ze względu <strong>na</strong> potrzebę wyjaśnienia sposobów a<strong>na</strong>lizy<br />

mowy, koartykulacja zostanie szerzej opisa<strong>na</strong> w rozdziale 1.1.3.3.<br />

Poszczególne fonemy występują w mowie z bardzo różną częstością. Tabela 1-2<br />

ukazuje średnią częstość występowania polskich fonemów w mowie.<br />

Tabela 1-2. Średnia częstość występowania polskich fonemów <strong>na</strong> 1000 bieżących fonemów. Dane pochodzą<br />

z (Pruszewicz, 2000).<br />

Fonem<br />

Częstotliwość<br />

występowania<br />

Fonem<br />

Częstotliwość<br />

występowania<br />

e a o t j n ɨ m i v p r u s k ɲ d l ʃ<br />

105 96 85 47 43 40 38 35 34 32 30 29 28 28 25 24 21 19 19<br />

w ɕ z b f Ʒ g ts tʃ tɕ x ɳ dʑ c ʑ dz ɟ dƷ<br />

18 16 15 15 13 13 13 12 12 12 10 8 7 7 2 2 1


1.1.3.2 Sposób i miejsce artykulacji<br />

Sposób artykulacji jest powiązany z przepływem powietrza przez ka<strong>na</strong>ł głosowy: tor,<br />

jakim powietrze przechodzi oraz stopień zwężeń. Głos uzyskuje odpowiedni poziom<br />

głośności i barwę przez wzmocnienie lub osłabienie niektórych składowych tonu krtaniowego<br />

w jamach rezo<strong>na</strong>nsowych samej krtani, gardła, jamy ustnej i jamy nosowej, a dzięki zmianom<br />

objętości i kształtu tych komór powstawać mogą różne dźwięki mowy o charakterze:<br />

• przebiegów periodycznych lub quasi-periodycznych (samogłoski, spółgłoski nosowe,<br />

np. m, n);<br />

• przebiegów nieperiodycznych- szumowych (spółgłoski bezdźwięczne trące, np. f, h<br />

/x/ sz /ʃ/ i zwarto-trące, np. c /ts/, cz /tʃ/, ć /tɕ/);<br />

• przebiegów nieperiodycznych- quasi-impulsowych (spółgłoski zwarte dźwięczne np.<br />

b,d,g i bezdźwięczne, np. p,t,k);<br />

• przebiegów stanowiących superpozycję przebiegów periodycznych i<br />

nieperiodycznych (spółgłoski dźwięczne trące, np. w /v/,z i zwarto-trące, np. dź /dʑ/,<br />

dż /dƷ/).<br />

Podczas, gdy w oparciu o sposób artykulacji moż<strong>na</strong> podzielić fonemy <strong>na</strong> szerokie<br />

kategorie używane w większości języków, miejsce artykulacji (punkt, w którym tor głosowy<br />

jest <strong>na</strong>jbardziej zwężony) umożliwia z<strong>na</strong>cznie lepszą dyskrymi<strong>na</strong>cję fonemów. Poszczególne<br />

języki różnią się z<strong>na</strong>cznie miejscami, które wykorzystywane do wytwarzania fonemów.<br />

Praktycznie wszystkie języki wykorzystują samogłoski, spółgłoski nosowe, zwarte i trące,<br />

jed<strong>na</strong>k liczba i wybór miejsc artykulacji różni się z<strong>na</strong>cznie między poszczególnymi językami.<br />

Wiele języków używa zaledwie 3-5 samogłosek, podczas gdy w angielskim jest ich 13, a we<br />

francuskim 15.<br />

Język polski jest pod względem samogłosek dość ubogi. W jego systemie<br />

fonologicznym samogłoski są bowiem nieliczne, a zdecydowanie przeważają spółgłoski.<br />

Występuje tu zaledwie 6 fonemów samogłoskowych ustnych: /i/, /ɨ/, /e/, /a/, /o/, /u/,<br />

którym to odpowiadają litery (grafemy) samogłoskowe: i, y, e, a, o oraz u.<br />

W tradycyjnych opisach języka polskiego przyjmuje się też, że istnieją co <strong>na</strong>jmniej dwa<br />

fonemy samogłoskowe nosowe odpowiadające literom ę i ą. W nowszych opisach fonologii<br />

polszczyzny współczesnej fonemów samogłoskowych nosowych nie wymienia się, uz<strong>na</strong>jąc że<br />

grafemom ę, ą odpowiadają w istocie zawsze ciągi złożone z dwu fonemów, ustnej<br />

samogłoski /o/, /e/ oraz odpowiedniego fonemu spółgłoskowego nosowego: /m/ /n/,<br />

/ɲ/ lub /ŋ/.<br />

Klasyfikacji samogłosek polskich moż<strong>na</strong> doko<strong>na</strong>ć ze względu <strong>na</strong>:<br />

• poziomy ruch języka - przednie, środkowe, tylne<br />

• pionowy ruch języka - wysokie, średnie, niskie<br />

• kształt warg - płaskie, półokrągłe, okrągłe<br />

• udział rezo<strong>na</strong>tora nosowego - ustne, nosowe<br />

Typowe miejsca artykulacji przedstawiono <strong>na</strong> Rys. 1-5.<br />

15


Rys. 1-5. Miejsca artykulacji: 1- wargi, 2- zęby, 3- dziąsła, 4- podniebienie twarde, 5- podniebienie<br />

miękkie, 6- języczek, 7- gardło, 8- głośnia. Rysunek zaadaptowano z (O'Shaughnessy, 2000).<br />

1.1.3.3 Koartykulacja<br />

Wytwarzanie mowy wymaga generowania czasowej sekwencji ustawień<br />

artykulatorów. Dlatego też określone, kluczowe, aspekty kształtu toru głosowego muszą<br />

zachodzić w porządku odzwierciedlającym sekwencję fonemów. Ustawienia i ruchy<br />

poszczególnych artykulatorów <strong>na</strong>kładają się <strong>na</strong> siebie w czasie, dlatego też kształty toru<br />

głosowego podczas wytwarzania fonów zależą wysoce od ich kontekstu , czyli wzajemnego<br />

sąsiedztwa. Zjawisko koartykulacji dotyczy zmian w artykulacji fonemów i postaci<br />

akustycznej fonów w zależności kontekstu. Fon jest zazwyczaj powiązany z fonemem, gdy<br />

wszystkie artykulatory są w ‘odpowiedniej’ pozycji. Kończy się <strong>na</strong>tomiast kiedy jeden lub<br />

więcej elementów przesuwa się w kierunku kolejnego fonemu powodując tym samym zmiany<br />

akustyczne w syg<strong>na</strong>le mowy. Moż<strong>na</strong> intuicyjnie stwierdzić, iż czas artykulacji fonemu<br />

przekracza jego akustyczny czas trwania ponieważ ruch artykulatorów dla danego fonemu<br />

zaczy<strong>na</strong> się już podczas trwania poprzedniego fonu, a kończy podczas <strong>na</strong>stępnego. Czas<br />

pomiędzy <strong>na</strong>jwiększymi zmia<strong>na</strong>mi między fo<strong>na</strong>mi, określony jako granice fonu, jest<br />

<strong>na</strong>jczęściej związany ze zmia<strong>na</strong>mi sposobu artykulacji.<br />

1.2 SUPRASEGMENTALNE CECHY MOWY<br />

1.2.1 RYTM<br />

Rytm moż<strong>na</strong> zdefiniować jako powtarzalność (z zauważalną regularnością)<br />

podobnych lub jed<strong>na</strong>kowych elementów brzmieniowych. Za <strong>na</strong>jbardziej ogólną cechę rytmu<br />

przyjmuje się zjawisko izochronizmu, polegające <strong>na</strong> tendencji do wyrównywania czasowego<br />

określonych ciągów segmentów, tj. quasiokresowego ich występowania. Język polski w<br />

swobodnej formie mówionej nie jest silnie rytmiczny. Pruszewicz (1992) podaje przykład<br />

izochronizmu: „(...)w przypadku braku tendencji do wyrównywania czasowego wymówiony<br />

oddzielnie wyraz grał (1 sylaba) byłby ok. 2 razy krótszy niż grałby (2 sylaby), 3 razy krótszy<br />

niż grałyby (3 sylaby) oraz 4 razy krótszy niż gralibyśmy (4 sylaby). Wprawdzie w podanej<br />

kolejności cytowane wyrazy są coraz dłuższe, ale izochronizm powoduje, że jednostka<br />

rytmicz<strong>na</strong> gralibyśmy jest tylko 2 do 3 razy dłuższa niż grał”.<br />

1.2.2 INTONACJA<br />

Into<strong>na</strong>cję definiuje się jako przebieg melodyczny danego segmentu językowego, tj.<br />

charakterystyczne dla niego <strong>na</strong>stępstwo tonów o różnej wysokości. Określony kontur<br />

into<strong>na</strong>cyjny, czyli funkcja przedstawiająca zmiany częstotliwości tonu krtaniowego w czasie,<br />

16


jest jedną z cech definicyjnych wypowiedzi językowej i pełni określoną funkcję semantyczną,<br />

np. charakterystycz<strong>na</strong> jest into<strong>na</strong>cja pytania, apelu, czy też wypowiedzi <strong>na</strong>cechowanych<br />

emocjo<strong>na</strong>lnie. W niektórych językach into<strong>na</strong>cja sylaby lub sylab sąsiadujących w granicach<br />

wyrazu akcentowanego pełni funkcję dystynktywną (tzw. języki toniczne, np. Szwedzki).<br />

Jednostką into<strong>na</strong>cyjną jest fraza, czyli część wypowiedzi o pewnym określonym<br />

przebiegu wysokości dźwięku. Moż<strong>na</strong> wyróżnić tu przebiegi rosnące, opadające i równe<br />

(into<strong>na</strong>cje rdzenne). Rzadko <strong>na</strong>tomiast pojawiają się w języku polskim przebiegi rosnącoopadające.<br />

Przebiegi into<strong>na</strong>cji moż<strong>na</strong> przedstawić w dziedzinie częstotliwości przez<br />

przypisanie każdej sylabie kropki o odpowiednim położeniu. Jeżeli w obrębie sylaby<br />

wysokość dźwięku się zmienia, oz<strong>na</strong>czyć to moż<strong>na</strong> wężykiem skierowanym odpowiednio w<br />

górę lub w dół. Normalną skalę głosu zaz<strong>na</strong>cza się ograniczającą linią dolną i górną.<br />

Najbardziej typowe przebiegi into<strong>na</strong>cyjne języka polskiego ilustrują przykłady <strong>na</strong> Rys. 1-6.<br />

Rys. 1-6. Typowe przebiegi into<strong>na</strong>cyjne języka polskiego. Rysunek zaadaptowano z (Pruszewicz, 1992).<br />

1.2.3 AKCENT<br />

Akcent to wyróżnienie sylaby w wyrazie lub wyrazu w zdaniu za pomocą np.<br />

specyficznej into<strong>na</strong>cji lub iloczasu (czasu trwania poszczególnych dźwięków mowy). W<br />

języku polskim występuje akcent into<strong>na</strong>cyjny, stały (<strong>na</strong> określonej sylabie, zwykle<br />

przedostatniej).<br />

Fonetycznymi jednostkami suprasegmentalnymi są: zestrój akcentowy (jednostka<br />

rytmicz<strong>na</strong>) oraz fraza (jednostka into<strong>na</strong>cyj<strong>na</strong>). Zestrój akcentowy może składać się z jednej,<br />

dwu lub kilku sylab, z jedną sylabą wyróżnioną rytmicznie; może obejmować jeden lub kilka<br />

wyrazów. Jednocześnie, jeden dłuższy wyraz może stanowić dwa zestroje akcentowe, z<br />

dwiema sylabami wyróżnionymi rytmicznie, czyli rytmicznie akcentowanymi. Akcent<br />

rytmiczny jest w języku polskim mało z<strong>na</strong>czący. Z<strong>na</strong>cznie wyraźniejszy jest akcent<br />

into<strong>na</strong>cyjny. Into<strong>na</strong>cyjnie akcentowa<strong>na</strong> jest pierwsza sylaba rdzennego przebiegu<br />

into<strong>na</strong>cyjnego (Pruszewicz, 1992).<br />

1.3 FIZYCZNE CECHY MOWY<br />

Z akustycznego punktu widzenia <strong>na</strong>jważniejszą fizyczną charakterystyką syg<strong>na</strong>łu<br />

mowy jest jego widmo, a parametrem - poziom ciśnienia akustycznego. Dlatego też, w<br />

niniejszym rozdziale przea<strong>na</strong>lizowano właśnie fizyczne aspekty mowy. Dane zaprezentowane<br />

w tym rozdziale oparte są o badania mowy dla języka angielskiego.<br />

Warto tu także przedstawić zakres poziomów i częstotliwości, jakie zwykle zajmuje<br />

syg<strong>na</strong>ł mowy pomiędzy progiem słyszenia a progiem bólu. Ogólnie moż<strong>na</strong> stwierdzić, iż<br />

zakres widmowy syg<strong>na</strong>łów mowy zawiera się pomiędzy częstotliwościami od ok. 100 Hz do<br />

ok. 8 kHz, a <strong>na</strong>wet dla niektórych fonemów (np. /s/) 12 kHz, a poziomy składowych<br />

widmowych między 30 a 90 dB SPL (przy pomiarze w odległości 1 m od ust mówcy). Ze<br />

17


względu <strong>na</strong> to, że mowa jest procesem dy<strong>na</strong>micznym (jej <strong>na</strong>tężenie ulega nieustannym<br />

zmianom), moż<strong>na</strong> zdefiniować wolno zmieniający się poziom mowy, który odzwierciedla<br />

poziom ciśnienia akustycznego szczytowych wartości syg<strong>na</strong>łu mierzony w czasie 1 s.<br />

Okazuje się, iż tak mierzony poziom jest optymalny dla zrozumiałości, gdy zawiera się w<br />

przedziale 60-70 dB SPL (O'Shaughnessy, 2000).<br />

1.3.1 WIDMO MOWY<br />

Rys. 1-7 przedstawia procentowy rozkład widma męskiego głosu (zależność jego<br />

poziomu ciśnienia skutecznego, p rms<br />

od częstotliwości). Jak moż<strong>na</strong> zauważyć w zależności<br />

od częstotliwości długoterminowe widmo zawiera się w przedziale 20-40 dB SPL.<br />

Rys. 1-7. Procentowy rozkład widma męskiego głosu mierzonego w interwałach 0,125 s w czasie 2 minut.<br />

Dane pochodzą z (Kryter, 1994).<br />

Dane te uzyskano dla mowy o stałym poziomie ciśnienia akustycznego głosu w<br />

kabinie bezechowej. Zmienność poziomu ciśnienia akustycznego głosu jest tą cechą syg<strong>na</strong>łów<br />

mowy, która wpływa <strong>na</strong> fakt, iż „porcje” tych syg<strong>na</strong>łów mogą być czasami słyszalne w<br />

obecności zakłóceń (hałasu, szumu, itp.) <strong>na</strong>wet wówczas, gdy zdecydowa<strong>na</strong> część<br />

wypowiedzi nie jest słyszal<strong>na</strong>.<br />

Na Rys. 1-8 ukazano <strong>na</strong>tomiast tercjowe widmo syg<strong>na</strong>łu mowy mierzonej w<br />

odległości 1 m od mówców stosujących różną „siłę” głosu: cicho, normalnie, podniesiony<br />

głos, głośno, krzyk).<br />

18


Rys. 1-8. Całkowite poziomy dźwięku oraz tercjowe widmo mowy dla pięciu sił głosu. Dane pochodzą z<br />

(Kryter, 1994).<br />

Widać tu wyraźne zmiany w przebiegu widma w zależności od „siły” głosu. Ogólnie<br />

moż<strong>na</strong> stwierdzić, że im głośniejsza mowa, tym maksimum widmowe przesuwa się w<br />

kierunku większych częstotliwości, <strong>na</strong>tomiast dla jeszcze większych składowych<br />

częstotliwości <strong>na</strong>stępuje spadek o 6-8 dB <strong>na</strong> oktawę.<br />

Do przedstawionych badań wykorzystano materiał słowny stworzony przez Bell<br />

Telephone Laboratories. Przykładowe zdania brzmiały <strong>na</strong>stępująco: „Joe took father’s shoe<br />

bench out” lub „She was waiting at my lawn”. Zdania te zawierają <strong>na</strong>jbardziej typowe<br />

samogłoski i sylaby.<br />

A<strong>na</strong>lizie widmowej poddaje się także obwiednię amplitudową mowy. Moż<strong>na</strong> wówczas<br />

zauważyć lokalne maksimum przypadające <strong>na</strong> częstotliwość 4 Hz (Zwicker, 1952).<br />

Właściwość tę często wykorzystuje się w automatycznych detektorach syg<strong>na</strong>łu mowy.<br />

1.3.2 ŚREDNI POZIOM CIŚNIENIA AKUSTYCZNEGO MOWY DLA KOBIET I<br />

MĘŻCZYZN<br />

Tabela 1-3 pokazuje średni równoważny poziom ciśnienia akustycznego,<br />

wraz z<br />

odchyleniem standardowym, SD mowy dla zróżnicowanej siły głosu. Doko<strong>na</strong>no także<br />

dodatkowego podziału <strong>na</strong> mężczyzn i kobiety powyżej 13 roku życia oraz dzieci poniżej 13<br />

roku życia. Nagrań dokonywano w ciszy, w kabinie bezechowej, średni poziom tła wynosił<br />

= 16 dB SPL . Wszystkie wyniki zaokrąglono do jedności. Średni poziom mowy<br />

L eqT<br />

mężczyzn jest o ok. 2-3 dB wyższy niż dla kobiet w przypadku głosu cichego, normalnego i<br />

podniesionego, a dla pozostałych sił głosu różnica ta wzrasta do 5-7 dB.<br />

Tabela 1-3. Średni poziom ciśnienia akustycznego,<br />

dla różnych sił głosu. Dane pochodzą z (Kryter, 1994).<br />

L eqT<br />

L eqT<br />

mowy wraz z odchyleniem standardowym, SD<br />

Poziom mowy [dB SPL]<br />

Mężczyźni Kobiety Dzieci Średnia<br />

Siła głosu L SD<br />

eqT<br />

L SD<br />

eqT<br />

L SD<br />

eqT<br />

L<br />

eqT<br />

Cicho 52 4 50 4 53 5 52<br />

Normalnie 58 4 55 4 58 5 57<br />

Podniesiony 65 5 63 4 65 7 64<br />

Głośny 76 6 71 6 74 9 73<br />

19


Krzyk 89 7 82 7 82 9 85<br />

1.3.3 ZAKRES CZĘSTOTLIWOŚCI DLA GŁOSÓW MĘSKICH I KOBIECYCH<br />

Istotnym parametrem wyz<strong>na</strong>czanym w badaniach <strong>na</strong>rządu głosu jest średnie położenie<br />

maksimum spektralnego i zakres głosu w dziedzinie częstotliwości. Ta cecha zwa<strong>na</strong> jest<br />

często zakresem częstotliwości podstawowej (lub tonu podstawowego) fo<strong>na</strong>cji (FFR 7 ).<br />

Średnie położenie maksimum spektralnego głosu określa tę wysokość dźwięku, w której<br />

zakresie głos w czasie mowy porusza się i niez<strong>na</strong>cznie przesuwa się ku górze lub dołowi od 4<br />

do 6 półtonów. Z<strong>na</strong>jduje się ono <strong>na</strong>jczęściej w obrębie ⅓ dolnej części zakresu częstotliwości<br />

głosu i wynosi u mężczyzn od a (220 Hz) do e (330 Hz), u dzieci i kobiet od a (220 Hz) do e 1<br />

(660 Hz). Przeciętny zakres częstotliwości głosu wynosi od 1,5 do 2 oktaw. U śpiewaków<br />

głos może obejmować <strong>na</strong>wet zakres 3,5 oktawy, a czasami <strong>na</strong>wet powyżej 4 oktaw.<br />

1.4 ANALIZA MOWY<br />

Szczegółowe badania fali dźwiękowej powstającej w procesie mówienia stały się<br />

możliwe dzięki przetworzeniu jej za pomocą mikrofonu <strong>na</strong> dokładnie a<strong>na</strong>logiczną funkcję<br />

czasową <strong>na</strong>pięcia elektrycznego. Stosuje się cztery zasadnicze sposoby wizualizacji syg<strong>na</strong>łu<br />

mowy:<br />

• oscylogram- przedstawia wielkość <strong>na</strong>pięcia elektrycznego jako szybkozmienną<br />

funkcję czasu. Występuje tu syg<strong>na</strong>ł mowy w formie tylko przetworzonej i<br />

zarejestrowanej, ale nie za<strong>na</strong>lizowanej. Oś pozioma oscylogramu prezentuje czas,<br />

a pionowa, szybkozmienną wartość ciśnienia fali dźwiękowej (wartość chwilową<br />

syg<strong>na</strong>łu);<br />

• widmo chwilowe- przedstawia rozkład energii (lub mocy) względem<br />

częstotliwości w bardzo krótkim odcinku czasu, rzędu kilku<strong>na</strong>stu milisekund;<br />

• widmo długoterminowe- reprezentuje rozkład energii względem częstotliwości <strong>na</strong><br />

odcinku czasowym rzędu od ok. sekundy do jednej lub kilku minut;<br />

• spektrogram- jest on <strong>na</strong>jważniejszym sposobem a<strong>na</strong>lizy mowy, ukazującym<br />

zmiany rozkładu energii względem częstotliwości w czasie. Na osi rzędnych<br />

spektrogramu odłożo<strong>na</strong> jest częstotliwość, <strong>na</strong> osi odciętych czas, zaś zmian<br />

amplitudy obrazuje stopień zaczernienia (lub kolor: niebieski- niska wartość<br />

składowej, czerwony- wysoka wartość chwilowa). Obecnie wykorzystuje się także<br />

spektrogramy trójwymiarowe.<br />

Widocz<strong>na</strong> <strong>na</strong> spektrogramie zależność ciśnienia akustycznego syg<strong>na</strong>łu mowy od<br />

częstotliwości oz<strong>na</strong>cza, że w określonych zakresach częstotliwości, składowe<br />

widma dźwięków mowy mogą przybierać wartości z<strong>na</strong>cznie większe niż w<br />

pozostałych zakresach. Te właśnie wyróżnione częstotliwości <strong>na</strong>zywane są<br />

częstotliwościami formantów, zaś zakresy obwiedni widma, dla których składowe<br />

przybierają wartości maksymalne <strong>na</strong>zywa się formantami. Moż<strong>na</strong> więc<br />

powiedzieć, że formant to lokalne maksimum w widmie mowy.<br />

Na spektrogramie formanty są zaz<strong>na</strong>czone przez te pasma częstotliwości, które są<br />

z<strong>na</strong>cznie ciemniejsze (lub mają czerwony odcień) w porów<strong>na</strong>niu z innymi<br />

pasmami. Wadą takiej reprezentacji jest fakt, iż a<strong>na</strong>liza widmowa, <strong>na</strong> podstawie<br />

której uzyskuje się spektrogramy, nie pozwala <strong>na</strong> otrzymanie wysokiej<br />

rozdzielczości w obu dziedzi<strong>na</strong>ch równocześnie, co jest bezpośrednią<br />

konsekwencją zasady nieoz<strong>na</strong>czoności. Zwiększanie rozdzielczości w dziedzinie<br />

czasu objawia się jej zmniejszaniem w dziedzinie częstotliwości i vice versa.<br />

7 Z ang. Fundamental Frequency Range in pho<strong>na</strong>tion.<br />

20


Czasami oprócz spektrogramu wyz<strong>na</strong>cza się tzw. sekcję czyli widmo<br />

fragmentu syg<strong>na</strong>łu. Na Rys. 1-9 przedstawiono przebieg czasowy, spektrogram<br />

(oraz sekcję fonemu /e/) zdania: Nie pomogli <strong>na</strong>m przy budowie. Porównując <strong>na</strong><br />

Rys. 1-9 sekcję z odpowiadającym jej spektrogramem, <strong>na</strong>leży skojarzyć szczyty<br />

obwiedni widm z zaczerwienionymi miejscami w spektrogramie. Otrzymuje się w<br />

ten sposób dwa skorelowane przedstawienia formantów samogłoskowych.<br />

Rys. 1-9. Przebieg czasowy i spektrogram zdania „Nie pomogli <strong>na</strong>m przy budowie” oraz sekcja fonemu /e/<br />

wyz<strong>na</strong>czo<strong>na</strong> w przedziale 10 ms w chwili 500 ms.<br />

W rozkładzie poszczególnych formantów w dziedzinie częstotliwości, ich sta<strong>na</strong>ch<br />

przejściowych (bardzo szybkich zmia<strong>na</strong>ch częstotliwości formantów) oraz we wzajemnych<br />

stosunkach ich amplitud, tkwią podstawowe cechy charakterystyczne dla wszystkich<br />

samogłosek i niektórych spółgłosek. Na Rys. 1-10 przedstawiono formanty w widmach<br />

samogłosek polskich / i/, /ɨ/ oraz /e/.<br />

Rys. 1-10. Widma samogłosek polskich / i/, /ɨ/ oraz /e/ z widocznymi formantami- lokalne maksima.<br />

Rysunek zaadaptowano z (Jassem, 1974).<br />

21


Widmo chwilowe obejmuje część albo co <strong>na</strong>jwyżej całą głoskę, podczas gdy widmo<br />

długoterminowe obejmuje co <strong>na</strong>jmniej sylabę, a może odnosić się do całego wyrazu, zdania, a<br />

<strong>na</strong>wet dłuższej wypowiedzi.<br />

Najbardziej typowymi widmami syg<strong>na</strong>łów mowy są:<br />

• widmo harmoniczne (dyskretne) - charakterystyczne dla samogłosek i niektórych<br />

spółgłosek (większość spółgłosek dźwięcznych);<br />

• widmo fluktuacyjne (ciągłe)- charakterystyczne dla większości spółgłosek i szeptu;<br />

• widmo mieszane dyskretno-ciągłe.<br />

Codzien<strong>na</strong> praktyka wykazuje, że każdy człowiek może rozpoz<strong>na</strong>ć po głosie wiele<br />

z<strong>na</strong>nych sobie osób. Istnieje wiele cech indywidualnych, które pozwalają poz<strong>na</strong>ć dany głos.<br />

Takie indywidualne właściwości głosu objawiają się m. in. w częstotliwościach formantów<br />

samogłoskowych. Na ogół z<strong>na</strong>cznemu zróżnicowaniu osobniczemu ulegają przede wszystkim<br />

czwarte oraz drugie formanty samogłosek. Głosy poszczególnych mówców <strong>na</strong>jmniej<br />

<strong>na</strong>tomiast różnią się między sobą pod względem częstotliwości trzecich formantów.<br />

1.5 PODSTAWOWE ASPEKTY PERCEPCJI MOWY ORAZ JEJ BADANIE<br />

Podczas gdy wiele wiadomo o procesie, w którym syg<strong>na</strong>ł mowy jest transformowany<br />

<strong>na</strong> odpowiadające mu ciągi wyładowań nerwowych, mechanizm, za pomocą którego mózg<br />

tłumaczy wyładowania nerwowe <strong>na</strong> treść lingwistyczną jest o wiele mniej zrozumiały (Allen,<br />

1994). Zazwyczaj w badaniach percepcji mowy traktuje się słuchacza jako swoistego rodzaju<br />

„czarną skrzynkę” - jedną całość, bez części, które mogą być przea<strong>na</strong>lizowane.<br />

Jak podaje O'Shaughnessy (2000), <strong>na</strong>jistotniejszym, ze względu <strong>na</strong> zrozumiałość<br />

mowy, jest zakres częstotliwości między 200 Hz a 5600 Hz 8 . Zakres ten odpowiada<br />

<strong>na</strong>jwiększej czułości układu słuchowego i <strong>na</strong>jwiększej energii niesionej przez syg<strong>na</strong>ł mowy.<br />

Fakt ten sugeruje, iż w procesie ewolucji mowy przetrwały te fonemy, które są zarówno<br />

<strong>na</strong>jłatwiej spostrzegane, jak i <strong>na</strong>jłatwiej wytwarzane przez człowieka.<br />

Istotność różnych zakresów częstotliwości może być mierzo<strong>na</strong> poprzez<br />

doświadczenie, w którym a<strong>na</strong>lizuje się ich wpływ <strong>na</strong> percepcję (wyrazistość lub<br />

zrozumiałość). Jeśli np. z syg<strong>na</strong>łu mowy zostaną odfiltrowane częstotliwości poniżej 1 kHz<br />

pojawią się niejednoz<strong>na</strong>czności w rozumieniu spółgłosek p-b-w. Natomiast, jeśli zostaną<br />

odfiltrowane częstotliwości powyżej 1.2 kHz, pojawią się błędy przy percepcji spółgłosek<br />

zwartych np. p-t. Dodatkowy szum lub filtracja mogą także powodować mylenie niektórych<br />

spółgłosek zwartych z trącymi i vice versa (O'Shaughnessy, 2000).<br />

Na percepcję dźwięków mowy składa się, tak jak <strong>na</strong> ich generację, kilka faz. Są to:<br />

• faza aerody<strong>na</strong>micz<strong>na</strong>- drgania powietrza w przewodzie słuchowym;<br />

• faza akustomechanicz<strong>na</strong>- przenoszenie drgań od błony bębenkowej do <strong>na</strong>rządu<br />

Cortiego;<br />

• faza mechanoelektrycz<strong>na</strong>- zamia<strong>na</strong> drgań błony podstawnej <strong>na</strong> impulsy elektryczne;<br />

• faza neurologicz<strong>na</strong>- przenoszenie informacji przez włók<strong>na</strong> nerwowe i jej<br />

przetwarzanie w ośrodkowym układzie nerwowym;<br />

• faza psychologicz<strong>na</strong>- rozpoz<strong>na</strong>nie i zrozumienie informacji. Moż<strong>na</strong> tu wyróżnić<br />

a<strong>na</strong>lizę fonetyczną, fonologiczną, leksykalną (słowną), syntaktyczną i semantyczną.<br />

Percepcję moż<strong>na</strong> więc zobrazować jako proces szeregowy, w którym syg<strong>na</strong>ł mowy<br />

jest transformowany <strong>na</strong> każdym etapie <strong>na</strong> coraz bardziej subtelną reprezentację (oraz<br />

odpowiednio a<strong>na</strong>lizowany), kończący się w korze projekcyjnej jako ostateczne wrażenie<br />

słuchowe. Trzeba jed<strong>na</strong>k podkreślić, iż niektóre procesy muszą zachodzić równolegle<br />

(możliwe, że równocześnie) ze sprzężeniem, aby umożliwić poprawianie błędnej interpretacji<br />

<strong>na</strong> niższych poziomach przetwarzania (np. fonetycznym) poprzez używanie bardziej ogólnej<br />

8 Współczesne aparaty słuchowe mają pasmo przenoszenia, które nie przekracza 6 kHz.<br />

22


(zdaniowej lub kontekstowej) wiedzy, a także by umożliwić niskopoziomowym procesom<br />

możliwość opóźnienia decyzji, gdy syg<strong>na</strong>ł nie dostarcza wystarczającej informacji.<br />

Istotą zrozumienia percepcji mowy jest zmien<strong>na</strong> <strong>na</strong>tura przebiegów akustycznych<br />

percypowanych jako poszczególne fonemy. A. M. Liber<strong>na</strong>n i in. (1985) zasugerowali, iż<br />

zależ<strong>na</strong> od, wspomnianego już wcześniej kontekstu, zmia<strong>na</strong> przebiegu akustycznego<br />

występuje generalnie dla dźwięków spółgłosek. Z<strong>na</strong>lezienie pewnych niezmiennych<br />

właściwości akustycznych odpowiadających danej spółgłosce jest <strong>na</strong>jczęściej niemożliwe.<br />

I<strong>na</strong>czej jest w przypadku samogłosek, które charakteryzują się pewnym stanem ustalonym<br />

przebiegu jak i częstotliwości formantów. To właśnie one są w przybliżeniu niezmienniczymi<br />

czynnikami pozwalającymi <strong>na</strong> ich identyfikację. Jed<strong>na</strong>kże trzeba pamiętać, iż w mowie<br />

ciągłej samogłoski są wypowiadane z dużą szybkością pomiędzy spółgłoskami i z tego<br />

względu syg<strong>na</strong>ł akustyczny w żadnym momencie nie odpowiada wyłącznie samogłosce i jest<br />

wynikiem <strong>na</strong>łożenia się samogłoski oraz występujących po niej i przed nią spółgłosek<br />

(Liberman i in., 1967). Należy więc stwierdzić, iż pojedynczy przebieg zawiera często<br />

informacje o kilku sąsiednich fonemach, co z<strong>na</strong>cznie komplikuje wskazanie jednoz<strong>na</strong>cznego<br />

związku między fonemem a przebiegiem akustycznym. Z tego względu Liberman i in. (1967)<br />

wprowadzili hipotezę postulującą istnienie w mózgu specjalnego dekodera mowy. Fonemy,<br />

których przebiegi akustyczne są w z<strong>na</strong>cznym stopniu zależne od kontekstu, <strong>na</strong>zwali<br />

fonemami zakodowanymi, a fonemy, które w mniejszym stopniu zależą od kontekstu<br />

(podlegające mniejszym zmianom)- fonemami niezakodowanymi. Zgodnie z tą hipotezą<br />

percepcja zakodowanych fonemów (np. spółgłoski zwarte) powin<strong>na</strong> w z<strong>na</strong>cznym stopniu<br />

odbiegać od percepcji fonemów niezakodowanych (np. samogłosek) oraz dźwięków nie<br />

będących mową. Jed<strong>na</strong>kże taki podział fonemów nie jest całkowicie jednoz<strong>na</strong>czny, a stopień<br />

kodowania moż<strong>na</strong> uważać za dodatkowy wymiar: od dużej do małej zależności fonemu od<br />

kontekstu (Moore, 2003).<br />

1.5.1 PERCEPCJA KATEGORIALNA<br />

Jak wykazały badania (Liberman, Cooper, Shankweiler i Studdert-Kennedy, 1967),<br />

pewne niewielkie zmiany syg<strong>na</strong>łu w przypadku fonemów zakodowanych mogą spowodować<br />

bardzo małe lub <strong>na</strong>wet niezauważalne zmiany w percepcji takiego dźwięku. Natomiast inne,<br />

równie małe, zmiany syg<strong>na</strong>łu wywołują wyraźne zmiany percepcji, wpływając w decydujący<br />

sposób <strong>na</strong> identyfikację fonemu. Efekt ten zademonstrowano wykorzystując syntetyczne<br />

syg<strong>na</strong>ły mowy, w których przejście drugiego formantu było zmieniane w małych krokach, w<br />

taki sposób, by wytworzyć wrażenie odpowiadające fonemom /bi/, /di/ oraz /gi/. Słuchacze<br />

nie słyszeli serii małych zmian syg<strong>na</strong>łu akustycznego, lecz właściwie kwantowe skoki z<br />

jednej kategorii percepcyjnej do drugiej. Co więcej, słuchacze nie słyszeli zmian w fonemach<br />

z jednej kategorii percepcyjnej, ale słyszeli zmiany z jednego fonemu w inny. Ten sposób<br />

percypowania dźwięków <strong>na</strong>zwano percepcją kategorialną. Oz<strong>na</strong>cza to, iż dla syg<strong>na</strong>łu<br />

akustycznego zmieniającego się tylko względem jednego wymiaru (np. częstotliwości), liczba<br />

rozróżnianych syg<strong>na</strong>łów jest z<strong>na</strong>cznie większa niż liczba syg<strong>na</strong>łów, które w sposób<br />

bezwzględny potrafimy zidentyfikować jako części mowy (Moore, 2003).<br />

Percepcja samogłosek jest zupełnie in<strong>na</strong>. Charakteryzują się one bowiem sta<strong>na</strong>mi<br />

ustalonymi, a niewielka zmia<strong>na</strong> ich parametrów fizycznych jest bardzo łatwo percypowa<strong>na</strong> i<br />

w związku z tym jed<strong>na</strong> samogłoska może być słysza<strong>na</strong> <strong>na</strong> tle innej samogłoski, i może temu<br />

towarzyszyć z<strong>na</strong>cz<strong>na</strong> międzyfonemowa zmienność. Wynikać to może z faktu, że samogłoski<br />

są percypowane jak dźwięki nie będące mową. Jed<strong>na</strong>k trzeba pamiętać, iż wypowiadane<br />

szybko samogłoski podlegają pewnym zmianom i, jak wykazał Stevens (1968), w takim<br />

przypadku ich postrzeganie jest bliższe percepcji kategorialnej.<br />

23


1.5.2 REDUNDANCJA SYGNAŁU MOWY<br />

Dźwięki mowy charakteryzują się dużą liczbą parametrów akustyczno-fonetycznych,<br />

przy czym tylko niektóre z nich wykorzystywane są w procesie ich percepcji. Ten fakt<br />

przyczynia się do wysokiej redundancji dźwięków mowy.<br />

Redundancja jest to <strong>na</strong>dwyżka informacji zawartej w wiadomości w stosunku do tej<br />

ilości informacji, która jest niezbęd<strong>na</strong>, aby wiadomość została przekaza<strong>na</strong> bez „uszczuplenia<br />

treści”. Przeciętny tekst języka <strong>na</strong>turalnego jest w wysokim stopniu redundantny, co zapewnia<br />

poprawne przekazanie treści komunikatu; teksty o niskiej redundancji, np. teksty depesz, czy<br />

też teksty języków formalnych, przy zakłóceniach w procesie komunikacji łatwo ulegają<br />

zniekształceniu; redundancja bywa w takich wypadkach wprowadza<strong>na</strong> celowo. Przykładem<br />

redundancji w tekście polskim są np. konstrukcje z podwójną negacją typu Nie mam nikogo,<br />

zwroty ekspresywne — Podpiszę swoją własną ręką. W telekomunikacji i informatyce<br />

kompresja danych, np. w procesie kodowania, polega <strong>na</strong> zmniejszaniu redundancji.<br />

Redundancja ma istotne z<strong>na</strong>czenie dla właściwej percepcji. Ma to miejsce w<br />

przypadku np. występowania zakłóceń zewnętrznych czy zniekształceń w urządzeniach<br />

przetwarzających lub ograniczenie pasma przenoszenia, np. w torach telekomunikacyjnych.<br />

Okazuje się np. iż odfiltrowanie częstotliwości powyżej 1.8 kHz pozwala cały czas <strong>na</strong><br />

poprawne zrozumienie ok. 67 % wszystkich sylab (Moore, 2003). Percepcja fonemu jest<br />

często zależ<strong>na</strong> od kontekstu: syg<strong>na</strong>ły akustyczne bezpośrednio przed i po aktualnej artykulacji<br />

są decydujące w procesie percepcji (koartykulacja) (O'Shaughnessy, 2000). Także inne,<br />

bardziej złożone formy kontekstu mają z<strong>na</strong>czący wpływ <strong>na</strong> percepcję mowy. Słuchacze<br />

dopasowując bowiem swoje ramy percepcyjne tak, by pasowały do oczekiwanego syg<strong>na</strong>łu<br />

mowy, przewidują go dzięki wiedzy o mówcy, kontekstu konwersacji i wiedzy ogólnej. Z<br />

tego względu ważne jest, żeby testy badające zrozumiałość mowy w danych warunkach<br />

akustycznych były jak <strong>na</strong>jbardziej obiektywne i uwzględniały powyższe zjawiska. Z tego<br />

właśnie względu stosuje się często testy logatomowe, „odci<strong>na</strong>jąc” się od kontekstu<br />

wypowiedzi.<br />

1.5.3 MODELE PERCEPCJI<br />

Pomimo wielu prac związanych z percepcją mowy, ciągle nie stwierdzono<br />

jednoz<strong>na</strong>cznie, jakie są podstawowe jednostki tej percepcji, tzn. czy są to fonemy, sylaby, czy<br />

też inne elementy mowy.<br />

1.5.3.1 Modele Aktywne<br />

Modele aktywne percepcji mowy zakładają, że jest o<strong>na</strong> procesem wykorzystującym<br />

bezpośredni dostęp do procesów jej wytwarzania. Aby wyjaśnić różnorodność wyników<br />

eksperymentalnych w zależności od metod eksperymentalnych, zaproponowano kilka<br />

aktywnych modeli percepcji mowy. Postuluje się np., że słuchacze używają syg<strong>na</strong>łu mowy do<br />

dekodowania informacji o układzie i ruchach ka<strong>na</strong>łu głosowego, który produkuje syg<strong>na</strong>ł.<br />

Niektórzy autorzy sugerują, iż istnieje specjalny mod słuchania mowy, który jest włączany,<br />

gdy słuchacz słyszy mowę po raz pierwszy (Liberman, Cooper, Shankweiler i Studdert-<br />

Kennedy, 1967; Schouten, 1980). Zwraca on wtedy większą uwagę <strong>na</strong> charakterystyczne dla<br />

mowy parametry (np. formanty). Alter<strong>na</strong>tywą jest tzw. teoria motorycz<strong>na</strong> (Liberman, Cooper,<br />

Shankweiler i Studdert-Kennedy, 1967; Liberman i Mattingly, 1985). Zakłada się w niej, iż<br />

słuchacz dekoduje przychodzącą mowę nieświadomie produkując wewnętrzną wersję<br />

artykulacyjną i porównuje ją z syg<strong>na</strong>łem (Liberman, Cooper, Shankweiler i Studdert-<br />

Kennedy, 1967; Moore, 2003). Moż<strong>na</strong> więc powiedzieć, iż „obiekty percepcji mowy są<br />

zamierzonymi fonetycznymi gestami mówcy, reprezentowanymi w mózgu jako niezmienne<br />

motoryczne polecenia, które wywołują ruchy poszczególnych elementów <strong>na</strong>rządu mowy za<br />

pośrednictwem istotnych lingwistycznie konfiguracji,” (Liberman i Mattingly, 1985). Teoria<br />

24


ta zakłada więc bliskie odwzorowanie między fonemami i odpowiadającymi im komendami<br />

artykulacyjnymi. Z tym podejściem wiąże się teoria a<strong>na</strong>lizy przez syntezę, w której zakłada<br />

się, iż słuchacz nieświadomie produkuje „syntetyczną” wersję syg<strong>na</strong>łu mowy opartą o<br />

pobieżną a<strong>na</strong>lizę słuchową (Rys. 1-11). Jeśli dwie wersje pasują do siebie, a<strong>na</strong>lizę uz<strong>na</strong>je się<br />

za udaną, jeśli nie- jest stosowany bardziej wyszukany rodzaj przetwarzania syg<strong>na</strong>łu<br />

wejściowego. Taki dualny model angażuje zarówno procesy kognitywne góra-dół, jak i dółgóra<br />

w percepcji mowy i sugeruje, iż słuchacz dekoduje szczegóły syg<strong>na</strong>łu tylko do pewnego<br />

stopnia, od którego niemożliwa jest ich predykcja z kontekstu. Wysoko redundant<strong>na</strong> rozmowa<br />

między przyjaciółmi w cichym pomieszczeniu wymaga słabego dekodowania, podczas gdy<br />

rozmowa <strong>na</strong> hałaśliwej ulicy wymagająca specyficznego słownictwa polega głównie <strong>na</strong><br />

a<strong>na</strong>lizie dół-góra.<br />

Właśnie percepcja kategorial<strong>na</strong> jest często podawa<strong>na</strong> jako dowód modelu dualnego<br />

procesu percepcji mowy z procesem słuchowym przebiegającym dół-góra oraz z procesem<br />

fonetycznym przebiegającym góra-dół (O'Shaughnessy, 2000). Proces słuchowy identyfikuje<br />

syg<strong>na</strong>ł mowy w oparciu o cechy akustyczne i przechowuje je w krótkotrwałej pamięci<br />

słuchowej. Proces fonetyczny, <strong>na</strong>tomiast umożliwia percepcję fonemów opierając się <strong>na</strong><br />

cechach zawartych w pamięci słuchowej.<br />

Rys. 1-11. Schemat blokowy modelu a<strong>na</strong>lizy przez syntezę w procesie percepcji mowy. Rysunek<br />

zaadaptowano z (O'Shaughnessy, 2000).<br />

1.5.3.2 Model Pasywny<br />

Modele pasywne, w odróżnieniu od aktywnych, nie odnoszą się do artykulacji i<br />

zakładają bezpośrednie odwzorowanie cech akustycznych <strong>na</strong> kategorie fonetyczne (Rys.<br />

1-12). Syg<strong>na</strong>ł mowy (A) jest transformowany <strong>na</strong> wyładowania nerwowe w nerwie słuchowym<br />

(B) i jest kodowany bezpośrednio <strong>na</strong> cechy dystynktywne (C), które pozwalają <strong>na</strong><br />

rozpoz<strong>na</strong>nie jednostek lingwistycznych (D) <strong>na</strong> poziomie fonemów i większych jednostek.<br />

Wzorce słuchowe <strong>na</strong> poziomie C są jednostkami mniejszymi od fonemów, co oz<strong>na</strong>cza, iż<br />

wykorzystują cechy <strong>na</strong> poziomie zjawisk akustycznych i potrafią poradzić sobie z<br />

identyfikacją periodyczności lub energii w różnych pasmach częstotliwości. Następnie<br />

<strong>na</strong>stępuje a<strong>na</strong>liza przez syntezę przetwarzając mowę <strong>na</strong> jednostki lingwistyczne (E). Warto<br />

podkreślić, iż wytwarzanie mowy jest ściśle związa<strong>na</strong> z jej percepcją, jed<strong>na</strong>k wytwarzanie<br />

25


mowy uaktywnia proces równoległy, który może oddziaływać z percepcją poprzez cech<br />

dystynktywne (J).<br />

Rys. 1-12. Hipotetyczny model funkcji mózgu w procesie percepcji i wytwarzania mowy. Rysunek<br />

zaadaptowano z (O'Shaughnessy, 2000).<br />

1.5.4 TREŚĆ LINGWISTYCZNA A PERCEPCJA MOWY<br />

Specyfika percepcji dźwięków mowy wynika również stąd, że zależy o<strong>na</strong> także od<br />

treści lingwistycznej niesionej przez te dźwięki. Miller i in. (1951a) udowodnili, iż<br />

zrozumiałość mowy w obecności zakłóceń (szumu) jest funkcją prawdopodobieństwa<br />

występowania dźwięków, słów, czy fraz. Im większy zbiór wiadomości był używany w<br />

testach, tym mniejsze prawdopodobieństwo wystąpienia poszczególnego elementu z tego<br />

zbioru i tym bardziej komunikacja jest podat<strong>na</strong> <strong>na</strong> wpływ zakłóceń. Jak pokazano to <strong>na</strong> Rys.<br />

1-13, zrozumiałość jest w jed<strong>na</strong>kowym stopniu zależ<strong>na</strong> od wielkości zbioru informacji, jak i<br />

od maskowania szumem. Do badań tych wykorzystano testy jednosylabowe.<br />

Warto dodać, że z<strong>na</strong>czący wpływ <strong>na</strong> percepcję dźwięków mowy mają też ruchy<br />

twarzy i warg osoby mówiącej. Ta audiowizual<strong>na</strong> integracja percepcji słuchowej i wzrokowej<br />

wskazuje <strong>na</strong> fakt istnienia dodatkowego mechanizmu percepcji mowy wykorzystującego<br />

informacje artykulacyjną.<br />

26


zrozumiałość, %<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

-18 -15 -12 -9 -6 -3 0 3 6 9<br />

0<br />

0<br />

-18 -15 -12 -9 -6 -3 0 3 6 9<br />

SNR, dB<br />

100<br />

90<br />

80<br />

70<br />

60<br />

50<br />

40<br />

30<br />

20<br />

10<br />

2<br />

4<br />

8<br />

16<br />

32<br />

256<br />

1000<br />

Rys. 1-13. Zrozumiałość mowy w zależności od stosunku syg<strong>na</strong>łu do szumu. Parametrem jest liczba<br />

wyrazów w teście. Dane pochodzą z (Kryter, 1994).<br />

1.5.5 BADANIE PERCEPCJI MOWY<br />

W tym rozdziale omówiono zależności wiążące wyrazistość i zrozumiałość mowy,<br />

stosowane pomiary percepcji mowy i zasady tworzenia testów sprawdzających jej<br />

zrozumiałość, jak i dodatkowe czynniki wpływające <strong>na</strong> zmianę zrozumiałości mowy.<br />

1.5.5.1 Pomiary percepcji mowy<br />

Jassem (1974) wymienia <strong>na</strong>jczęściej stosowane miary percepcyjnej oceny<br />

przekazywanej mowy. Zalicza do nich:<br />

• wyrazistość głosek określa w procentach poprawność odbioru w danych warunkach<br />

każdego fonemu danego języka z osob<strong>na</strong>. Badania tego typu są ważne zwłaszcza w<br />

tych przypadkach, kiedy przy bardzo dużych zakłóceniach lub zniekształceniach<br />

operuje się pewnym ograniczonym zasobem wypowiedzi;<br />

• wyrazistość głoskowa opisuje ogólny udział procentowy prawidłowo odebranych<br />

fonemów. Właśnie dla badania wyrazistości głosek i wyrazistości głoskowej układa<br />

się listy logatomowe;<br />

• wyrazistość sylabicz<strong>na</strong> wskazuje procentowy udział w danych warunkach prawidłowo<br />

odebranych sylab;<br />

• zrozumiałość wyrazowa określa względną liczbę poprawnie odebranych wyrazów;<br />

• zrozumiałość zdaniowa w takich badaniach podaje się całe zdania, które słuchacz<br />

zapisuje, bądź powtarza. Używa się też czasem prostej metody zadawania pytań, <strong>na</strong><br />

które odpowiedź może być tylko jed<strong>na</strong> (np. Stolica Polski?).<br />

1.5.5.2 Kryteria lingwistyczne doboru list odsłuchowych<br />

Listy odsłuchowe są stosowane w różnych dziedzi<strong>na</strong>ch, w których badaniom<br />

podlegają możliwości lub ograniczenia percepcji mowy w zakresie elementów<br />

segmentalnych, np. w telekomunikacji, akustyce wnętrz, badaniu dobroci ścieżki dźwiękowej<br />

filmu, w audiometrii słownej, czy też w badaniu wpływu zakłóceń <strong>na</strong> zrozumiałość mowy. W<br />

27


zależności od różnych założeń, potrzeb oraz warunków Pruszewicz (2000) wyróżnia kilka<br />

kryteriów fonetyczno-lingwistycznych stosowanych przy układaniu takich list:<br />

• zrównoważenie fonematyczne. Listę, lub zespół list traktowanych łącznie, określa się<br />

jako zrównoważone fonematycznie, jeżeli liczebność poszczególnych fonemów jest<br />

taka sama (lub w zbliżo<strong>na</strong>) do względnej częstości ich występowania dla danego<br />

języka;<br />

• obciążenie fonetyczne. Lista (lub listy) są obciążone fonetycznie, jeżeli dominują w<br />

nich fonemy o relatywnie wysokich lub relatywnie małych częstotliwościach (w<br />

sensie akustycznym);<br />

• wyrów<strong>na</strong>nie fonematyczne. Listę wyrazową określamy jako wyrów<strong>na</strong>ną<br />

fonematycznie, jeśli częstość występowania w niej wszystkich fonemów jest w<br />

przybliżeniu taka sama w poszczególnych listach;<br />

• wyrów<strong>na</strong>nie częstościowe wyrazów. Dla ważniejszych języków istnieją obecnie<br />

słowniki frekwencyjne podające częstość występowania leksemów 9 w różnego<br />

rodzaju tekstach pisanych. Jest to tzw. częstość obiektyw<strong>na</strong> leksemów. Jest o<strong>na</strong><br />

skorelowa<strong>na</strong> z częstością subiektywną, która odpowiada wyczuciu częstości użycia<br />

poszczególnych leksemów w mowie przez użytkowników języka. Częstość<br />

subiektyw<strong>na</strong> jest ważnym czynnikiem w badaniach audiometrycznych z uwagi <strong>na</strong><br />

docenianą w psychologii mowy jej korelację z łatwością dostępu do leksykonu<br />

umysłowego. W utrudnionych warunkach słyszenia odbiorca łatwiej odbiera leksemy<br />

częste (lepiej z<strong>na</strong>ne) niż leksemy rzadkie (mniej z<strong>na</strong>ne). Wszystkie wyrazy powinny<br />

mieć w dobrym przybliżeniu taką samą częstość subiektywną, to z<strong>na</strong>czy powinny<br />

wszystkie być częste, tj. dobrze z<strong>na</strong>ne, albo wszystkie mało z<strong>na</strong>ne, tj. rzadkie;<br />

• częstość wyrazowa. Rozróżnić <strong>na</strong>leży trzy zasadnicze typy składników list<br />

audiometrycznych: (α) wyrazy częste, dobrze z<strong>na</strong>ne badanym, przy czym uwzględnić<br />

<strong>na</strong>leży wiek i poziomu wiedzy ogólnej słuchacza, (β) wyrazy ogólnie mało z<strong>na</strong>ne,<br />

oraz (γ) logatomy;<br />

• zrównoważenie strukturalne polega <strong>na</strong> takim doborze (pseudo) wyrazów, by <strong>na</strong> liście<br />

(lub zespole list traktowanych łącznie) reprezentowa<strong>na</strong> była pod względem<br />

częstościowym struktura wyrazów.<br />

1.5.5.3 Dodatkowe czynniki wpływające <strong>na</strong> zrozumiałość mowy<br />

Oprócz wspomnianego wcześniej stosunku syg<strong>na</strong>łu do szumu, <strong>na</strong> zrozumiałość mowy<br />

ma także wpływ wiele innych czynników, które jed<strong>na</strong>k nie są przedmiotem badań<br />

przeprowadzonych przez autora niniejszej pracy. Z tego powodu ograniczono się jedynie do<br />

ich wymienienia i krótkiego scharakteryzowania. Moż<strong>na</strong> do nich zaliczyć:<br />

• pogłos pomieszczenia- działanie jego jest podobne w pewnym sensie do efektu<br />

maskowania. Energia odbić może bowiem maskować <strong>na</strong>dany syg<strong>na</strong>ł mowy<br />

(szczególnie dźwięki spółgłoskowe). Optymalny 10 czas pogłosu jest funkcją objętości<br />

pomieszczenia. Zależność tę pokazano <strong>na</strong> Rys. 1-14. Dla porów<strong>na</strong>nia podano także<br />

optymalne czasy pogłosu dla sal muzycznych i kinowych. Czas pogłosu dłuższy od<br />

optymalnego może prowadzić do <strong>na</strong>kładania się poszczególnych elementów mowy,<br />

gdyż energia jednego z nich nie zdąży zaniknąć w czasie, gdy pojawi się już kolejny<br />

element;<br />

• efekt wygładzania syg<strong>na</strong>łu w pomieszczeniach w dziedzinie czasu- wygładzanie<br />

związane jest z <strong>na</strong>kładaniem się odbić różnego rzędu. Wykorzystano to w obiektywnej<br />

9 Leksemy- wyrazy z leksykonu, hasła słownikowe.<br />

10 Określenie ”optymalny” odnosi się do czasu pogłosu, dla którego uzyskuje się <strong>na</strong>jlepszą zrozumiałość (w<br />

przypadku mowy) lub <strong>na</strong>jpełniejsze brzmienie (w przypadku muzyki).<br />

28


metodzie a<strong>na</strong>lizy zrozumiałości mowy w pomieszczeniu- RASTI, w której wyz<strong>na</strong>cza<br />

się tzw. funkcję przeniesienia modulacji.<br />

• zniekształcenia nieliniowe syg<strong>na</strong>łu- zniekształcenia te mogą zawierać składowe<br />

harmoniczne parzyste i nieparzyste oraz składowe sumacyjne i różnicowe. Z<strong>na</strong>czący<br />

wpływ <strong>na</strong> zrozumiałość maja nieparzyste składowe harmoniczne;<br />

• zniekształcenia fazowe- mają zdecydowanie mniejsze z<strong>na</strong>czenie;<br />

• zniekształcenia amplitudowe obwiedni mowy- np. efekt obci<strong>na</strong>nia maksimów<br />

pogarsza jedynie <strong>na</strong>turalność brzmienia mowy. Jeśli <strong>na</strong>tomiast usunie się pewne<br />

fragmenty czasowe syg<strong>na</strong>łu, wówczas zrozumiałość ulega zdecydowanemu obniżeniu;<br />

Jak moż<strong>na</strong> zauważyć istnieje szereg czynników wpływających <strong>na</strong> percepcję mowy.<br />

Warto tu podkreślić, iż wiele z tych czynników występuje jednocześnie z<strong>na</strong>cząco wpływając<br />

<strong>na</strong> zrozumiałość mowy.<br />

500 5000 50000<br />

2,8<br />

2,6<br />

2,4<br />

2,2<br />

2,0<br />

sale kinowe<br />

średnia dla mowy<br />

muzyka lekka<br />

średnia dla muzyki<br />

chór, organy<br />

2,8<br />

2,6<br />

2,4<br />

2,2<br />

2,0<br />

T, s<br />

1,8<br />

1,6<br />

1,4<br />

1,2<br />

1,0<br />

1,8<br />

1,6<br />

1,4<br />

1,2<br />

1,0<br />

0,8<br />

0,8<br />

500 5000 50000<br />

V, m 3<br />

Rys. 1-14. Optymalny czas pogłosu jako funkcja objętości pomieszczenia. Parametrem jest przez<strong>na</strong>czenie<br />

sali. Dane pochodzą z (Śliwiński i Ozimek, 1974).<br />

29


2 Słyszenie bi<strong>na</strong>uralne<br />

Ponieważ słyszenie bi<strong>na</strong>uralne jest bardzo złożonym procesem, toteż w tej pracy<br />

ograniczono się jedynie do opisu tych zagadnień, które są bezpośrednio powiązane z<br />

przedmiotem jej badań. Opisano więc procesy lokalizacji i lateralizacji oraz czynniki <strong>na</strong> nie<br />

wpływające, tj. międzyuszną różnicę czasów (ITD 11 ) oraz międzyuszną różnicę <strong>na</strong>tężeń<br />

(IID 12 ). Dużo miejsca poświęcono także zjawisku bi<strong>na</strong>uralnej różnicy poziomów maskowania<br />

(BMLD 13 ), jako, że stanowi o<strong>na</strong> podstawę zjawiska supresji <strong>przestrzennej</strong>. Pozostałe efekty<br />

percepcji bi<strong>na</strong>uralnej np. fuzję i dudnienia bi<strong>na</strong>uralne, percepcję ruchu źródła, czy też<br />

bi<strong>na</strong>uralną percepcję dźwięków zmodulowanych pominięto.<br />

Percepcja bi<strong>na</strong>ural<strong>na</strong> oz<strong>na</strong>cza percepcję dźwięku dokonywaną za pomocą obu uszu.<br />

Dzięki niej możliwa jest oce<strong>na</strong> położenia źródła dźwięku w przestrzeni (określenie kierunku i<br />

odległości od obserwatora, czyli jego lokalizacja), bowiem większość czynników<br />

ułatwiających lokalizację zależy od porów<strong>na</strong>nia syg<strong>na</strong>łów docierających do obydwu uszu.<br />

Przestrzen<strong>na</strong> percepcja dźwięków zależy od sposobu prezentacji dźwięku słuchaczowi.<br />

Jeśli prezentacja ta odbywa się za pomocą głośnika, wówczas obraz dźwiękowy tworzy się <strong>na</strong><br />

zewnątrz głowy słuchacza. Efekt ten <strong>na</strong>zywany jest ekster<strong>na</strong>lizacją obrazu dźwiękowego. W<br />

tym przypadku interesuje <strong>na</strong>s lokalizacja źródła dźwięku. Jeśli <strong>na</strong>tomiast dźwięk<br />

prezentowany jest za pomocą słuchawek, wówczas obraz dźwiękowy lokalizowany jest<br />

<strong>na</strong>jczęściej wewnątrz głowy 14 . Efekt ten <strong>na</strong>zywa się inter<strong>na</strong>lizacją obrazu dźwiękowego,<br />

<strong>na</strong>tomiast wrażenie przemieszczania się tego obrazu wewnątrz głowy <strong>na</strong> osi łączącej oba uszy<br />

<strong>na</strong>zywa się lateralizacją.<br />

Kierunki źródeł dźwięku w przestrzeni określa się zazwyczaj względem głowy. W tym<br />

celu definiuje się trzy płaszczyzny przedstawione <strong>na</strong> Rys. 2-1. Płaszczyz<strong>na</strong> horyzontal<strong>na</strong><br />

przechodzi przez górne krawędzie wlotów do ka<strong>na</strong>łów słuchowych i dolne krawędzie<br />

oczodołów, płaszczyz<strong>na</strong> przednia jest prostopadła do płaszczyzny horyzontalnej i przeci<strong>na</strong><br />

górne krawędzie wlotów do ka<strong>na</strong>łów słuchowych zewnętrznych. Płaszczyz<strong>na</strong> środkowa jest<br />

prostopadła do pozostałych dwóch płaszczyzn. Wszystkie te płaszczyzny mają wspólny punkt<br />

przecięcia leżący w przybliżeniu w środku głowy. Punkt ten określa początek układu<br />

współrzędnych, względem którego określa się kierunki propagacji dźwięku w stosunku do<br />

obserwatora. Kierunek, z którego dochodzi dźwięk, określa się za pomocą kąta azymutalnego,<br />

o<br />

θ oraz kąta biegunowego (horyzontalnego), δ . Np. dźwięk o azymucie 90 i kącie<br />

o<br />

biegunowym równym 0 leży dokładnie <strong>na</strong>przeciw lewego ucha, podczas gdy dla<br />

o<br />

θ = δ = 90 źródło dźwięku leży <strong>na</strong>d głową słuchacza.<br />

11 Z ang. Interaural time difference.<br />

12 Z ang. Interaural intensity difference.<br />

13 Z ang. Bi<strong>na</strong>ural masking level difference.<br />

14 Jeśli słuchaczowi prezentuje się przez słuchawki <strong>na</strong>grania doko<strong>na</strong>ne za pomocą sztucznej głowy, to dochodzi<br />

do ekster<strong>na</strong>lizacji obrazu dźwiękowego. Nagrania takie wiernie odwzorowują przestrzenne ustawienie źródeł<br />

dźwięku względem słuchacza.<br />

30


Rys. 2-1. Układ współrzędnych stosowany do określenia kierunków dochodzenia dźwięków względem<br />

głowy. azymut oz<strong>na</strong>czono jako kąt θ , a kąt biegunowy oz<strong>na</strong>czono przez δ . Odległość źródła dźwięku od<br />

głowy oz<strong>na</strong>czono przez r (wg Moore’a, 1999).<br />

2.1 Czynniki lokalizacyjne<br />

Rozważmy źródło dźwięku umieszczone po jednej stronie głowy w płaszczyźnie<br />

horyzontalnej. Tworzy się wówczas bi<strong>na</strong>ural<strong>na</strong> różnica odległości, i dlatego dźwięk<br />

dochodzący do dalszego ucha jest opóźniony w czasie względem dźwięku dochodzącego do<br />

bliższego ucha i dodatkowo ma mniejsze <strong>na</strong>tężenie. Tak więc podczas lokalizacji słuchacz<br />

może porównywać charakterystyki fizyczne syg<strong>na</strong>łów docierających do prawego i lewego<br />

ucha. W ten sposób powstaje tzw. międzyusz<strong>na</strong> różnica czasu (ITD) oraz międzyusz<strong>na</strong><br />

różnica <strong>na</strong>tężeń (IID). Na Rys. 2-2 pokazano różnicę dróg fali akustycznej docierającej do<br />

lewego i prawego ucha.<br />

Rys. 2-2. Różnica dróg fali akustycznej docierającej do lewego i prawego ucha w płaszczyźnie<br />

horyzontalnej, przy padaniu fali pod kątem Θ względem linii Le-Pr (wg Ozimka, 2002).<br />

31


Zgodnie z tym rysunkiem, fala akustycz<strong>na</strong> po dotarciu do ucha prawego (Pr) musi<br />

przebyć drogę dłuższą o ∆ D , aby dotrzeć do ucha lewego (Le). Droga ta jest rów<strong>na</strong>:<br />

∆D = AB + BLe = r (sin Θ + Θ) , (1)<br />

gdzie: r - promień głowy, Θ - kąt (w radia<strong>na</strong>ch) położenia źródła dźwięku względem<br />

g<br />

obserwatora.<br />

Czas opóźnienia fali akustycznej ∆ t wynikły z różnicy dróg ∆ D jest równy:<br />

∆D<br />

∆ t =<br />

c<br />

(2)<br />

gdzie c jest prędkością dźwięku. Wielkość ∆ t określa szukaną międzyuszną różnicę czasu.<br />

Dla syg<strong>na</strong>łu sinusoidalnego o częstotliwości f moż<strong>na</strong> określić dodatkowo międzyuszną<br />

różnicę fazy ∆Φ (w stopniach), która wynosi:<br />

o<br />

∆Φ = ω ∆t<br />

= 2πf∆t<br />

= 360 f∆t<br />

(3)<br />

Na podstawie wzoru (2) moż<strong>na</strong> wyz<strong>na</strong>czyć zależność międzyusznych różnic czasu<br />

(ITD.) w funkcji azymutu. Wykres taki przedstawiono <strong>na</strong> Rys. 2-3. Zakres wartości<br />

międzyusznych różnic czasu (ITD) rozciąga się od 0 µs (dla dźwięków padających z przodu)<br />

o<br />

do 690 µs dla dźwięków, których kierunek propagacji ma azymut równy 90 (padających z<br />

boku <strong>na</strong> jedno z uszu).<br />

g<br />

Rys. 2-3. Wykres międzyusznych różnic czasu (ITD) w funkcji azymutu (wg Moorea, 1999).<br />

Dla tonów o małej częstotliwości ten czynnik lokalizacyjny dostarcza wystarczającej<br />

informacji o położeniu źródła dźwięku. Jed<strong>na</strong>k dla tonów o większych częstotliwościach,<br />

których długość fal jest porównywal<strong>na</strong> lub mniejsza od odległości między uszami (ok. 23<br />

cm), opóźnienie to nie jest jednoz<strong>na</strong>cznym czynnikiem lokalizacyjnym. Dla tonu o dużej<br />

częstotliwości da<strong>na</strong> różnica faz syg<strong>na</strong>łów w obu uszach może odpowiadać różnej liczbie<br />

okresów fali docierającej do każdego z uszu. Niejednoz<strong>na</strong>czności zaczy<strong>na</strong>ją się pojawiać, gdy<br />

pół długości fali ma ok. 23 cm, co odpowiada częstotliwości 750 Hz. Ton o takiej<br />

o<br />

częstotliwości emitowany ze źródła dźwięku umieszczonego pod kątem azymutalnym 90<br />

powoduje, że do obydwu uszu dochodzą fale, które mają przeciwne fazy. Oce<strong>na</strong> położenia<br />

źródła dźwięku jest wówczas niejednoz<strong>na</strong>cz<strong>na</strong>, ponieważ fala dochodząca do prawego ucha<br />

32


może o pół cyklu wyprzedzać lub być o pół cyklu opóźnio<strong>na</strong> względem fali dochodzącej do<br />

lewego ucha. Ruchy głowy lub źródła mogą tę niejednoz<strong>na</strong>czność rozstrzygnąć.<br />

Przy ustalonym kącie padania fali akustycznej wartość międzyusznej różnicy <strong>na</strong>tężeń<br />

(IID) jest funkcją częstotliwości dźwięku (Rys. 2-4). Dźwięki, których długości fali są<br />

porównywalne z wymiarami głowy ulegają <strong>na</strong> niej dyfrakcji, czego skutkiem jest to, że cień<br />

akustyczny wytwarzany przez głowę jest bardzo mały. Dla dźwięków o dużych<br />

częstotliwościach, których długość fali jest mała w porów<strong>na</strong>niu z wymiarami głowy,<br />

dyfrakcja jest niewielka. Międzyuszne różnice <strong>na</strong>tężenia (IID) są zaniedbywalnie małe dla<br />

częstotliwości mniejszych od 500 Hz, lecz dla dużych częstotliwości mogą one dochodzić do<br />

20 dB.<br />

Rys. 2-4. Zależność międzyusznej różnicy poziomu ciśnienia akustycznego od kąta azymutalnego źródła,<br />

dla częstotliwości 200, 1000, 3000 i 6000 Hz (wg Ozimka, 2002).<br />

Podsumowując możemy stwierdzić, że czynniki umożliwiające lokalizację związane z<br />

międzyuszną różnicą <strong>na</strong>tężeń są <strong>na</strong>jefektywniejsze dla dużych częstotliwości, podczas, gdy<br />

czynniki odpowiadające międzyusznej różnicy czasu są <strong>na</strong>jefektywniejsze dla małych<br />

częstotliwości. Koncepcja taka nosi <strong>na</strong>zwę teorii dupleksowej i zaprezentowa<strong>na</strong> była przez<br />

Lorda Rayleigha w 1907 roku. Sprawdza się o<strong>na</strong> dość dobrze dla tonów, jed<strong>na</strong>k nie jest<br />

wystarczająco ścisła dla dźwięków złożonych.<br />

Problem lokalizacji bardzo wnikliwie przea<strong>na</strong>lizowali Shinn-Cunningham i in. (2000).<br />

Przedstawili oni tzw. krzywe iso-ITD 15 oraz iso-IID 16 . Zostały one przedstawione <strong>na</strong> rysunku<br />

16. Lewa część rysunku pokazuje krzywe ITD co 50µ<br />

s dla płaszczyzny zawierającej oś<br />

przechodzącą przez oboje uszu (oś międzyuszną). Międzyuszne różnice <strong>na</strong>tężeń (IID)<br />

pojawiające się dla źródeł z<strong>na</strong>jdujących się bardzo blisko słuchacza pomagają ujednoz<strong>na</strong>cznić<br />

pozycję źródła, dla którego występują prawie identyczne ITD. W tym przypadku krzywe iso-<br />

IID i iso-ITD różnią się od siebie dostarczając właściwych informacji o pozycji źródła. Dla<br />

źródła w pozycji „×” <strong>na</strong> Rys. 2-5, słuchacz powinien być zdolny do określenia lokalizacji<br />

źródła gdzieś wewnątrz szarego obszaru w prawej części rysunku bazując jedynie <strong>na</strong><br />

15 Krzywe iso-ITD wyz<strong>na</strong>czają powierzchnie w przestrzeni o jed<strong>na</strong>kowej międzyusznej różnicy czasów (ITD) w<br />

płaszczyźnie horyzontalnej.<br />

16 Krzywe iso-IID wyz<strong>na</strong>czają powierzchnie w przestrzeni o jed<strong>na</strong>kowej międzyusznej różnicy <strong>na</strong>tężeń (IID) w<br />

płaszczyźnie horyzontalnej.<br />

33


informacji z IID. Dodatkowa informacja pochodząca z ITD ogranicza położenie źródła do<br />

pozycji między przerywanymi krzywymi (w prawej części rysunku).<br />

Rys. 2-5. Krzywe iso-ITD (po lewej) i iso-IID (po prawej) jako funkcja usytuowania przestrzennego<br />

źródła dla akustycznie przejrzystej głowy. Przez symetrię te krzywe są identyczne po obu stro<strong>na</strong>ch. Uszy<br />

oz<strong>na</strong>czono dwoma małymi kólkami w śodku rysunku. Oś odciętych jest równoległa do osi międzyusznej,<br />

zaś oś rzędnych jest do niej prostopadła. Szare obszary pokazują miejsca w przestrzeni, które mają<br />

jed<strong>na</strong>kowe ITD dla pozycji źródła oz<strong>na</strong>czonej przez „ Ο ” (lewa stro<strong>na</strong> rysunku) lub jed<strong>na</strong>kowe IID dla<br />

źródła w pozycji „× ” (prawa stro<strong>na</strong> rysunku). Linią przerywaną powtórzono krzywe iso-ITD.<br />

Wyz<strong>na</strong>czają one tzw. stożek niepewności dla źródła w pozycji „× ”. Przekrój zawarty między tymi<br />

przerywanymi liniami a szarym obszarem po prawej stronie stanowi jedyne możliwe położenia źródła<br />

zgodne jednocześnie z ITD i IID w przypadku źródła z<strong>na</strong>jdującego się w miejscu „× ” (wg Shinn-<br />

Cunningham i in., 2000).<br />

2.2 Lateralizacja dźwięku<br />

Prezentacja dźwięku za pomocą słuchawek powoduje <strong>na</strong>jczęściej powstanie wrażenia<br />

słuchowego wewnątrz głowy. Podobnie jak lokalizacja, także lateralizacja zależy od<br />

międzyusznej różnicy parametrów fizycznych syg<strong>na</strong>łów podawanych <strong>na</strong> lewe i prawe ucho.<br />

Dla międzyusznej różnicy <strong>na</strong>tężenia (IID) i międzyusznej różnicy czasów (ITD) równej zero,<br />

obraz dźwiękowy lokalizowany jest w środku głowy. Dla innych wartości tych różnic,<br />

<strong>na</strong>stępuje przemieszczenie (lateralizacja) obrazu dźwiękowego w kierunku lewego bądź<br />

prawego ucha, co zależy od wartości i z<strong>na</strong>ku ITD 17 i IID. Zależność położenia obrazu<br />

dźwiękowego wewnątrz głowy od wartości międzyusznej różnicy faz (IPD), dla syg<strong>na</strong>łu o<br />

częstotliwości 500 Hz przedstawiono <strong>na</strong> rysunku Rys. 2-6.a). Oś rzędnych odpowiada skali<br />

potencjometru wykorzystywanego przez słuchaczy do oceny przemieszczenia się obrazu<br />

17 Dla syg<strong>na</strong>łów sinusoidalnych międzyusz<strong>na</strong> różnica czasu jest równoważ<strong>na</strong> z międzyuszną różnicą fazy (IPD- z<br />

ang. interaural phase difference).<br />

34


dźwiękowego wewnątrz głowy. Wartość zero oz<strong>na</strong>cza położenie obrazu w środku głowy, zaś<br />

10 lub –10 odpowiada położeniu tego obrazu, odpowiednio, w prawym lub lewym uchu. Jak<br />

o<br />

o<br />

moż<strong>na</strong> zauważyć, wraz ze wzrostem IPD w granicach od 0 do 60 , obraz dźwiękowy<br />

przemieszcza się w kierunku ucha, w którym syg<strong>na</strong>ł wyprzedza w fazie syg<strong>na</strong>ł podawany <strong>na</strong><br />

o<br />

o<br />

ucho przeciwległe. W przedziale 60 do 120 przemieszczenie obrazu dźwiękowego staje się<br />

o<br />

wolniejsze. Dla wartości 180 oce<strong>na</strong> położenia obrazu nie jest już jednoz<strong>na</strong>cz<strong>na</strong> i niektórzy<br />

słuchacze syg<strong>na</strong>lizują jego położenie w uchu przeciwnym. Zależność położenia obrazu<br />

dźwiękowego wewnątrz głowy od wartości IPD maleje wraz ze wzrostem częstotliwości<br />

syg<strong>na</strong>łu i praktycznie zanika dla częstotliwości powyżej 1500 Hz.<br />

Położenie obrazu dźwiękowego wewnątrz głowy zależy również od międzyusznej<br />

różnicy poziomu ciśnienia akustycznego. Przedstawiono to <strong>na</strong> rysunku Rys. 2-6.b). Jak<br />

widać, dla wartości różnic tego poziomu w granicach 16-18 dB, słuchacze syg<strong>na</strong>lizują już<br />

maksymalne boczne położenia obrazu dźwiękowego.<br />

Rys. 2-6. a) Zależność położenia obrazu dźwiękowego wewnątrz głowy od międzyusznej różnicy fazy, dla<br />

syg<strong>na</strong>łu o częstotliwości 500 Hz; b) Zależność położenia obrazu dźwiękowego wewnątrz głowy od<br />

międzyusznej różnicy poziomu ciśnienia akustycznego, dla syg<strong>na</strong>łu o częstotliwości 200Hz.<br />

Licklider (1948) w swojej pracy poświęconej badaniu wpływu międzyusznych różnic<br />

fazy <strong>na</strong> maskowanie mowy przez szum biały przedstawił również wpływ IPD <strong>na</strong> lateralizację<br />

źródeł zarówno mowy, jak i szumu. Wyniki tych badań zilustrowano <strong>na</strong> rysunku 18. Symbol<br />

„+” oz<strong>na</strong>cza, że syg<strong>na</strong>ły (mowa lub szum) w obydwu uszach były w fazie, zaś symbol „-”, że<br />

odpowiednie syg<strong>na</strong>ły były w przeciwfazie. Przez „0” oz<strong>na</strong>czono sytuację, w której syg<strong>na</strong>ły<br />

docierające do obu uszu były nieskorelowane.<br />

Dla tych sześciu sytuacji, jak również dla sytuacji, gdy syg<strong>na</strong>ł mowy lub szum był<br />

podawany mo<strong>na</strong>uralnie do lewego (L) lub prawego (R) ucha Licklider wyz<strong>na</strong>czył lokalizację<br />

źródeł dźwięku wewnątrz głowy (Rys. 2-7). „OFF” oz<strong>na</strong>cza, że dany syg<strong>na</strong>ł był wyłączony.<br />

Rozpatrując międzyuszne relacje fazowe syg<strong>na</strong>łu oraz szumu, Licklider<br />

wywnioskował, że:<br />

• mowa „przesuwa się do góry”, jak gdyby chciała się „uwolnić z otaczającego ją<br />

szumu”;<br />

• szum „zasłania” głównie tę część mowy, która zajmuje tę samą przestrzeń, co szum<br />

wewnątrz głowy;<br />

35


• mowa i szum słabiej się <strong>na</strong>kładają, kiedy syg<strong>na</strong>ły te w obu uszach są w antyfazie w<br />

porów<strong>na</strong>niu z sytuacją, gdy są one zgodne w fazie.<br />

Jak łatwo zauważyć w zależności od relacji fazowych obrazy mowy, jak i szumu<br />

powstają w różnych częściach głowy. Fakt ten umożliwia rozseparowanie poszczególnych<br />

syg<strong>na</strong>łów i owocuje obniżeniem progu detekcji syg<strong>na</strong>łu lub, w przypadku mowy, poprawą jej<br />

zrozumiałości.<br />

Rys. 2-7. Wpływ IPD <strong>na</strong> lokalizację mowy i szumu białego wewnątrz głowy. Symbol „+” oz<strong>na</strong>cza, że<br />

syg<strong>na</strong>ły (mowa lub szum) w obydwu uszach były w fazie, zaś symbol „-”, że odpowiednie syg<strong>na</strong>ły były w<br />

przeciwfazie. Przez „0” oz<strong>na</strong>czono sytuację, w której syg<strong>na</strong>ły docierające do obu uszu były<br />

nieskorelowane. Zakropkowane obszary oz<strong>na</strong>czają miejsce lokalizacji szumu, zaś obszary czarne- miejsce<br />

lokalizacji mowy wewnątrz głowy w danej sytuacji odsłuchowej (wg Licklidera, 1948).<br />

2.3 Bi<strong>na</strong>uralne różnice poziomu maskowania<br />

Oprócz zasadniczej roli, jaką spełnia bi<strong>na</strong>ural<strong>na</strong> percepcja w lokalizacji źródła<br />

dźwięku, ma o<strong>na</strong> również z<strong>na</strong>czny swój udział w zmniejszeniu efektu maskowania syg<strong>na</strong>łu<br />

przez zakłócenia zewnętrzne. Okazuje się bowiem, iż próg maskowania syg<strong>na</strong>łu w warunkach<br />

odsłuchu dwuusznego może być czasami z<strong>na</strong>cznie niższy od progu wyz<strong>na</strong>czanego przy<br />

odsłuchu jednousznym (Moore, 1999). Na Rys. 2-8 przedstawiono kilka możliwych sytuacji.<br />

36


Rys. 2-8. Ilustracja dwóch sytuacji, w których występują bi<strong>na</strong>uralne różnice poziomów maskowania<br />

(BMLD). W warunkach a) i c) wykrywalność syg<strong>na</strong>łu jest niewielka, a w warunkach b) i d) międzyuszne<br />

relacje pomiędzy syg<strong>na</strong>łem i maskerem są różne, a wykrywalność syg<strong>na</strong>łu jest dobra (obrazuje to<br />

uśmiechnięta twarz) (wg Moore’a, 1999).<br />

Przez słuchawki stereofoniczne podawany był szum biały pochodzący z generatora.<br />

Tony, również pochodzące z tego samego generatora, dostarczane są oddzielnie do każdego z<br />

uszu i mieszane z szumem- wypadkowe syg<strong>na</strong>ły dochodzące do obydwu uszu są takie same, a<br />

ich poziomy wyregulowane w ten sposób, by ton był zaledwie maskowany przez szum<br />

(osiągał próg maskowania). Ten poziom syg<strong>na</strong>łu sinusoidalnego oz<strong>na</strong>czono symbolem L o<br />

dB. Złóżmy też, że syg<strong>na</strong>ł (ton) został odwrócony w fazie, co odpowiada sytuacji, w której<br />

został on przesunięty o π radianów. W wyniku takiej zmiany ton staje się znowu słyszalny<br />

(Rys. 2-8.b). Poziom tego tonu moż<strong>na</strong> ponownie zmniejszyć, doprowadzając go ponownie do<br />

wartości progu maskowania tego tonu przez szum, oz<strong>na</strong>czonej jako dB. Różnica dwóch<br />

opisanych poziomów L o<br />

− L π<br />

(dB) jest z<strong>na</strong><strong>na</strong> pod <strong>na</strong>zwą Różnicy Poziomu Maskowania<br />

(MLD), a ponieważ różnica ta jest wynikiem odsłuchu dwuusznego, często mówi się o<br />

bi<strong>na</strong>uralnej różnicy poziomu maskowania (BMLD<br />

18 ).<br />

L π<br />

18 BMLD- z ang. bi<strong>na</strong>ural masking level difference.<br />

37


Jak wynika z badań (dane takie przedstawiają np. Zwicker i Fastl, 1999 oraz Moore,<br />

1999) wartość różnicy poziomu maskowania dla małych częstotliwości (do 500 Hz) osiąga 15<br />

dB, a dla częstotliwości większych od 1500 Hz zmniejsza się do wartości 2-3 dB. Zatem, jak<br />

już wspomniano we wstępie, proste odwrócenie fazy syg<strong>na</strong>łu w jednym uchu może<br />

spowodować, że syg<strong>na</strong>ł będzie z<strong>na</strong>cznie łatwiej spostrzegany.<br />

Bardziej zaskakujący przykład pokazano <strong>na</strong> rysunku Rys. 2-8.c). Szum i syg<strong>na</strong>ł są<br />

podawane tylko do jednego ucha i syg<strong>na</strong>ł jest dopasowany tak, aby osiągał próg maskowania<br />

przez szum. Następnie do drugiego ucha podawany jest tylko szum biały (rysunek 19.d) i<br />

wówczas znów słychać syg<strong>na</strong>ł. Moż<strong>na</strong> więc stwierdzić, iż dodanie szumu do ucha, do którego<br />

nie podaje się tonu, powoduje, że ton ten staje się lepiej słyszalny. Jed<strong>na</strong>kże, co warte<br />

podkreślenia, ton ten przestaje być słyszalny, gdy do drugiego ucha doda się oprócz szumu<br />

także taki sam ton, jak do ucha pierwszego.<br />

Warto przea<strong>na</strong>lizować kilka możliwych wariantów doświadczenia. Rozpatrywaną<br />

sytuację moż<strong>na</strong> <strong>na</strong>jogólniej opisać symbolami N (dla szumu) i S (dla syg<strong>na</strong>łu), dodając do<br />

nich wskaźnik opisujący względną fazę tych syg<strong>na</strong>łów w obydwu uszach. Odwrócenie fazy<br />

odpowiada przesunięciu fazy o π radianów (np. N o<br />

S π<br />

odpowiada sytuacji, gdy szum w<br />

obydwu uszach ma tę samą fazę, syg<strong>na</strong>ł zaś jest przesunięty w fazie o π radianów). Litera m<br />

wskazuje <strong>na</strong> prezentację mo<strong>na</strong>uralną. N u<br />

będzie oz<strong>na</strong>czać, że szum w obydwu uszach jest<br />

nieskorelowany<br />

19 .<br />

W Tabeli 5 podano wartości różnic poziomu maskowania dla różnych kombi<strong>na</strong>cji<br />

syg<strong>na</strong>łu i szumu.<br />

Tabela 4. Wartości różnic poziomu maskowania dla różnych międzyusznych relacji pomiędzy syg<strong>na</strong>łem i<br />

maskerem (wg Moore’a, 1999).<br />

Związek pomiędzy syg<strong>na</strong>łem i szumem w Różnica poziomu maskowania w dB<br />

obydwu uszach<br />

N u<br />

3<br />

S π<br />

N uS o<br />

4<br />

N π<br />

S m<br />

6<br />

N oS m<br />

9<br />

N π<br />

S o<br />

13<br />

N o<br />

S π<br />

15<br />

Wiele danych <strong>na</strong> temat BMLD przedstawili Zwicker i Fastl (1999). A<strong>na</strong>lizowali oni<br />

m. in. wpływ szerokości pasma maskera <strong>na</strong> bi<strong>na</strong>uralną różnicę poziomu maskowania. Na Rys.<br />

2-9 przedstawiono zależność progu detekcji syg<strong>na</strong>łu sinusoidalnego od szerokości pasma<br />

szumu. Próg ten wyz<strong>na</strong>czano w dwóch przypadkach- przy zachowaniu poprzednich oz<strong>na</strong>czeń<br />

były to sytuacje: So N o<br />

oraz S π<br />

N<br />

o<br />

). Częstotliwość tonu i częstotliwość środkowa pasma<br />

szumu dla przypadku Rys. 2-9.a) wynosiła 250 Hz, zaś dla przypadku Rys. 2-9.b) 800 Hz.<br />

Poziom szumu był stały i wynosił 50 dB SPL. W dolnej części rysunku wykreślono BMLD<br />

19 Opis własności nieskorelowanych syg<strong>na</strong>łów z<strong>na</strong>jduje się w Dodatku 4.<br />

38


( L − L ). Ukazuje o<strong>na</strong> szerokie maksimum między 32 Hz a 100 Hz, gdzie osiągane są<br />

SoM<br />

o<br />

Sπ<br />

M o<br />

wartości 18 dB w przypadku 20.a) lub 12 dB w przypadku 20.b). przy większych i<br />

mniejszych szerokościach pasma szumu bi<strong>na</strong>ural<strong>na</strong> różnica poziomów maskowania obniża<br />

się. Badania przeprowadzone dla innych częstotliwości środkowych wykazują podobny efekt.<br />

Ogólnym wnioskiem wynikającym z badań <strong>na</strong>d bi<strong>na</strong>uralną różnicą poziomu<br />

maskowania jest to, że <strong>na</strong>jwiększe wartości tego efektu z<strong>na</strong>jdowano zazwyczaj dla syg<strong>na</strong>łów<br />

o małych częstotliwościach. Dla maskerów szerokopasmowych i dla syg<strong>na</strong>łów o<br />

częstotliwościach większych od 1500 Hz różnica poziomu maskowania maleje do 2-3 dB.<br />

Rys. 2-9. Próg detekcji tonu o częstotliwości 250Hz (a) i 800 Hz (b) jako funkcja szerokości pasma szumu<br />

maskującego. Symbole pełne połączone linią przerywaną ukazują wyniki przypadku S o<br />

N o<br />

, symbole<br />

puste połączone linią ciągłą przedstawiają wyniki sytuacji<br />

S π<br />

N o<br />

. Poziom ciśnienia akustycznego szumu<br />

wynosił 50 dB SPL. Dol<strong>na</strong> część rysunku ukazuje BMLD jako funkcję szerokości pasma maskera (wg<br />

Zwickera i Fastla, 1999).<br />

Na podstawie tych danych moż<strong>na</strong> stwierdzić, że ważnym czynnikiem wpływającym <strong>na</strong><br />

bi<strong>na</strong>uralną detekcję syg<strong>na</strong>łu prezentowanego <strong>na</strong> tle szumu maskującego jest międzyusz<strong>na</strong><br />

korelacja bodźców bi<strong>na</strong>uralnych (syg<strong>na</strong>łu i maskera). Ozimek (2002) podaje, że<br />

współczynnik międzyusznej korelacji ρ<br />

k<br />

, dla bodźców bi<strong>na</strong>uralnych o konfiguracji S π<br />

N o<br />

jest równy:<br />

1−<br />

S / N<br />

ρ<br />

k<br />

= , (4)<br />

1+<br />

S / N<br />

gdzie S / N jest stosunkiem mocy syg<strong>na</strong>łu do szumu.<br />

Zjawisko różnicy poziomów maskowania dotyczy nie tylko tonów. A<strong>na</strong>logiczne<br />

badania przeprowadzono dla dźwięków złożonych, impulsów i syg<strong>na</strong>łów mowy, otrzymując<br />

podobne rezultaty. Wydaje się więc prawdziwe stwierdzenie, że gdy różnice faz lub<br />

poziomów syg<strong>na</strong>łów w obydwu uszach różnią się od odpowiednich różnic faz i poziomów<br />

(czyli IPD i IID) maskerów, wówczas zdolność detekcji i identyfikacji syg<strong>na</strong>łów polepsza się<br />

w porów<strong>na</strong>niu z sytuacją, gdy syg<strong>na</strong>ły i maskery w obydwu uszach mają takie same fazy i<br />

takie same różnice poziomów. Naturalnym wydaje się też wniosek, iż w otaczającym <strong>na</strong>s<br />

39


środowisku różnice takie występują zawsze wtedy, gdy syg<strong>na</strong>ł i masker pochodzą ze źródeł<br />

usytuowanych w różnych miejscach przestrzeni, a zjawisko to jest ściśle związa<strong>na</strong> z efektem<br />

„coctail party”.<br />

2.4 Bi<strong>na</strong>ural<strong>na</strong> różnica poziomu maskowania a zrozumiałość mowy<br />

W tym rozdziale przedstawiono wyniki badań dotyczących wpływu międzyusznej<br />

różnicy fazy <strong>na</strong> zrozumiałość mowy. W doświadczeniach tych przesunięcia fazowe<br />

wytwarzano sztucznie, nie zajmując się zupełnie wpływem ustawień przestrzennych<br />

syg<strong>na</strong>łów (np. ich <strong>separacji</strong>). Przestrzenne aspekty BMLD zostaną opisane w rozdziale 3,<br />

jako, że stanowią one podstawę supresji <strong>przestrzennej</strong>.<br />

Już w 1846 roku Seebeck wykazał, że międzyuszne relacje fazowe mają ogromny<br />

wpływ <strong>na</strong> słyszalność dźwięków. Pomimo tych odkryć i pomimo tego, że międzyuszne<br />

różnice faz od daw<strong>na</strong> były uz<strong>na</strong>wane za ważne czynniki przy określaniu umiejscowienia<br />

źródła dźwięku, a<strong>na</strong>lizy IPD w eksperymentach psychoakustycznych doko<strong>na</strong>no z<strong>na</strong>cznie<br />

później. Wpływ międzyusznej relacji fazowych (prowadzących do zjawiska BMLD) <strong>na</strong><br />

maskowanie mowy przez szum biały przea<strong>na</strong>lizował Licklider (1948) w 102 lata po<br />

odkryciach Seebecka. Zastosował on 6 sytuacji w zależności od międzyusznych relacji<br />

syg<strong>na</strong>łu mowy i szumu. Wszystkie kombi<strong>na</strong>cje zilustrowano w tabeli 6.<br />

Tabela 5. Międzyuszne różnice faz dla mowy i szumu dla sześciu scenerii. (wg Licklidera, 1948).<br />

Lp. Mowa Szum Symbol Klasa<br />

1 W fazie W fazie + + Współfazowe<br />

2 W fazie W przciwfazie + - Antyfazowe<br />

3 W fazie Faza przypadkowa + 0 Heterofazowe<br />

4 W przciwfazie W fazie - + Antyfazowe<br />

5 W przciwfazie W przciwfazie - - Współfazowe<br />

6 W przciwfazie Faza przypadkowa - 0 Heterofazowe<br />

Okazuje się, że w sytuacji , gdy mowa była prezentowa<strong>na</strong> w przeciwfazie, a szum w<br />

fazie (oz<strong>na</strong>czenie - +) osiągnięto trochę lepszą zrozumiałość niż w przypadku odwrotnym<br />

(oz<strong>na</strong>czenie + -). Dodatkowo wykazano, że efekt BMLD jest także zależny w pewien sposób<br />

od poziomu ciśnienia akustycznego szumu. Stwierdzono też, że istotność międzyusznej<br />

różnicy faz zależy od stosunku syg<strong>na</strong>łu do szumu (SNR), będąc bardziej zauważalną przy<br />

SNR wynoszącym –10 dB w porów<strong>na</strong>niu z sytuacją gdy SNR wynosił 0 dB.<br />

Wyniki zrozumiałości mowy w zależności od scenerii przedstawiono w tabeli 7. Na<br />

Rys. 2-10 przedstawiono <strong>na</strong>tomiast zrozumiałość mowy w funkcji stosunku syg<strong>na</strong>łu do<br />

szumu. Parametrem jest klasa prezentowanych syg<strong>na</strong>łów (zgodnie z tabelą 6). Krzywa<br />

oz<strong>na</strong>czo<strong>na</strong> jako „współfazowe” reprezentuje średnią z sytuacji „+ +” i „- -”, itd. Krzywe<br />

pokazują, podobnie, jak poprzednio, że zrozumiałość jest <strong>na</strong>jlepsza w przypadku klasy<br />

syg<strong>na</strong>łów „antyfazowych”, a <strong>na</strong>jgorsza dla klasy syg<strong>na</strong>łów „współfazowych”. W miarę<br />

wzrostu SNR krzywe te zbiegają się. Ten fakt potwierdza poprzednie eksperymenty<br />

wykazując, że efekt BMLD jest większy dla niskich SNR w porów<strong>na</strong>niu z wysokimi<br />

stosunkami syg<strong>na</strong>łu do szumu.<br />

Tabela 6. Wpływ międzyusznych relacji fazowych <strong>na</strong> zrozumiałość mowy maskowanej szumem białym<br />

(wg Licklidera, 1948).<br />

40


SNR<br />

[dB]<br />

Poziom<br />

szumu<br />

[dB SPL]<br />

Międzyuszne relacje fazowe<br />

1 2 3 4 5 6<br />

+ + + - + 0 - + - - - 0<br />

Procent poprawnych odpowiedzi<br />

0 90 69,4 77,4 73,6 79,4 68,4 72,3<br />

-10 90 14,4 40,3 29,7 43,7 11,3 27,9<br />

-10 80 18,0 35,4 27,4 43,0 15,8 27,3<br />

Rys. 2-10. Wpływ BMLD <strong>na</strong> zależność zrozumiałości mowy od stosunku syg<strong>na</strong>łu do szumu. Krzywa<br />

oz<strong>na</strong>czo<strong>na</strong> "współfazowe" przedstawia średnią dla sytuacji ++ i --, "antyfazowe", +- i -+; a<br />

"heterofazowe", +0 i -0 (wg Licklidera, 1948).<br />

Durlach i in. (1986) opisali teoretycznie zależność zrozumiałości mowy od stosunku<br />

syg<strong>na</strong>łu do szumu (SNR) dla różnych międzyusznych relacji fazowych. Na tej podstawie<br />

moż<strong>na</strong> było przewidzieć przebieg krzywych psychometrycznych dla danych IPD. Wykreślili<br />

oni takie krzywe (rysunek 22) dla trzech relacji syg<strong>na</strong>ł-szum: (π | 0)<br />

, (M | 0) oraz (0|U). W<br />

tej notacji symbol poprzedzający pionową kreskę określa międzyuszną relację fazową<br />

syg<strong>na</strong>łu, zaś syg<strong>na</strong>ł za tą kreską- tę samą relację dla szumu maskującego. 0 oz<strong>na</strong>cza, że dany<br />

syg<strong>na</strong>ł jest w fazie (IPD wynosi 0), π oz<strong>na</strong>cza międzyuszne przesunięcie fazy syg<strong>na</strong>łu o<br />

o<br />

180 , M- odsłuch mo<strong>na</strong>uralny, zaś U oz<strong>na</strong>cza, że syg<strong>na</strong>ły w obu uszach były nieskorelowane.<br />

Rys. 2-11. Przewidywane krzywe psychometryczne dla trzech międzyusznych konfiguracji | 0)<br />

(M | 0) oraz ( 0 | U ) (wg Durlach i in., 1986).<br />

(π ,<br />

41


Efekt BMLD staje się oczywisty w sytuacjach, kiedy np. w pomieszczeniu<br />

prowadzimy rozmowę z drugą osobą, w obecności głośno rozmawiających innych osób.<br />

Wówczas, pomimo niekiedy bardzo głośnego otoczenia jesteśmy w stanie dość dobrze<br />

zrozumieć słowa rozmówcy. Warunkiem uzyskania dobrej zrozumiałości mowy jest, aby <strong>na</strong>sz<br />

rozmówca (źródło syg<strong>na</strong>łu) oraz rozmowy innych osób (źródła dźwięku maskującego)<br />

usytuowane były w różnych miejscach sali (a mówca z<strong>na</strong>jdował się z przodu). W takich<br />

bowiem sytuacjach tworzą się złożone międzyuszne różnice czasu (a co za tym idzie także<br />

faz), dzięki czemu syg<strong>na</strong>ł jest lepiej słyszalny <strong>na</strong> tle zakłóceń. Fakt ten stanowi podstawę<br />

przestrzennego odmaskowywania mowy.<br />

42


3 3. Przestrzenne odmaskowywanie mowy. Supresja<br />

przestrzen<strong>na</strong><br />

Wielu <strong>na</strong>ukowców a<strong>na</strong>lizowało fakt odmaskowywania mowy w zależności od kąta<br />

ustawienia maskera, tzn. poprawy jej zrozumiałości lub obniżenie progu jej zrozumienia<br />

(SRT 20 ). W tym rozdziale przedstawione zostały <strong>na</strong>jważniejsze wyniki badań, ukazujących<br />

wpływ <strong>przestrzennej</strong> <strong>separacji</strong> syg<strong>na</strong>łu i szumu <strong>na</strong> zrozumiałość mowy. Warto podkreślić, że<br />

wszystkie wyniki dobrze korelują z teorią bi<strong>na</strong>uralnej różnicy poziomu maskowania.<br />

Przedstawiono tu także dane z prac dotyczących wpływ wielu zakłóceń <strong>na</strong><br />

zrozumiałość mowy. Jed<strong>na</strong>kże trzeba wspomnieć, że takich badań przeprowadzono<br />

stosunkowo niewiele. Okazuje się jed<strong>na</strong>k, że liczba źródeł ma <strong>na</strong> zrozumiałość z<strong>na</strong>czący<br />

wpływ.<br />

Dla przykładu Kryter (1994) przedstawił wpływ liczby konkurujących ze sobą głosów<br />

<strong>na</strong> zrozumiałość mowy (rysunek 23). Ogólnie moż<strong>na</strong> stwierdzić, że im większa liczba głosów,<br />

tym mniejsza zrozumiałość.<br />

Rys. 3-1. Zrozumiałość testów słownych jako funkcja poziomu ciśnienia akustycznego różnej liczby<br />

maskujących głosów. Poziom testów słownych był utrzymany <strong>na</strong> poziomie 94 dB SPL (wg Krytera, 1994).<br />

Co ważniejsze, a co stanowi podstawę tej pracy, przy wielu rozseparowanych<br />

przestrzennie zakłóceniach może dochodzić do tzw. supresji <strong>przestrzennej</strong>, czyli<br />

„wzajemnego tłumienia” syg<strong>na</strong>łów zakłócających, prowadzącego do polepszenia<br />

zrozumiałości mowy. Okazuje się bowiem, że dwa syg<strong>na</strong>ły maskujące mające ten sam<br />

poziom całkowity, ale dochodzące z różnych kierunków są często mniej skutecznymi<br />

maskerami niż jeden syg<strong>na</strong>ł maskujący o tym samym poziomie. Stąd też mówi się często o<br />

„wzajemnym tłumieniu się dwóch syg<strong>na</strong>łów maskujących”, choć nie jest to tłumienie<br />

rozumiane jako zmniejszenie amplitudy (poziomu) syg<strong>na</strong>łów a raczej jako zmniejszenie<br />

maskujących właściwości szumu.<br />

Stwierdzono jed<strong>na</strong>kże, iż bezpośrednie sąsiedztwo zakłócających źródeł względem<br />

ustawionego <strong>na</strong>przeciw słuchacza mówcy miało zdecydowanie większy wpływ <strong>na</strong><br />

20 SRT- z ang. speech reception threshold; określa on poziom ciśnienia akustycznego mowy (lub stosunek<br />

syg<strong>na</strong>łu do szumu), przy którym 50% wyrazów w zdaniu jest zrozumiałych dla słuchacza.<br />

43


zrozumiałość niż liczba źródeł (Hawley, Litkovsky i Colburn, 1999). Łatwo to zjawisko<br />

wyjaśnić w oparciu o bi<strong>na</strong>uralne różnice poziomów maskowania (BMLD).<br />

W pierwszych pracach a<strong>na</strong>lizujących te zagadnienia (np. Cherry, 1953; Pollack i<br />

Picket, 1958) za pomocą słuchawek prezentowano bi<strong>na</strong>uralnie dwa jednoczesne syg<strong>na</strong>ły<br />

mowy, w taki sposób, że do każdego ucha dochodził inny bodziec. Okazało się, że pod<br />

pewnymi warunkami słuchacze są zdolni zignorować informację dochodzącą do jednego ucha<br />

i skupić się <strong>na</strong> informacji dochodzącej do drugiego ucha. Zauważono także, że zrozumiałość<br />

mowy była zdecydowanie gorsza, gdy oba syg<strong>na</strong>ły były podawane do jednego ucha. W<br />

oparciu o te doświadczenia zasugerowano, że zdolność rozumienia mowy w hałasie jest<br />

<strong>na</strong>jgorsza, gdy mowa i szum dochodzą z tego samego punktu przestrzeni, a polepsza się o<strong>na</strong>,<br />

w miarę przestrzennego rozseparowywania mówcy i szumu.<br />

Ten problem został dość łatwo wyjaśniony (Shinn-Cunningham, i in., 2001). Jeśli<br />

bowiem interesujący słuchacza syg<strong>na</strong>ł, S, jest umieszczony <strong>na</strong> wprost niego, to lateralizacja<br />

szumu (przemieszczenie jego obrazu wewnątrz głowy), N, powoduje zmiany w:<br />

• względnych poziomach S i N dla poszczególnych uszu (zmianie ulega stosunek<br />

syg<strong>na</strong>łu do szumu, SNR)<br />

• międzyusznych różnicach czasu (ITD) oraz <strong>na</strong>tężenia (IID) pomiędzy S i N<br />

Dla stosunkowo odległych źródeł pierwszy efekt wzrasta, gdyż poziom szumu docierającego<br />

do dalszego ucha maleje (szczególnie dla średnich i wysokich częstotliwości) w miarę jak<br />

zmienia się lokalizacja maskera. Stąd wniosek, że jeśli syg<strong>na</strong>ł i szum są od siebie oddalone<br />

(rozseparowane przestrzennie) to do jednego z uszu będzie docierać mniejsza energia<br />

pochodząca od szumu. Jednocześnie duży przyczynek do wzrostu zrozumiałości mowy, a<br />

zatem i do supresji <strong>przestrzennej</strong> wnoszą międzyuszne różnice czasów pociągające za sobą<br />

międzyuszne różnice faz zarówno dla S jak i dla N.<br />

Hirsh (1950) jako jeden z pierwszych badał wpływ różnych konfiguracji<br />

przestrzennych mowy i szumu <strong>na</strong> zrozumiałość. Ograniczył się on do 4 pozycji źródeł<br />

względem głowy: z przodu (F), z tyłu (B), z lewej (L) i z prawej (R). Spośród 16 możliwych<br />

kombi<strong>na</strong>cji pozycji źródeł mowy i szumu, 10 wykorzystano w cytowanej pracy (pierwsza<br />

litera będzie oz<strong>na</strong>czać pozycję źródła mowy, druga zaś- pozycję źródła szumu):<br />

FF LF BF RR FR BB RB FB BL RL<br />

Wszystkie źródła z<strong>na</strong>jdowały się zawsze <strong>na</strong> okręgu o promieniu 1 m, zaś sztucz<strong>na</strong> głowa lub<br />

słuchacz z<strong>na</strong>jdował się w jego środku. Jako zakłócenie wybrano szum biały przefiltrowany<br />

filtrem dolnoprzepustowym o częstotliwości odcięcia 7000 Hz lub 2000 Hz. Badania<br />

zrozumiałości przeprowadzono zarówno w kabinie bezechowej, jak i w pomieszczeniu<br />

pogłosowym. W tabeli 8 przedstawiono uzyskane w tym doświadczeniu wyniki.<br />

Tabela 7. Poziom ciśnienia akustycznego mowy [dB SPL] <strong>na</strong> progu jej rozumienia (SRT) dla 10<br />

przestrzennych ustawień źródeł. Poziom ciśnienia akustycznego szumu wynosił 80 dB SPL (wg Hirsha,<br />

1950).<br />

Mowy<br />

Pozycja<br />

Źródła<br />

Kabi<strong>na</strong> bezechowa<br />

Pasmo szumu<br />

0-7000 Hz<br />

Pasmo szumu<br />

0-2000 Hz<br />

Pomieszczenie pogłosowe<br />

Pasmo szumu<br />

0-7000 Hz<br />

szumu<br />

F F 65 65 66<br />

L F 63 64 65<br />

B F 69 69 68<br />

R R 68 68 69<br />

F R 67 65 66<br />

B B 65 64 67<br />

R B 61 63 64<br />

F B 68 68 68<br />

B L 65 64 67<br />

44


R L 64 63 65<br />

Zauważalne są tu wyraźne różnice progu rozumienia mowy (SRT) dla różnych<br />

ustawień przestrzennych. Najwyższe progi otrzymano dla sytuacji, gdy nie może zadziałać<br />

zjawisko bi<strong>na</strong>uralnej różnicy poziomu maskowania, a więc w sytuacjach, gdy zarówno mowa,<br />

jak i szum docierają z tego samego miejsca w przestrzeni (FF, RR, BB) lub gdy nie było<br />

międzyusznych różnic fazy i <strong>na</strong>tężenia (FB, BF, a także FF) . Najniższe progi rozumienia<br />

mowy uzyskano, <strong>na</strong>tomiast, dla ustawień, w których syg<strong>na</strong>ł i zakłócenie były dobrze<br />

rozseparowane przestrzennie.<br />

Dość złożone i interesujące badania przeprowadzili Bronkhorst i Plomp (1988).<br />

Badali oni bi<strong>na</strong>uralną różnicę zrozumiałości mowy (BILD 21 ). Nagrali oni w kabinie<br />

o<br />

bezechowej za pomocą sztucznej głowy szum mowopodobny pod 7 różnymi kątami (od 0<br />

o<br />

o<br />

do 180 z krokiem 30 ). Szum taki oz<strong>na</strong>czono jako FF. Następnie dla każdej sytuacji, <strong>na</strong><br />

drodze a<strong>na</strong>litycznej wyz<strong>na</strong>czono IID oraz ITD szumu. Kolejnym etapem było stworzenie<br />

takich szumów, które charakteryzowały się jedynie IID (szum taki jest oz<strong>na</strong>czony jako dL),<br />

bądź też jedynie ITD (oz<strong>na</strong>czenie dT) przy danym ustawieniu przestrzennym. W<br />

eksperymencie wyz<strong>na</strong>czono stosunek syg<strong>na</strong>łu do szumu, przy którym osiągany był próg<br />

rozumienia mowy (SRT) dla różnych sytuacji przestrzennych i różnych szumów (FF, dL lub<br />

dT). Na rysunku 24 przedstawiono wyniki tych badań. Przedstawiono tu średni próg<br />

rozumienia mowy (SRT) dla trzech różnych typów szumu: FF ("<strong>na</strong>turalny"), dL<br />

(uwzględniający jedynie cień akustyczny powodowany przez głowę, który prowadzi do<br />

międzyusznej różnicy <strong>na</strong>tężenia, IID) oraz dT (uwzględniający jedynie ITD). Wypełnione<br />

kółka pokazują dane z pracy Plompa i Mimpe<strong>na</strong> (1981).<br />

Rys. 3-2. Średni próg rozumienia mowy (SRT) dla trzech różnych typów szumu: FF ("<strong>na</strong>turalny"), dL<br />

(uwzględniający jedynie cień akustyczny powodowany przez głowę) oraz dT (uwzględniający jedynie<br />

ITD). Wypełnione kółka pokazują dane z pracy Plompa i Mimpe<strong>na</strong> (1981) (wg Bronkhorsta i Plompa,<br />

1988).<br />

Peissig i Kollmeier (1997) przea<strong>na</strong>lizowali <strong>na</strong>tomiast dość wnikliwie wpływ liczby<br />

źródeł oraz kąta ustawienia jednego z nich <strong>na</strong> próg zrozumiałości mowy (SRT). Pozostałe<br />

21 BILD- z ang. bi<strong>na</strong>ural intelligibility level difference.<br />

45


źródła były nieruchome, mowa była podawa<strong>na</strong> z przodu słuchacza. Na rysunku 25<br />

przedstawiono wyniki otrzymane w tym doświadczeniu. Oz<strong>na</strong>czenia różnych konfiguracji są<br />

o<br />

<strong>na</strong>stępujące: oz<strong>na</strong>cza syg<strong>na</strong>ł mowy dochodzący pod kątem (z przodu słuchacza), N<br />

S o<br />

o<br />

oz<strong>na</strong>cza szum dochodzący pod kątem x . Pozycja kolejnego interferującego szumu jest<br />

oz<strong>na</strong>czo<strong>na</strong> kolejną literą N z odpowiednim indeksem oz<strong>na</strong>czającym kąt położenia tego<br />

źródła (np. N oz<strong>na</strong>cza, że syg<strong>na</strong>ł mowy dochodzi z przodu słuchacza, dwa szumy<br />

So N105<br />

255N x<br />

0<br />

x<br />

o<br />

o<br />

o<br />

są ustawione pod kątami 105 oraz 255 , trzeci szum dochodzi pod zmiennym kątem x ).<br />

SNR oz<strong>na</strong>cza stosunek syg<strong>na</strong>łu do szumu <strong>na</strong> progu rozumienia mowy. Poziomy zostały tak<br />

o<br />

dobrane, by dla kąta 0 SNR wynosił 0 dB, a poziom zakłóceń w każdym przypadku wynosił<br />

75 dB SPL.<br />

Jak łatwo zauważyć wraz ze zmianą odległości kątowej między syg<strong>na</strong>łami<br />

zakłócającymi, a syg<strong>na</strong>łem mowy (zmia<strong>na</strong> ta pociąga za sobą zmianę międzyusznych różnic<br />

<strong>na</strong>tężenia i fazy) zmienia się także próg rozumienia mowy. W doświadczeniu tym wykazano<br />

również, iż w miarę wzrostu liczby zakłócających źródeł próg rozumienia mowy zostaje<br />

podwyższony.<br />

Rys. 3-3. Wyniki uzyskane w doświadczeniu przez Peissiga i Kollmeiera (1997).<br />

a) Próg rozumienia mowy dla słuchaczy o słuchu normalnym (wartość średnia z odchyleniem<br />

standardowym) jako funkcja kąta azymutalnego źródła zakłócającego (konfiguracja S o<br />

N x<br />

).<br />

Ciągłą linią oz<strong>na</strong>czono wyniki uzyskane przy użyciu ciągłego szumu jako źródła zakłócającego,<br />

46


przerywaną linią <strong>na</strong>tomiast oz<strong>na</strong>czono wyniki uzyskane przy użyciu innego mówcy (czytającego<br />

fragment „Alicji w Krainie Czarów”) jako źródła zakłócającego;<br />

b) podobnie, jak w przypadku a), lecz użyto dodatkowego źródła zakłóceń, usytuowanego pod kątem<br />

o<br />

105 (konfiguracja So<br />

N105N<br />

x<br />

);<br />

c) podobnie, jak w przypadku a), lecz użyto dwóch dodatkowych źródeł zakłóceń, usytuowanych<br />

o<br />

o<br />

odpowiednio pod kątami 105 oraz 255 (konfiguracja So<br />

N105N<br />

255N<br />

x<br />

).<br />

Okazuje się jed<strong>na</strong>k, że dla zrozumiałości mowy nie bez z<strong>na</strong>czenia jest efekt<br />

rozumienia zakłócenia. Chodzi tutaj o fakt, iż in<strong>na</strong> mowa (rozumia<strong>na</strong> przez słuchacza) jest<br />

często lepszym maskerem niż szum mowopodobny. Badania poświęcone temu zagadnieniu<br />

przeprowadzili Freyman i in. (2001). Badali oni zrozumiałość mowy maskowanej mową<br />

dwóch innych osób (włączanej bądź do przodu, bądź też wstecz). Parametrem było w tym<br />

eksperymencie przestrzenne ustawienie źródeł a przea<strong>na</strong>lizowano dwie sytuacje:<br />

• F-F- źródło interesującej słuchacza mowy oraz źródło zakłóceń (także mowa)<br />

z<strong>na</strong>jdowały się z przodu,<br />

• F-RF -źródło interesującej słuchacza mowy z<strong>na</strong>jdowało się z przodu, <strong>na</strong>tomiast<br />

zakłócenie (druga mowa) było rozłożone <strong>na</strong> dwa głośniki (jeden z przodu, drugi z<br />

prawego boku).<br />

Wyniki otrzymane w tych badaniach zaprezentowano <strong>na</strong> rysunku 26. Jak moż<strong>na</strong> zauważyć<br />

zrozumiałość mowy, w przypadku odtwarzania maskera (drugiej mowy) wstecz jest lepsza.<br />

Sugeruje to, że w przypadku braku zrozumienia syg<strong>na</strong>łu maskującego, polepsza się zdolność<br />

rozumienia. Dodatkowy wzrost zrozumiałości uzyskano przy rozłożeniu zakłócenia <strong>na</strong> dwa<br />

rozseparowane przestrzennie źródła, co wskazuje <strong>na</strong> zaistnienie zjawiska supresji<br />

<strong>przestrzennej</strong>.<br />

Rys. 3-4. Zrozumiałość mowy maskowanej mową dwóch innych osób. Symbole wypełnione oz<strong>na</strong>czają<br />

sytuację, w której masker był włączany wstecz, <strong>na</strong>tomiast puste symbole oz<strong>na</strong>czają sytuację, w której<br />

masker był włączany do przodu. F-F oz<strong>na</strong>cza, że zarówno syg<strong>na</strong>ł, jak i zakłócenie dochodziły z przodu, a<br />

F-RF oz<strong>na</strong>cz, że syg<strong>na</strong>ł dochodził z przodu, a zakłócenie było rozłożone <strong>na</strong> dwa głośniki (z przodu i<br />

prawego boku słuchacza) (wg Freyma<strong>na</strong> i in., 2001).<br />

Warto podkreślić, iż z<strong>na</strong>komita większość badań poświęconych przestrzennemu<br />

odmaskowywaniu mowy rozważała obiekt (mówcę) i masker (szum) w tej samej, relatywnie<br />

dużej odległości. Takie samo podejście do tego problemu zastosowano badaniach<br />

47


przeprowadzonych przez autora niniejszej pracy. Odstępstwo od tej reguły zaprezentowali<br />

<strong>na</strong>tomiast Shinn-Cunningham i in. (2001). Oni również, podobnie jak wielu poprzedników<br />

badali próg rozumienia mowy w zależności od przestrzennych ustawień syg<strong>na</strong>łu (mowy), T i<br />

maskera (szumu mowopodobnego), M. Jed<strong>na</strong>kże zmieniał się zarówno kąt ustawienia źródeł<br />

o o o<br />

w płaszczyźnie horyzontalnej ( 0 , 45 i 90 ), jak i ich odległość od słuchacza (1 m lub 15<br />

cm). Przea<strong>na</strong>lizowali oni stosunek syg<strong>na</strong>łu do szumu w pasmach tercjowych (rysunek 27) dla<br />

lewego (linia kropkowa<strong>na</strong>) i prawego (linia ciągła) ucha jako funkcję częstotliwości<br />

środkowej <strong>na</strong> progu rozumienia mowy (SRT). Linią przerywaną <strong>na</strong> wszystkich rysunkach<br />

zaz<strong>na</strong>czono SNR <strong>na</strong> progu rozumienia mowy w sytuacji prezentacji diotycznej<br />

22 mowy i<br />

szumu (-7.6 dB we wszystkich pasmach częstotliwości). Ta konfiguracja stanowi<br />

konfigurację odniesienia.<br />

Wyniki przedstawione <strong>na</strong> rysunku 27 pokazują, że różnice w wartościach stosunku<br />

syg<strong>na</strong>łu do szumu, SNR w obu uszach mogą być z<strong>na</strong>czne, jeśli syg<strong>na</strong>ł lub zakłócenie jest<br />

blisko słuchacza. Jest to bezpośrednia konsekwencja dużych międzyusznych różnic<br />

poziomów, które powstają dla tak zlokalizowanych źródeł. Te różnice są ważne w<br />

zrozumieniu zalet, jakie niesie za sobą posiadanie dwojga uszu. Jeśli np. słuchacz ma<br />

uszkodzony słuch tylko w uchu, w którym jest mniejszy poziom maskera (w przypadku z<br />

rysunku 27 jest to ucho lewe), to osoba taka będzie miała większe trudności ze zrozumieniem,<br />

gdy źródła będą w różnych odległościach od niej. Wówczas bowiem nie będzie dużych różnic<br />

w stosunkach syg<strong>na</strong>łu do szumu w obu uszach.<br />

22 Diotyczność- sytuacja, gdy dźwięki docierające do obu uszu są identyczne.<br />

48


Rys. 3-5. Stosunek syg<strong>na</strong>łu do szumu (SNR) w pasmach tercjowych dla lewego (linia kropkowa<strong>na</strong>) i<br />

prawego (linia ciągła) ucha jako funkcja częstotliwości środkowej <strong>na</strong> progu rozumienia mowy (SRT). W<br />

ramkach w lewym dolnym rogu pokazano symbolicznie ustawienia źródeł względem siebie (wg Shinn-<br />

Cunningham i in., 2001).<br />

0<br />

0<br />

Warunki: a) T ustawione w pozycji ( 0 , 1 m); b) M ustawione w pozycji ( 0 , 1 m); c) T i M pod kątem<br />

o<br />

90 (wg Shinn-Cunningham i in., 2001.<br />

Na rysunku 28 przedstawiono <strong>na</strong>tomiast wartości przestrzennego odmaskowywania (w<br />

dB) dla każdej z konfiguracji.<br />

49


Rys. 3-6. Przestrzenne odmaskowywanie (poziom ciśnienia akustycznego syg<strong>na</strong>łu mowy <strong>na</strong> progu jej<br />

rozumienia przy stałym poziomie szumu) w odniesieniu do konfiguracji diotycznej. Dodatnie wartości<br />

oz<strong>na</strong>czają zmniejszenie poziomu syg<strong>na</strong>łu mowy <strong>na</strong> progu jej rozumienia w stosunku do sytuacji<br />

0<br />

0<br />

odniesienia. Warunki: a) T ustawione w pozycji ( 0 , 1 m); b) M ustawione w pozycji ( 0 , 1 m); c) T i M<br />

o<br />

pod kątem 90 (wg Shinn-Cunningham i in., 2001).<br />

Wartość przestrzennego odmaskowywania określono jako spadek poziomu ciśnienia<br />

akustycznego syg<strong>na</strong>łu <strong>na</strong> progu rozumienia mowy (SRT) dla danej konfiguracji <strong>przestrzennej</strong><br />

(w porów<strong>na</strong>niu z konfiguracją odniesienia). Poziom szumu był niezmienny. Konfiguracją<br />

odniesienia była sytuacja diotycz<strong>na</strong>. Założono, że SRT zależy tylko od stosunku syg<strong>na</strong>łu do<br />

szumu i jest niezależne od poziomu ciśnienia akustycznego samego szumu.<br />

o<br />

W przypadku 28.a) (syg<strong>na</strong>ł, T jest ustawiony cały czas pod kątem 0 i w odległości 1<br />

o<br />

m) <strong>na</strong>jwiększą poprawę uzyskuje się, gdy masker jest w odległości 1 m i pod kątem 45 . W<br />

porów<strong>na</strong>niu z sytuacją odniesienia poziom ciśnienia akustycznego <strong>na</strong> progu rozumienia<br />

mowy obniżył się o około 6 dB. Zrozumiałość niez<strong>na</strong>cznie spada (podwyższa się wartość<br />

o<br />

SRT), gdy masker, M jest pod kątem 90 . Jak łatwo zauważyć przesunięcie M z odległości 1<br />

m do odległości 15 cm powoduje pogorszenie zrozumiałości (wartości przestrzennego<br />

odmaskowywania są ujemne). Różnica wartości przestrzennego odmaskowywania między<br />

sytuacją, w której M był w odległości 1 m, a sytuacją, gdy M, był w odległości 15 cm jest<br />

taka sama dla każdego kąta ustawienia maskera, tzn. przemieszczenie M z odległości 1 m do<br />

50


15 cm powoduje około 13 dB wzrost wymaganego poziomu syg<strong>na</strong>łu, T dla każdego z trzech<br />

o o o<br />

ustawień kątowych ( 0 , 45 i 90 ).<br />

o<br />

W przypadku 28.b) (masker, M jest ustawiony cały czas pod kątem 0 i w odległości<br />

1 m) przemieszczenie syg<strong>na</strong>łu (T) z<strong>na</strong>jdującego się w odległości 1 m (kwadraty) z pozycji<br />

o<br />

o<br />

45 do pozycji 90 nie powoduje zmian w odmaskowywaniu. Natomiast przemieszczenie, T<br />

bliżej głowy (15 cm) daje w efekcie duży wzrost przestrzennego odmaskowania.<br />

Spowodowane jest to oczywiście z<strong>na</strong>cznym wzrostem poziomu syg<strong>na</strong>łu docierającego do<br />

ucha.<br />

Rysunek 28.c) obrazuje sytuację, gdy zarówno syg<strong>na</strong>ł, T, jak i masker, M są<br />

o<br />

zlokalizowanie pod kątem 90 . Kiedy T i M są w tej samej odległości (15 cm- kółko w lewej<br />

części rysunku 28.c) lub 1 m- kwadrat w prawej części rysunku 28.c), poziom ciśnienia<br />

akustycznego syg<strong>na</strong>łu <strong>na</strong> progu rozumienia mowy musiałby być o około 3 dB wyższy w<br />

porów<strong>na</strong>niu z konfiguracją odniesienia.<br />

4 Eksperyment<br />

4.1 GENERACJA I REJESTRACJA SYGNAŁÓW<br />

Do generacji i rejestracji syg<strong>na</strong>łów zastosowano sztuczną głowę. Każdy z syg<strong>na</strong>łów<br />

(syg<strong>na</strong>ł testowy- Polski Test Zdaniowy oraz trwający trzy minuty syg<strong>na</strong>ł zakłócający- babble<br />

noise) był <strong>na</strong>grywany osobno za pomocą sztucznej głowy oraz dodatkowo za pomocą<br />

wszechkierunkowego mikrofonu referencyjnego (Svantek SV 01A) umieszczonego tuż po<strong>na</strong>d<br />

sztuczną głową. Syg<strong>na</strong>ł z tego mikrofonu, po wzmocnieniu w przedwzmacniaczu<br />

mikrofonowym Svantek SV 08A, był kierowany, podobnie jak syg<strong>na</strong>ły z obu uszu sztucznej<br />

głowy do konsoli Yamaha 01V96.<br />

Dzięki zastosowaniu mikrofonu referencyjnego, odpowiedni stosunek syg<strong>na</strong>łu do<br />

szumu moż<strong>na</strong> było uzyskać już bezpośrednio w komputerze w fazie odsłuchu (tuż przed<br />

podaniem syg<strong>na</strong>łu <strong>na</strong> słuchawki). Odpowiedni SNR (stodunek syg<strong>na</strong>łu do szumu) był<br />

wyliczany <strong>na</strong> podstawie wartości średniokwadratowej (z ang. Root-Mean Square, RMS)<br />

syg<strong>na</strong>łu testowego i syg<strong>na</strong>łu zakłócającego pochodzących z mikrofonu referencyjnego.<br />

Wyz<strong>na</strong>czenie SNR bezpośrednio z syg<strong>na</strong>łów pochodzących z uszu sztucznej głowy nie było<br />

możliwe, gdyż stosowano różne konfiguracje przestrzenne zarówno źródła syg<strong>na</strong>łu testowego,<br />

jak i źródła syg<strong>na</strong>łu zakłócającego. Wynika to z faktu, iż <strong>na</strong>grań dokonywano za pomocą<br />

sztucznej głowy, uwzględniającej efekt BMLD, tak więc SNR był ustalany przy<br />

wykorzystaniu syg<strong>na</strong>łów <strong>na</strong>granych tuż po<strong>na</strong>d sztuczną głową. Takie podejście wydaje się<br />

być <strong>na</strong>jbardziej obiektywne w przypadku wyz<strong>na</strong>czania stosunku syg<strong>na</strong>łu do szumu, gdyż dla<br />

różnych ustawień źródeł syg<strong>na</strong>łów moż<strong>na</strong> pominąć efekty cienia akustycznego<br />

wprowadzanego przez sztuczną głowę.<br />

4.2 KONFIGURACJA PRZESTRZENNA ŹRÓDEŁ W KABINIE BEZECHOWEJ<br />

Ze względu <strong>na</strong> z<strong>na</strong>czne przyspieszenie procesu wyz<strong>na</strong>czania SRT możliwe było<br />

wykorzystanie wielu konfiguracji przestrzennych obu źródeł. Syg<strong>na</strong>ł testowy (Polski Test<br />

Zdaniowy (Ozimek, Kutzner, Sęk, Wicher i Szczepaniak, 2006)) <strong>na</strong>grano pod <strong>na</strong>stępującymi<br />

o o o o o<br />

kątami (zgodnie z ruchem wskazówek zegara): 0 , 30 , 60 , 90 , 180 oraz dodatkowo pod<br />

o<br />

o<br />

o<br />

kątem 0 , lecz głowa była pochylo<strong>na</strong> względem pozycji pionowej o 45 lub 90 . Ustawienia<br />

odwzorowują sytuację, w której źródło mowy jest umieszczone powyżej głowy słuchacza pod<br />

51


o<br />

o<br />

kątem 45 lub <strong>na</strong>d głową słuchacza (kąt 90 ). Syg<strong>na</strong>ł zakłócający (babble noise) został<br />

o o o o o o o o<br />

<strong>na</strong>tomiast <strong>na</strong>grany w <strong>na</strong>stępujących konfiguracjach: 0 , 15 , 30 , 45 , 60 , 75 , 90 , 180<br />

(zgodnie z ruchem wskazówek zegara). Zostały przea<strong>na</strong>lizowane wszystkie kombi<strong>na</strong>cje<br />

wzajemnych ustawień obu źródeł. Wszystkie źródła z<strong>na</strong>jdowały się w odległości 2 m od<br />

środka sztucznej głowy. Ogólnie schemat ustawień został przedstawiony <strong>na</strong> Rys. 4-1.<br />

Rys. 4-1. Schemat konfiguracji przestrzennych wykorzystanych w eksperymencie.<br />

4.3 PREZENTACJA SYGNAŁÓW<br />

Zadaniem słuchacza jest, poprawne wprowadzenie usłyszanego zdania za pomocą<br />

klikania <strong>na</strong> wyrazy pojawiające się <strong>na</strong> panelu składającym się z 18 wyrazów (Rys. 4-5). Do<br />

wys<strong>na</strong>czenia progu rozumienia mowy (SRT 23 ) zastosowano metodę adaptacyjną z procedurą<br />

1-up, 1-down, z krokiem 1 dB zbieżną do punktu odpowiadającego 50% poprawnych<br />

odpowiedzi <strong>na</strong> funkcji psychometrycznej, czyli SRT. Oz<strong>na</strong>cza to, iż po jednej niepoprawnej<br />

odpowiedzi słuchacza <strong>na</strong>stępne zdanie było prezentowane dla stosunku syg<strong>na</strong>łu do szumu o 1<br />

dB wyższym (1-up), a po każdej poprawnej odpowiedzi, kolejne zdanie prezentowane było<br />

dla SNR o 1 dB niższym (1-down). W ten sposób możliwe było wyz<strong>na</strong>czenie progu<br />

rozumienia mowy <strong>na</strong> podstawie uśredniania tzw. punktów zwrotnych, czyli SNR, przy<br />

którym <strong>na</strong>stępowała zmia<strong>na</strong> z<strong>na</strong>ku kroku zmian SNR.<br />

Warto tu podkreślić, że wszystkie przestrzenne konfiguracje źródeł były dobrane tak,<br />

by źródła te z<strong>na</strong>jdowały się po prawej stronie sztucznej głowy lub <strong>na</strong> wprost niej (ewentualnie<br />

<strong>na</strong> wprost, ale dodatkowo powyżej sztucznej głowy). Procedura i schemat układu<br />

wykorzystywanego przy prezentacji z<strong>na</strong>jduje się <strong>na</strong> Rys. 4-2 (z pominięciem elementu<br />

odpowiedzialnego za separację syg<strong>na</strong>łów za pomocą wcześniej wyz<strong>na</strong>czonych filtrów 24 ). W<br />

przypadku odsłuchów syg<strong>na</strong>łów przed zastosowaniem BSS pominięty był element separujący<br />

syg<strong>na</strong>ły.<br />

23 SRT określa się jako taki stosunek syg<strong>na</strong>łu do szumu, przy którym słuchacz osiąga 50% zrozumiałość mowy,<br />

np. zrozumianych zostało 5 z 10 zaprezentowanych zdań.<br />

24 Ten element nie jest wykorzystywany w niniejszym eksperymencie.<br />

52


Rys. 4-2. Procedura miksowania syg<strong>na</strong>łów i układ wykorzystywany w czasie odsłuchów. W przypadku<br />

odsłuchów syg<strong>na</strong>łów przed zastosowaniem BSS pominięty był element separujący syg<strong>na</strong>ły. Procedura ta<br />

była stosowa<strong>na</strong> przy każdym odtwarzaniu kolejnego zdania (on-line).<br />

W fazie odsłuchów wykorzystuje się układ przedstawiony <strong>na</strong> 4-3 z tą różnicą, że<br />

pominięto układ tłumików PA5, a odpowiednie dopasowanie poziomów (70 dB SPL) jest<br />

dokonywane bezpośrednio w programie w środowisku Matlab.<br />

Rys. 4-3. Schemat układu wykorzystywanego w odsłuchach w Eksperymentach 1-5.<br />

Zadaniem słuchacza jest wysłuchanie prezentowanych wypowiedzi, a <strong>na</strong>stępnie<br />

ułożenie ich z 18 wyrazów zaprezentowanych <strong>na</strong> ekranie komputera. Oprócz wyrazów<br />

występujących w zdaniu <strong>na</strong> panelu z<strong>na</strong>jdowały się także wyrazy o brzmieniu podobnym do<br />

wyrazów z<strong>na</strong>jdujących się w prezentowanym zdaniu, tzw. paronimy. W ten sposób<br />

możliwość poprawnego ułożenia zdania w przypadku, gdy nie zostało ono usłyszane, jest<br />

53


z<strong>na</strong>cznie utrudnio<strong>na</strong>. Metoda zastosowa<strong>na</strong> w tym eksperymencie z<strong>na</strong>cznie usprawniła i<br />

przyspieszyła badania.<br />

Program odtwarzający syg<strong>na</strong>ły i rejestrujący odpowiedzi słuchacza jest stworzony w<br />

środowisku Matlab. Odsłuch przebiega w <strong>na</strong>stępujących fazach: słuchaczowi prezentuje się<br />

syg<strong>na</strong>ł (uprzednio <strong>na</strong>grane zdanie wraz z zakłóceniami, przed lub po BSS). W tym momencie<br />

<strong>na</strong> ekranie pojawia się informacja o prezentacji (Rys. 4-4).<br />

Rys. 4-4. Na chwilę przed prezentacją syg<strong>na</strong>łu <strong>na</strong> ekranie pojawiało się okno, które informowało słuchacza<br />

o tym, że będzie prezentowany syg<strong>na</strong>ł.<br />

Po wysłuchaniu wypowiedzi <strong>na</strong> ekranie pojawia się panel z wyrazami, z których<br />

<strong>na</strong>leży ułożyć usłyszane zdanie, wybierając w odpowiedniej kolejności poszczególne wyrazy<br />

za pomocą myszki (Rys. 4-5).<br />

Rys. 4-5. Panel odpowiedzi, składający się z 18 wyrazów, w tym z kilku<strong>na</strong>stu paronimów.<br />

Po wpisaniu zdania lub jego usłyszanej części słuchacz <strong>na</strong>ciska przycisk ‘OK’, po<br />

czym <strong>na</strong>stępuje prezentacja kolejnego zdania z listy. W przypadku wprowadzenia błędnego<br />

wyrazu słuchacz miał możliwość poprawienia pomyłki wciskając przycisk ‘Cofnij’ <strong>na</strong> panelu.<br />

Odpowiedzi słuchacza są automatycznie zapisywane w plikach tekstowych.<br />

4.4 PROGRAM STERUJĄCY<br />

Poniżej przedstawiono przykładowy skrypt programu sterującego odsłuchami:<br />

start_from=1;<br />

54


for xxx_o=start_from:1:27<br />

subject='imie<strong>na</strong>zwisko';<br />

subject_initials='IN';<br />

subject_<strong>na</strong>me='Imie Nazwisko';<br />

n_level=70;<br />

comment=’kometrza’;<br />

FS_TDT=24414.0625;<br />

listorder = [3 11 16 6 17 20 4 12 25 23 19 15 22 9 21<br />

2 1 10 14 8 13 18 24 5 7 3 11];<br />

paradigmorder=[10 11 12 13 14 15 16 18 28 29 30 31 32 33<br />

34 36 55 56 57 58 59 60 61 63 17 35 62];<br />

if (length(listorder)==27 & length(paradigmorder)==27)<br />

paradigm = paradigmorder(xxx_o);<br />

plomp_list = listorder(xxx_o);<br />

krok_SNR=2;<br />

chngsnrstep = 4;<br />

p = set_paradigm_jen(paradigm);<br />

noise_angle=num2str(p.noise_angle); % kąt pod którym dociera szum<br />

speech_angle=num2str(p.speech_angle); %dozwolone kąty horyzontalne<br />

if (paradigm>=46 & paradigm=55 & paradigm 25<br />

clc;<br />

disp('Only 25 lists ate in sentence test');<br />

break, end<br />

end<br />

if test_type=='words'<br />

l_zdan=440;<br />

if max(plomp_list)> 22<br />

clc;<br />

disp('Only 22 lists ate in word test');<br />

break, end<br />

end<br />

clz=20; % całkowita liczba zdań w jednej OLSA/PLOMP<br />

chk_subject_bin;<br />

disp(' ')<br />

55


disp(' ')<br />

disp('Nacisnij teraz Spacje lub Enter !!!!')<br />

u0=10^(-95/20);<br />

rms_70=u0*10^(n_level/20);<br />

pause<br />

clc<br />

europa_bin_jen<br />

clc<br />

disp('Jeśli chcesz zrobić sobie chwilę PRZERWY- teraz jest <strong>na</strong> to<br />

czas...');<br />

disp(' ');<br />

disp(' ');<br />

disp('Jeśli chcesz słuchać dalej, to <strong>na</strong>ciśnij Enter lub spację i<br />

lecimy...');<br />

clear a* b* c* d* e* f* g* h* i* j* k* l* m* n* o* p* q* r* s* t*<br />

u* v* w* y* z*<br />

pause<br />

pause(2)<br />

else<br />

disp('Zla liczebnosc listorder i paradigmorder, powinny miec po 27<br />

elementow')<br />

end<br />

end<br />

Najważniejsze zmienne w skrypcie wypełniane przez eksperymentatora to:<br />

1) subject='imie<strong>na</strong>zwisko';<br />

w miejsce imie<strong>na</strong>zwisko wpisuje się nick słuchacza<br />

2) subject_initials='IN';<br />

w miejsce IN wpisuje się inicjały słuchacza<br />

3) subject_<strong>na</strong>me='Imie Nazwisko';<br />

w miejsce Imie Nazwisko wpisuje się Imię i Nazwisko słuchacza<br />

4) comment=’komentarz';<br />

W miejsce komentarz moż<strong>na</strong> wpisać dodatkowe informacje<br />

5) listorder = [3 11 16 6 17 20 4 12<br />

25 23 19 15 22 9 21 2 1 10 14 8<br />

13 18 24 5 7 3 11];<br />

w miejsce liczb w <strong>na</strong>wiasach kwadratowych wpisuje się numer kolejnej listy (liczbę między 1<br />

a 25)<br />

6) paradigmorder=[10 11 12 13 14 15 16<br />

18 28 29 30 31 32 33 34 36 55 56<br />

57 58 59 60 61 63 17 35 62];<br />

w miejsce liczb w <strong>na</strong>wiasach kwadratowych wpisuje się kolejność konfiguracji<br />

przestrzennych szum-syg<strong>na</strong>ł (każda liczba odpowiada konkretnej konfiguracji).<br />

4.5 PLIK WYJŚCIOWY<br />

Poniżej przedstawiono przykładowy wycinek pliku wyjściowego:<br />

-------------------------------------------------------------------------------------------------------------155<br />

56


Output data from EUROPA_BIN experiment& 20-Sep-2006 15:15:16<br />

Subject initials& JK<br />

Subject <strong>na</strong>me& Jan Kowalski<br />

Test Type&<br />

SENTENCES<br />

Noise Angle& 15<br />

Speech Angle& 60<br />

VERTICAL& 0<br />

Vertical Angle& 0<br />

Krok SNR& 2<br />

Comment& paradigm 19:45<br />

User<strong>na</strong>me&<br />

jen<br />

Nomi<strong>na</strong>l sig<strong>na</strong>l level dB& 70<br />

Lista numer:& 13<br />

LP& &KOD& &ZDANIE NADANE& &ODPOWIEDŹ&<br />

&SEN& &WORDS% &SNR& &TYP TESTU& &Nr.zd.& &Typ Szumu& &Kąt&<br />

-----------------------------------------------------------------------------------------------------------------<br />

W tym miejscu przedstawione są odpowiedzi słuchacza, które dla pominięcia efektu uczenia<br />

się zostały wycięte.<br />

############################### FINAL SCORE<br />

###############################<br />

TURNPOINTS: -26 -26 -28.5 -28.5 -30.5 -30.5 -30.5 -29.5 -29.5 -28.5<br />

THRESHOLD (SRT): -28.8<br />

NUM OF TURPOINTS: 10<br />

MINIMUM OF SNR: -31<br />

MAXIMUM OF SNR: -25<br />

MEAN: -28.3846<br />

MEDIAN OF SNRs: -29<br />

STANDARD DEVIATION: 1.8502<br />

############################ END OF FINAL SCORE<br />

############################<br />

-----------------------------------------------------------------------------------------------------------------<br />

Najważniejszym parametrem odczytywanym z pliku jest wartość THRESHOLD (SRT).<br />

Wartości te wykreślone w funkcji konfiguracji <strong>przestrzennej</strong> syg<strong>na</strong>ł-szum (np. w funkcji kąta<br />

szumu przy ustalonym kącie syg<strong>na</strong>łu mowy) stanowią główny wynik badań, a interpretacja<br />

tych wyników i wykresów jest celem niniejszego eksperymentu<br />

5 Bibliografia<br />

Allen, J. (1994). “How do humans process and recognize speech?” IEEE Trans. Speech Audio<br />

Proc. 2: 567-577.<br />

Bronkhorst, A. W., and Plomp, R. (1988). „The effect of head-induced interaural time and<br />

level differences on speech intelligibility in noise.” J. Acoust. Soc. Am. 83, 1508-<br />

1516.<br />

Bronkhorst, A. W., and Plomp, R. (1990). „A clinical test for the assessment of bi<strong>na</strong>ural<br />

speech perception in noise.” Audiology 29, 275-285.<br />

57


Cherry, E. C. (1953). „Some experiments on the recognition of speech, with one and with two<br />

ears.” J. Acoust. Soc. Am. 25, 975-979.<br />

Driks, D. D., and Wilson, R. H. (1969). „The effect of spatially separated sound sources on<br />

speech intelligibility.” J. Speech Hear. Res. 12, 5-38.<br />

Durlach, N. I., Gabriel, K. J., Colburn, H. S., and Trahiotis, C. (1986). „Interaural correlation<br />

discrimi<strong>na</strong>tion: II. Relation to bi<strong>na</strong>ural unmasking.” J. Acoust. Soc. Am. 79, 1548-<br />

1557.<br />

Feng, G. i E. Castelli (1996). “Some acoustic features of <strong>na</strong>sal and <strong>na</strong>salized vowels: A target<br />

for vowel <strong>na</strong>salization.” Jour<strong>na</strong>l of the Acoustical Society of America 99: 3694-3706.<br />

Freyman, R. L., U. Balakrish<strong>na</strong>n i K. S. Helfer (2001). “The release from informatio<strong>na</strong>l<br />

masking in speech recognition.” Jour<strong>na</strong>l of the Acoustical Society of America 109:<br />

2112-2122.<br />

Hamlet, S., H. Bunnell i B. Struntz (1986). “Articulatory asymmetries.” Jour<strong>na</strong>l of the<br />

Acoustical Society of America 79: 1164-1169.<br />

Hawley, M. L., R. Y. Litovsky i H. S. Colburn (1999). “Speech intelligibility and localization<br />

in a multi-source environment.” Jour<strong>na</strong>l of the Acoustical Society of America 105:<br />

3436-3448.<br />

Hirsh, I. J. (1950). „The relation between Localization and Intelligibility.” J. Acoust. Soc.<br />

Am. 22, 196-200.<br />

Jassem, W. (1974). Mowa a <strong>na</strong>uka o łączności. Warszawa, PWN.<br />

Kocinski, J. i A. P. Sek (2005). “Speech intelligibility in various spatial configurations of<br />

background noise.” Archives of Acoustics 30(2): 173-191.<br />

Kollmeier, B. i R. Koch (1994). “Speech enhancement based on physiological and<br />

psychoacoustical models of modulation perception and bi<strong>na</strong>ural interaction.” Jour<strong>na</strong>l<br />

of the Acoustical Society of America 95: 1593-1602.<br />

Kollmeier, B. i M. Wesselkamp (1997). “Development and evaluation of a sentence test for<br />

objective and subjective speech intelligibility assessment.” Jour<strong>na</strong>l of Acoustical<br />

Society of America 102(4): 1085-1099.<br />

Kryter, K. D. (1994). The handbook of Hearing and the Effects of Noise. Physiology,<br />

Psychology, and Public Health. San Diego, Academic Press.<br />

Liberman, A. M., F. S. Cooper, D. P. Shankweiler i M. Studdert-Kennedy (1967). “Perception<br />

of the speech code.” Psychol. Rev. 74: 431-461.<br />

Liberman, A. M. i I. G. Mattingly (1985). “The motor theory of speech perception revised.”<br />

Cognition 21: 1-36.<br />

Licklider, J. C. R. (1948). „The influence of interaural phase relations upon the masking of<br />

speech by white noise.” J. Acoust. Soc. Am. 20, 150-159.<br />

Miller, G. A., G. A. Heise i W. Lichten (1951a). “The intelligibility of speech as a function of<br />

the context of the test materials.” Exp. Psychol. 41: 329-335.<br />

Miller, G. A., G. A. Heise i W. Lichten (1951b). “The intelligibility of speech as a function of<br />

the context of the test materials.” J. Exp. Psych. 41: 329-335.<br />

Moore, B. C. J. (1990). “How much do we gain by gain control in hearing aids?” Acta<br />

Otolaryngologica Suppl. 469: 250-256.<br />

Moore, B. C. J. (1999). Wprowadzenie do psychologii słyszenia. Poz<strong>na</strong>ń, PWN.<br />

Moore, B. C. J., B. R. Glasberg i M. A. Stone (1999). “Use of a loudness model for hearing<br />

aid fitting. III. A general method for deriving initial fittings for hearing aids with<br />

multi-channel compression.” British Jour<strong>na</strong>l of Audiology 33: 241-258.<br />

58


Moore, B. C. J. (2000). “Use of a loudness model for hearing aid fitting. IV. Fitting hearing<br />

aids with multi-channel compression so as to restore "normal" loudness for speech at<br />

different levels.” British Jour<strong>na</strong>l of Audiology 34: 165-177.<br />

Moore, B. C. J. (2003). An Introduction to the Psychology of Hearing, 5th Ed. London,<br />

Academic Press.<br />

O'Shaughnessy, D. (2000). Speech Communications. Human and Machine. Second Edition.<br />

Piscataway, IEEE Press.<br />

Ozimek, E. (2002). Dźwięk i jego percepcja. Aspekty fizyczne i psychoakustyczne.<br />

Warszawa-Poz<strong>na</strong>ń, Wydawnictwo Naukowe PWN.<br />

Ozimek, E., D. Kutzner, A. P. Sęk, A. Wicher i O. Szczepaniak (2006). “The Polish Sentence<br />

Test for Speech Intelligibility Measurements.” Archives of Acoustics 31(4<br />

Supplement).<br />

Peissig, J. i J. Kollmeier (1997). “Directivity of bi<strong>na</strong>ural noise reduction in spatial multiple<br />

noise-source arrangements for normal and impaired listeners.” Jour<strong>na</strong>l of the<br />

Acoustical Society of America 101: 1660-1670.<br />

Plomp, R. (1988). “The negative effect of amplitude compression in multichannel hearing<br />

aids in the light of the modulation-transfer function.” Jour<strong>na</strong>l of the Acoustical Society<br />

of America 83: 2322-2327.<br />

Plomp, R., and Mimpen, A. M. (1981). „Effect of the orientation of the speaker’s head and the<br />

azimuth of a noise source on the speech reception thresholds for sentences.” Acoustica<br />

48, 325-328.<br />

Pollack, I., and Pickett, J. M. (1958). „Stereophonic listening and speech intelligibility against<br />

voice babbles.” J. Acoust. Soc. Am. 30, 131-133. Praca zbiorowa 1999.<br />

„Multimedial<strong>na</strong> Nowa encyklopedia powszech<strong>na</strong> PWN.” Wydawnictwo <strong>na</strong>ukowe<br />

PWN, Warszawa.<br />

Pruszewicz, A. (1992). Foniatria klinicz<strong>na</strong>. Warszawa, Państwowy Zakład Wydawnictw<br />

Lekarskich.<br />

Pruszewicz, A., Wika, T., Surmanowicz-Demenko, G., Richter, L. (1999). „Polski test<br />

liczbowy i słowny do badania słuchu oraz testy do treningu słuchowego.” Płyta CD<br />

audio, Marke-Med. Sp. z o.o.<br />

Pruszewicz, A. (2000). Zarys audiologii klinicznej. Wydanie drugie. Poz<strong>na</strong>ń, Wydawnictwa<br />

Akademii Medycznej im. Karola Marcinkowskiego w Poz<strong>na</strong>niu.<br />

Sapożkow, M. A. (1966). Syg<strong>na</strong>ł mowy w telekomunikacji i cybernetyce. Warszawa, WNT.<br />

Schouten, M. (1980). “The case against a speech mode of perception.” Acta Psychologica 44:<br />

71-98.<br />

Sęk, A., E. Ozimek, E. Skrodzka i A. Wicher (2003). “Intelligibility of speech presented<br />

against a speech-shaped noise for normal and hearing-impaired subjects.” submitted.<br />

Sęk, A., E. Skrodzka, E. Ozimek i A. Wicher (2004). “Intelligibility of speech processed by a<br />

spectral contrast enhancement procedureand bi<strong>na</strong>ural procedure.” Archives of<br />

Acoustics 29(1): 1-10.<br />

Shinn-Cunningham, B. G., Kopčo, N. (2000). „Tori of confusion: Bi<strong>na</strong>ural localization cues<br />

for sources within reach of a listener.” J. Acoust. Soc. Am. 107, 1627-1636.<br />

Shinn-Cuningham, B. B., J. Schickler, N. Kopocko i R. Litovsky (2001). “Spatial unmasking<br />

of nearby speech sources in a simulated anechoic enviroment.” Jour<strong>na</strong>l of the<br />

Acoustical Society of America 110: 1118-1129.<br />

Stevens, K. N. (1968). “On the relations between speech movements and speech perception.”<br />

Z. Phonetik Sprachwiss. Kommunikationforsch. 21: 102-106.<br />

59


Śliwiński, A. i E. Ozimek (1974). Akustyka Laboratoryj<strong>na</strong> część III. Wybrane zagadnienia i<br />

metody pomiarowe z akustyki ciała stałego oraz z akustyki pomieszczeń. Warszawa-<br />

Poz<strong>na</strong>ń, PWN.<br />

Versfeld, N. J., L. Daalder, J. M. Festen i T. Houtgast (2000). “Method for the selection of<br />

sentence material for efficient measurement of the speech reception threshold.”<br />

Jour<strong>na</strong>l of Acoustical Society of America 107: 1671-1684.<br />

Wagener, K. (2003). Factors influencing sentence intelligibility in noise. University of<br />

Oldenburg.<br />

Zwicker, E. (1952). “Die Grenzen der Hörbarkeit der Amplitudenmodulation und der<br />

Frequenzmodulation eines Tones.” Acustica 2: 125-133.<br />

60


6 Dodatki<br />

6.1 Dodatek 1. Podział polskich samogłosek i spółgłosek<br />

Tabela 8. Podział polskich spółgłosek (wg Multimedialnej nowej encyklopedii powszechnej PWN, 1999).<br />

Tabela 9. Klasyfikacja polskich samogłosek (wg Multimedialnej nowej encyklopedii powszechnej PWN,<br />

1999).<br />

61


6.2 Dodatek 2. Ciśnienie skuteczne, prms<br />

Dla przebiegów periodycznych, sinusoidalnych, amplituda jest stała w czasie dlatego<br />

też jest o<strong>na</strong> jedną z ważniejszych wielkości fizycznych. Jed<strong>na</strong>kże dla syg<strong>na</strong>łów bardziej<br />

złożonych (m. in. aperiodycznych), amplituda jest zmien<strong>na</strong> w czasie (<strong>na</strong>jczęściej<br />

nieregularnie), dlatego nie jest o<strong>na</strong> odpowiednią wielkością charakteryzującą dane przebiegi.<br />

Z tego powodu dla tego rodzaju syg<strong>na</strong>łów wyz<strong>na</strong>cza się zamiast amplitudy średni kwadrat<br />

wartości chwilowej przebiegu p(t)<br />

w przedziale czasu T (<strong>na</strong>zywany też wartością<br />

średniokwadratową lub mocą chwilową). Średni kwadrat wartości przebiegu p(t) określa<br />

więc wyrażenie:<br />

T<br />

2 1 2<br />

p ( t)<br />

= ∫ p ( t)<br />

dt , (5)<br />

T<br />

0<br />

gdzie T - czas uśredniania, zaś t - bieżąca chwila czasu. Jak łatwo zauważyć wartość<br />

średniego kwadratu ciśnienia zależy od czasu uśredniania T . Wyz<strong>na</strong>czając dodatnią wartość<br />

pierwiastka kwadratowego ze średniego kwadratu ciśnienia otrzymuje się tzw. ciśnienie<br />

skuteczne (z ang. root-mean square):<br />

p rms<br />

p<br />

rms<br />

=<br />

1<br />

T<br />

T<br />

∫<br />

0<br />

2<br />

p ( t)<br />

dt<br />

lub, dla N dyskretnych wartości p przebiegu p(t)<br />

:<br />

p<br />

i<br />

1<br />

N<br />

2<br />

rms<br />

= ∑ p i<br />

N i=<br />

0<br />

(6)<br />

(7)<br />

63

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!