Capitolo 8 Analisi dei suoni

Capitolo 8 

Analisi dei suoni 

versione 2004 

8.1 Introduzione 

In questo capitolo si descrivono i principali metodi di analisi del suono con lo scopo di estrarre informazione 

dal suono. Nei capitoli sui modelli del suono, lo scopo era quello di ottenere delle rappresentazioni 

che ne consentissero una auspicabilmente completa ricostruzione, almeno dal punto di 

vista percettivo o operativo. Ai modelli erano quindi associati metodi di analisi, per individuare i 

parametri dei modelli, che ne consentissero questa descrizione senza perdere, per quanto possibile 

nessuna caratteristica acustico o timbrica del suono. Spesso infatti i modelli con i parametri individuati, 

vengono usati per la sintesi o trasformazione dei suoni. Ad esempio dalla rappresentazione 

mediante modelli spettrale si riesce a ottenere variazioni di durata e altezza molto naturali. 

Se lo scopo è invece quello di estrarre informazione dal suono, allora si vuole scartare tutto quello 

che non è rilevante al proprio scopo. Si parla allora di estrazione di caratteristiche (feature extraction). 

I passi principali per la estrazione di informazione sono pre-elaborazione del suono, selezione dei 

frames mediante finestre, estrazione di caratteristiche, post-elaborazione. 

• La prima fase di pre-elaborazione consiste nel modificare il segnale, in modo ad facilitare gli 

algoritmi di estrazione delle caratteristiche. Ad esempio, riduzione del rumore, equalizzazione, 

filtraggio passa basso. Nei suoni vocali si usa spesso la pre-enfasi mediante un filtro passalto 

per appiattire lo spettro, cioè per avere una distribuzione più omogenea dell’energia nelle varie 

zone dello spettro. Infatti la voce ha un andamento spettrale di tipo passabasso. 

• Il secondo passo consiste nel dividere il segnale in blocchi (detti frames) parzialmente sovrapposti 

ed applicare una finestra per ogni blocco, come discusso nei modelli spettrali. 

• Il terzo passo consiste nel ricavare, per ogni frame un vettore di caratteristiche, con gli algoritmi 

descritti nelle prossime sezioni. 

• Infine nella fase di post-elaborazione, si scelgono le caratteristiche più significative dal vettore, 

eventualmente pesandole diversamente, per dare loro maggiore o minor importanza. Ad esempio 

si può pesare meno i primi coefficienti mel-cepstrali, se è presente un rumore a bassa 

8.1

8.2 CAPITOLO 8. ANALISI DEI SUONI 

frequenza. Infine spesso i vettori delle caratteristiche sono normalizzati rispetto al tempo, in 

modo ad avere media nulla. questa normalizzazione costringe i vettori ad essere nello stesso 

ordine di grandezza numerica. 

I metodi di analisi procedono direttamente dal segnale rappresentato nel tempo oppure derivano una 

rappresentazione dello spettro. Nel secondo caso si inizia applicando le tecniche viste, quando sono 

stati descritti i modelli spettrali e i loro derivati come parte armonica + parte stocastica, parte armonica 

+ rumore + transitori si ottiene una rappresentazione a basso livello, che costituisce la premessa per 

la estrazione di parametri e attributi a livello superiore. In questo capitolo verranno prima presentati 

alcuni metodi base per la stima di parametri nel dominio temporale, poi verrà discusso l’importante 

problema della stima dell’inviluppo spettrale. Verranno quindi presentati vari descrittori di parametri 

e attributi a vari livelli ricavabili da queste rappresentazioni e utilizzabili per la descrizione dei suoni e 

per un’ulteriore analisi volta a separare e comprendere i suoni e la loro organizzazione. Infine verranno 

presentati alcuni algoritmi base per la determinazione dell’inizio (onset) degli eventi musicali, 

8.2 Parametri nel dominio del tempo 

Nell’ambito dell’elaborazione del segnale è spesso conveniente ricorrere all’uso di parametri che ne 

descrivano alcune caratteristiche fondamentali; ciò è importante in molti casi di archiviazione o trattamento 

del suono, perchè elimina le ridondanze presenti nel segnale audio e permette di ottenere 

una efficiente rappresentazione e quindi una semplificazione nella manipolazione dei dati. Un aspetto 

importante in molte applicazioni è la variazione dei valori di questi parametri nel tempo (per esempio 

nella sintesi del parlato); nel seguito, quindi, tratteremo i metodi applicabili al segnale audio nel dominio 

del tempo cioè operando direttamente sulla sua forma d’onda. I risultati che otterremo saranno 

esemplificati mediante l’uso di procedure specifiche realizzate con MATLAB e applicate a segnali per 

lo più vocali, anche se i risultati trovati hanno validità del tutto generale. 

Bisogna dire fin d’ora che questi metodi (usati per esempio per discriminare il rumore di fondo 

dal parlato, oppure per distinguere i suoni vocalizzati da quelli non vocalizzati) non danno risultati 

assolutamente certi sull’informazione che il segnale porta con sé e che sovente vengono usati in combinazione. 

Il loro vantaggio sta nella facilità di implementazione e nelle modeste capacità di calcolo 

richieste. 

L’ipotesi che ora facciamo è che le proprietà del segnale audio cambino lentamente nel tempo (almeno 

rispetto al periodo di campionamento); questo ci permette di definire una serie di parametri nel 

dominio del tempo per cui brevi segmenti di segnale (frames) vengono elaborati come se fossero suoni 

con proprietà costanti all’interno del frame. Se consideriamo per esempio il segnale vocale, questa assunzione 

si può giustificare con il fatto che nella generazione delle parole contribuiscono sia le corde 

vocali sia tutte le modificazioni dell’apparato fonatorio (laringe, lingua, bocca) che avvengono con 

una rapidità non molto elevata tanto da poterle ritenere costanti entro i 100-200ms. 

Nel seguito per il calcolo dei parametri useremo alcune sequenze di campioni audio che possono 

essere importate come vettori in MATLAB direttamente da file audio in formato PCM mono (.WAV) 

usando i comandi: 

[s,fS]=wavread(’finesunn.wav’); 

% s --> vettore dei campioni del segnale

8.2. PARAMETRI NEL DOMINIO DEL TEMPO 8.3 

% fS --> frequenza di campionamento 

% disegna s 

s1=s/max(abs(s)); % normalizza al valore massimo 

tempi = (1/fS)*[1:max(size(s1))]; 

plot(tempi,s1); xlabel(’time (s)’); ylabel(’s(t)’); 

8.2.0.0.1 Windowing La finestra temporale stabilisce la durata del singolo frame; la sua scelta è 

un compromesso tra tre fattori: (1) deve essere abbastanza breve in modo che le proprietà del suono 

non cambino significativamente al suo interno; (2) deve essere abbastanza lunga da poter calcolare il 

parametro che si vuole stimare (utile anche per ridurre l’effetto di un eventuale rumore sovrapposto 

al segnale); (3) il susseguirsi delle finestre dovrebbe coprire interamente il segnale (in questo caso 

il frame rate del parametro che andiamo a calcolare deve essere come minimo l’inverso della durata 

della finestra). 

La finestra più semplice è quella rettangolare: 

 

1 per 0 ≤ n ≤ N − 1 

r(n) = 

0 altrimenti 

Molte applicazioni usano finestre più lunghe del necessario a soddisfare le ipotesi di stazionarietà, 

cambiandone però la forma per enfatizzare i campioni centrali (figura 8.1); per esempio, se un segnale 

vocale è approssimativamente stazionario su 10ms, si può usare una finestra da 20ms nella quale 

i campioni dei 10ms centrali pesano maggiormente rispetto ai primi e ultimi 5ms. La ragione per 

pesare di più i campioni centrali è relativa all’effetto che la forma della finestra ha sui parametri di 

uscita. Quando la finestra viene spostata nel tempo per analizzare frames successivi di un segnale, 

ci possono essere delle grandi oscillazioni dei parametri calcolati se si usa una finestra rettangolare 

(r(n)); per esempio, una semplice misura dell’energia ottenuta sommando il quadrato dei campioni 

del segnale è soggetta a grandi fluttuazioni non appena la finestra si sposta per includere o escludere, 

all’inizio o alla fine, campioni con grandi ampiezza. Un’alternativa alla finestra rettangolare (8.1) è la 

finestra di Hamming: 

2πn 

0.54 − 0.46 cos( 

h(n) = 

N−1 ) per 0 ≤ n ≤ N − 1 

0 altrimenti 

Affusolando gli estremi della finestra evito di avere grandi effetti sui parametri anche se ho repentini 

cambi nel segnale. 

Alcuni dei parametri nel dominio del tempo possono essere rappresentati matematicamente nella 

forma: 

∞ 

Q(n) = T [s(m)]w(n − m) = T [s] ∗ w(n) (8.3) 

m=−∞ 

dove T [·] è una trasformazione, anche non lineare, pesata da una finestra w(n). Prima di essere 

elaborato, il segnale può venire eventualmente filtrato per isolare la banda di frequenze desiderata. 

M-8.1 

Write a MATLAB function for a generic time domain processing. 

M-8.1 Solution 

(8.1) 

(8.2)


1 

Rettangolare 

Hanning 

Triangolare 

Hamming 

0 

0 500 

campioni (n) 

1000 

s(n) 

1 

0 

w(2N−n) w(3N−n) w(4N−n) 

−1 

0 500 

campioni (n) 

1000 

Figura 8.1: a sinistra vari tipi di finestre; a destra tre finestre sovrapposte al segnale s(n), spostate 

rispetto all’origine di 2N, 3N e 4N campioni 

function [Q,tempi] = st_processing(s,frame,overlap,fs,finestra) 

% Q --> convoluzione di s con la finestra w 

% tempi --> scala dei tempi di Q 

% 

% s --> segnale da elaborare 

% frame --> durata in secondi di un frame 

% overlap --> percentuale di sovrapposizione dei frames 

% fs --> frequenza di campionamento di s 

% finestra --> nome della finestra che si vuole usare 

Ns = max(size(s)) % numero di campioni di s 

Nframe = floor(fs * frame) % numero di campioni per frame 

Ndiff = floor(Nframe * (1 - overlap/100)) % numero di campioni tra frames 

L = floor((Ns-Nframe)/Ndiff); % numero di finestre 

switch lower(finestra) 

case ’hamming’ 

window = hamming(Nframe); 

case ’hanning’ 

window = hanning(Nframe); 

case ’bartlett’ 

window = bartlett(Nframe); 

case ’triangolare’ 

window = triang(Nframe); 

case ’rettangolare’ 

window = ones(Nframe,1)/Nframe; 

otherwise 

window = ones(Nframe,1)/Nframe; 

end; 

for n=1:L 

inizio = (n-1) * Ndiff + 1; % inizio della finestra


tempi(n,1) = n* Ndiff/fs; 

Q(n,1) = sum(s(inizio:inizio+Nframe-1,1) .* window); 

end; 

Nell’equazione 8.3, w(n) può essere sia un filtro FIR a risposta finita (per es. la finestra rettangolare 

o quella di Hamming) che ci permette di ridurre il frame rate risparmiando quindi calcoli, sia un 

filtro IIR; un esempio di finestra a risposta infinita è 

 

an per n ≥ 0 

w(n) = 

(8.4) 

0 per n < 0 

con 0 < a < 1; un simile filtro può venire implementato utilizzando una semplice equazione alle 

differenze, infatti 

Q(n) = aQ(n − 1) + T [s(n)] (8.5) 

che deve essere calcolato per ogni campione del segnale di ingresso. 

8.2.1 Short-Time Average Energy e Magnitude 

Per un segnale discreto la Short-Time Average Energy è definita come: 

E(n) = 1 

N 

n 

i=n−N+1 

ovvero equivale a Q(n) dell’equazione 8.3 ponendo T [·] = (·) 2 . Nel caso particolare dell’analisi 

della voce le sue grandi variazione temporali in ampiezza tra suoni vocalizzati e non, come pure tra 

fonemi diversi, permette la segmentazione del parlato nei sistemi automatici di riconoscimento vocale: 

aiuta per esempio a determinare l’inizio e la fine delle parole isolate (nei sistemi di trasmissione che 

multiplexano molte conversazioni, delimitare le parole significa evitare di trasmettere le pause). 

Un inconveniente della Short-Time Average Energy così come l’abbiamo precedentemente definita 

è la sua sensibilità a grandi ampiezze di segnale (i campioni compaiono elevati al quadrato); un 

semplice modo per alleviare questo problema è quello di introdurre la Short-Time Average Magnitude 

così definita 

M(n) = 1 

N 

equivalente a porre T [·] = | · | nell’equazione 8.3 

n 

i=n−N+1 

s(i) 2 

(8.6) 

|s(i)| (8.7) 

M-8.2 

Write two MATLAB functions to compute Short-Time Average Energy e Magnitude. 


Nframe=100; % numero di campioni per frame 

Ns=max(size(s)); % numero di campioni del segnale 

for n=1:Ns; % calcola la Short-Time Average Energy 

E(n,1)=sum(s(max(1,n-Nframe+1):n).*...


s(t) 

E(t) 

M(t) 

1 

0 

−1 

0 0.2 0.4 0.6 0.8 1 1.2 1.4 

1 

0.5 

0 

0 0.2 0.4 0.6 0.8 1 1.2 1.4 

1 

0.5 

0 

0 0.2 0.4 0.6 0.8 1 1.2 1.4 

time (s) 

Figura 8.2: In alto l’espressione (/FINE SUNNY WEATHER/) con sotto le corrispondenti Short-Time 

Average Energy e Short-Time Average Magnitude normalizzate al valore massimo, calcolate usando 

finestre rettangolari da N=100 campioni e frame rate pari alla frequenza di campionamento del segnale 

(8kHz). 

end; 

s(max(1,n-Nframe+1):n))/Nframe; 

for n=1:Ns; % calcola la Short-Time Average Magnitude 

M(n,1)=sum(abs(s(max(1,n-Nframe+1):n)))/Nframe; 

end; 

% disegna E(t) e M(t) 

E=E/max(E); % normalizza E(t) 

tempi = (1/fS)*[1:max(size(E))]; subplot(2,1,1); 

plot(tempi,E); xlabel(’time (s)’); ylabel(’E(t)’); 

M=M/max(M); % normalizza M(t) 

tempi = (1/fS)*[1:max(size(M))]; subplot(2,1,2); 

plot(tempi,M); xlabel(’time (s)’); ylabel(’M(t)’); 

La figura 8.2 mostra un esempio di segnale vocale con l’energia corrispondente, calcolata usando 

l’algoritmo appena definito, mentre la figura 8.3 mostra come la scelta della finestra influenzi la 

Short-Time Average Energy del segnale; nelle figure i grafici sono normalizzati al valore massimo ma


s(t) 

Energy(t) 

Energy(t) 

Energy(t) 

1 

0 

−1 

0 

1 

0.2 0.4 0.6 0.8 1 1.2 1.4 

0.5 

lunghezza finestra = 5ms 

overlap = 50% 

0 

0 

1 

0.2 0.4 0.6 0.8 1 1.2 1.4 

0.5 

0 

0 

1 

0.2 0.4 0.6 0.8 1 1.2 1.4 

0.5 


overlap = 40% 


overlap = 20% 

0 

0 0.2 0.4 0.6 0.8 1 1.2 1.4 

time (s) 

Figura 8.3: In alto l’espressione /FINE SUNNY WEATHER/ con sotto la Short-Time Average 

Energy calcolata con finestre di Hamming di diverse lunghezze, usando la funzione 

st processing(s,frame,overlap,fs,finestra) ; si noti come diventi smussata per 

finestre più lunghe. 

bisogna fare attenzione se si vuole confrontare uno stesso parametro applicato a segnali diversi, nel 

qual caso l’eventuale normalizzazione va fatta rispetto ad un valore comune. 

8.2.2 Short-Time Average Zero-Crossing Rate 

Normalmente per ottenere informazioni sul contenuto spettrale della voce si ricorre alla trasformata 

di Fourier; per alcune applicazioni un semplice parametro come la Zero-Crossing Rate (ZCR) dà una 

adeguata informazione spettrale ad un basso costo elaborativo. La ZCR corrisponde al numero di 

passaggi per lo zero del segnale che matematicamente si esprime come il cambiamento di segno di 

due campioni successivi. Per segnali a banda stretta (es. sinusoidi o la singola uscita di un banco di 

filtri passa-banda), dalla ZCR si ricava la frequenza fondamentale (F0) del segnale: 

F 0 = 

ZCR ∗ FS 

2 

(8.8)


s(t) 

1 

0.5 

0 

−0.5 

ZCR/ms(t) 

−1 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 

8 

6 

4 

2 

0 

0 0.1 0.2 0.3 0.4 

time (s) 

0.5 0.6 0.7 0.8 

Figura 8.4: Zero-Crossing Rate (zero crossing al ms) dell’espressione /SONO/ calcolata con una 

finestra rettangolare di N=100 campioni e frame rate pari a quella del segnale (11kHz); si noti come si 

riesca a discriminare la /S/ iniziale (suono non vocalizzato) dal resto della parola (suono vocalizzato). 

dove FS è la frequenza di campionamento del segnale e ZCR è espressa in zero crossing per campione. 

Matematicamente ZCR = Q(n) se nell’equazione 8.3 pongo T [s(n)] = |sign(s(n))−sign(s(n− 

1))|/2 e scalo la finestra w(n) di un fattore 1/N; ottengo così: 

Z(n) = 1 

N 

n 

m=n−N+1 

dove il segno di s(n) è definito come: 

sign(s(n)) = 

|sign[s(m)] − sign[s(m − 1)]| 

w(n − m) (8.9) 

2 

1 per s(n) ≥ 0 

−1 altrimenti 

M-8.3 

Write a MATLAB function for Zero Crossing Rate computation. 


Nframe = 100; % numero di campioni per frame 

Ns = max(size(s)); 

for n = 1+Nframe:Ns; % calcola la Short-Time Average ZCR 

Z(n,1) = sum(abs(sign(s(n-Nframe+1:n))- ... 

sign(s(n-Nframe:n-1)))/2)/Nframe; 

end; 

(8.10)


Z=Z*fS/1000; % Zero-Crossing per ms 

% disegna Z(t): 

t = (1/fS)*[1:max(size(Z))]; 

plot(t,Z); xlabel(’time (s)’); ylabel(’ZCR/ms(t)’); 

Nell’analisi vocale la ZCR può aiutare a determinare se il suono è vocalizzato oppure no (vedi 

figura 8.4); infatti il modello della generazione della voce suggerisce che l’energia della componente 

vocalizzata è concentrata al di sotto dei 3 kHz mentre quella della componente non vocalizzata si trova 

a frequenze più alte. Poichè la ZCR è in stretto rapporto con la distribuzione frequenziale di energia, ad 

alte ZCR corrispondono suoni non vocalizzati (unvoiced speech) mentre a basse ZCR suoni vocalizzati 

(voiced speech). Affiancata alla Short-Time Average Energy permette di individuare con precisione 

l’inizio e la fine delle parole soprattutto nei casi di suoni quali /S/ (vedi l’inizio della parola di figura 

8.4), /F/, /N/, /M/, /T/, /P/. 

M-8.4 

Implement a voiced-unvoiced detector as previously explained. Test it on real speech signals. Does 

it also work for voice - music detection? Why? 

A differenza della Short-Time Average Energy la ZCR è molto sensibile al rumore (per es. quello 

dei sistemi digitali, degli ADC ma anche dei 60Hz della rete di alimentazione) per cui nel caso di 

conversione analogico-digitale diventa utile filtrare il segnale con un filtro passa-banda, invece del 

solo filtro anti-aliasing. 

M-8.5 

Come nel caso della Short-Time Average Energy e della Short-Time Average Magnitude anche 

la Zero-Crossing Rate può essere calcolata con una frequenza molto più bassa di quella di campionamento 

del segnale (vedi figura 8.5). Calcolare Zero-Crossing Rate ricorrendo alla funzione 

st processing vista prima. 


Ns = max(size(s)); 

finestra = ’hamming’; 

% calcola la Short-Time Average Energy 

[E,tE]=st_processing(s.ˆ2,0.012,50,fS,finestra); 

% calcola la Short-Time Average Magnitude 

[M,tM]=st_processing(abs(s),0.012,50,fS,finestra); 

% calcola la Short-Time Average ZCR (ZC per campione) 

[Z,tZ]=st_processing([0; 0.5*abs(sign(s(2:Ns))-sign(s(1:Ns-1)))],... 

0.012,50,fS,’rettangolare’); 

% disegna i segnali 

E=E/max(E)*0.8; % normalizza 

subplot(3,1,1); plot(tE,E); xlabel(’time (s)’); ylabel(’Energy(t)’); 

M=M/max(M)*0.8; % normalizza 

subplot(3,1,2); plot(tM,M); xlabel(’time (s)’); ylabel(’Magnitude(t)’); 

Z=Z*fS/1000; % ZCR per ms 

subplot(3,1,3); plot(tZ,Z); xlabel(’time (s)’); ylabel(’ZCR/ms(t)’);


Energy(t) 

Magnitude(t) 

ZCR/ms(t) 

1 

0.5 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

1 

0.5 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

10 

5 

0 

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 

time (s) 

Figura 8.5: Short-Time Average Energy , Short-Time Average Magnitude e Zero-Crossing Rate dell’espressione 

/SONO/ campionata a 11kHz ed elaborata con frame di 12.5ms e overlap tra i frames del 

50%; riducendo l’overlap e allungando le finestre temporali (frame) i parametri nel dominio del tempo 

perdono in risoluzione temporale ma conservano ugualmente le caratteristiche del segnale (vedere per 

un confronto la Zero-Crossing Rate della figura 8.4). 

8.2.3 Short-Time Autocorrelation Function 

Il segnale che corrisponde all’anti-trasformata di Fourier della densità spettrale di energia (Cs(f)) è 

l’autocorrelazione del segnale; in formule 

Per un segnale discreto è definita come 

F[φ(k)] = Cs(f) = |S(f)| 2 

φ(k) = 

∞ 

m=−∞ 

(8.11) 

s(m)s(m + k) (8.12) 

L’autocorrelazione conserva le informazioni che riguardano le armoniche del segnale, l’ampiezza 

delle formanti e la loro frequenza. Dall’equazione 8.12 si vede che φ(k) misura in un certo senso la 

somiglianza del segnale con la sua versione traslata; avrà quindi valori più grandi in corrispondenza 

dei ritardi k per cui s(m) e s(m + k) hanno forme d’onda simili. Alcune importanti proprietà di φ(k) 

sono le seguenti:


s(n) 

R 0 (k) 

1 

0.5 

0 

−0.5 

−1 

0 100 200 300 400 

campioni(n) 

500 600 700 800 

1 

0.5 

0 

−0.5 

0 100 200 300 400 

k 

500 600 700 800 

Figura 8.6: Frame da 800 campioni di suono vocalizzato campionato a 8kHz e sua Short-Time 

Autocorrelation Function 

1. è una funzione pari: φ(k) = φ(−k) 

2. per k = 0 assume il suo massimo valore: φ(0) ≥ |φ(k)|∀k 

3. φ(0) corrisponde all’energia del segnale (o alla potenza media se i segnali sono periodici o non 

deterministici) 

4. se il segnale è periodico con periodo P anche l’autocorrelazione è periodica con lo stesso 

periodo: φ(k) = φ(k + P ) (proprietà importante se si vuole stimare la periodicità del segnale) 

La Short-Time Autocorrelation Function è ottenuta dall’equazione 8.12 filtrando il segnale con 

delle opportune finestre temporali w(n): 

Rn(k) = 

∞ 

m=−∞ 

s(m)w(n − m)s(m + k)w(n − k − m) (8.13) 

Con un opportuno cambio di variabili l’equazione precedente può essere riscritta nella forma 

Rn(k) = 

∞ 

m=−∞ 

dove w ′ (n) = w(−n); se ora w ′ (n) ha durata finita N ottengo 

Rn(k) = 

 

[s(n + m)w ′ (m)][s(n + m + k)w ′ (k + m)] (8.14) 

N−1−k 

[s(n + m)w ′ (m)][s(n + m + k)w ′ (k + m)] (8.15) 

m=0 

M-8.6 

Write a MATLAB function for computing the Short-Time Autocorrelation Function .


s(n) 

R 0 (k) 

1 

0.5 

0 

−0.5 

−1 

0 100 200 300 400 

campioni(n) 

500 600 700 800 

1 

0.5 

0 

−0.5 

−1 

0 100 200 300 400 

k 

500 600 700 800 

Figura 8.7: Frame di suono non vocalizzato /S/ campionato a 11kHz e sua Short-Time Autocorrelation 

Function ; si noti come assomigli ad un rumore e come si differenzi da quella di figura 8.6. 


Ns = max(size(s)); % numero di campioni 

window = ones(Ns,1); % finestra rettangolare 

s_w = s.*window; 

for k = 1:Ns-1; % calcola la Short-Time Autocorrelation 

R0(k) = sum(s_w(1:Ns-k).* ... 

s_w(k+1:Ns)); 

end; 

% disegna R0(k): 

R0=R0/max(abs(R0)); % normalizza R0(k) 

plot(1:max(size(R0)),R0); xlabel(’k’); ylabel(’R_0(k)’); 

La Short-Time Autocorrelation Function trova applicazione nell’estrazione del pitch e nella discriminazione 

tra suono vocalizzato (figura 8.6) e non vocalizzato (figura 8.7). Nella determinazione 

di F0, Rn(k) deve essere calcolata per diversi valori di k prossimi al numero di campioni del periodo 

di pitch (che dura da un minimo di 3ms per la voce femminile a un massimo di 20ms per quella 

maschile); se per esempio desidero avere una risoluzione del periodo di pitch di 0.1ms con un segnale 

campionato a 10kHz devo calcolare Rn(k) per 170 valori di k. In questi casi la finestra w(n) deve 

avere una durata almeno doppia rispetto al periodo del segnale che si vuole stimare.


AMDF(k) 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0 100 200 300 400 500 

k 

Figura 8.8: Short-time Average Magnitude Difference Function del frame di suono vocalizzato di 

figura 8.6. 

AMDF(k) 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

0 

0 50 100 150 200 250 

k 

Figura 8.9: Short-Time AMDF del frame /S/ di figura 8.7. 

8.2.4 Short-Time Average Magnitude Difference Function 

Un’alternativa alla Short-Time Autocorrelation Function per la stima di F0 è la Short-time Average 

Magnitude Difference Function (AMDF). Per un segnale periodico di periodo P ho che la successione 

d(n) = s(n) − s(n − k) (8.16) 

è uguale a zero per k = 0, ±P, ±2P, . . ., quindi invece di moltiplicare s(m) per s(m − k) posso 

considerare il valore assoluto della loro differenza: 

γn(k) = 

∞ 

m=−∞ 

|s(n + m)w(m) − s(n + m − k)w(m − k)| (8.17) 

dalla quale si può ricavarne una più semplice versione prendendo w(n) rettangolare di durata N: 

AMDF (k) = 

N−1 

m=k 

|s(m) − s(m − k)| (8.18) 

M-8.7 

Write a MATLAB function for Short-time Average Magnitude Difference Function computing.


s(n) 

R 0 (k) 

1 

0.5 

0 

−0.5 

−1 

−1.5 

0 50 100 150 200 250 300 350 

campioni(n) 

1 

0.5 

0 

−0.5 

k M =67 

−1 

0 50 100 150 200 250 300 350 

k 

Figura 8.10: Frame del fonema /OH/ (350 valori campionati a 8kHz) e sua Short-Time Autocorrelation 

Function ; il secondo massimo è posizionato a kM = 67 da cui si può ricavare la periodicità della 

frequenza fondamentale del segnale (F0 ≈ 120Hz). 


Ns=max(size(s)); % numero di campioni 

window=ones(ceil(Ns/2)+1,1); % finestra rettangolare 

for k=1:floor(Ns/2)-1; % calcola la Short-Time AMDF 

STAMDF(k) = sum(abs(s(floor(Ns/2):Ns).* window - ... 

s(floor(Ns/2)-k:Ns-k).* window)); 

end; 

% disegna STAMDF(t): 

STAMDF=STAMDF/max(STAMDF); % normalizza STAMDF(t) 

plot(1:max(size(STAMDF)),STAMDF); xlabel(’k’); ylabel(’AMDF(k)’); 

Le figure 8.8 e 8.9 mostrano l’andamento tipico della Short-Time AMDF per diversi frame: l’informazione 

che la Short-Time Autocorrelation Function dava sulla spaziatura temporale tra i massimi, 

corrispondente al reciproco della frequenza fondamentale, può essere ricavata ora considerando 

i minimi della Short-Time AMDF. Dal punto di vista computazionale se si usa hardware a virgola 

fissa il calcolo della Short-time Average Magnitude Difference Function è più veloce di quello della 

Short-Time Autocorrelation Function .


AMDF(k) 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

k m =66 

0.3 

0 20 40 60 80 100 120 140 160 180 

k 

Figura 8.11: Short-Time AMDF del frame /OH/ di figura 8.10; qui la periodicità si ricava andando a 

cercare il secondo minimo (km = 66). 

8.2.5 Stima del pitch (F0) 

Determinare la frequenza fondamentale (F0) o il pitch di un segnale è un problema in molte applicazioni. 

Il suono vocalizzato viene generato dalla vibrazione delle corde vocali e il pitch si riferisce 

alla frequenza fondamentale di questa vibrazione. Dalla Short-Time Autocorrelation Function ricavo 

l’informazione sulla periodicità del segnale andando a trovare kM , cioè il primo massimo dopo quello 

per k = 0: 

F 0 = FS 

kM 

(8.19) 

dove FS è la frequenza di campionamento del segnale (vedi figura 8.10). Utilizzando invece la Short- 

Time AMDF devo considerare il primo minimo dopo quello per k = 0 (km nella figura 8.11). 

Tipicamente uno stimatore del pitch effettua tre operazioni: 

• pre-processing: filtraggio e semplificazione del segnale attraverso la riduzione dei dati; 

• estrazione del periodo; 

• post-procesing: correzione di eventuali errori. 

L’estrazione del periodo mediante l’individuazione dei massimi dell’autocorrelazione fa uso di trasformazioni 

non lineari del segnale (es. center clipping). 

M-8.8 

Compute the pitch with Short-Time Autocorrelation Function . 


inizio=floor(fS*0.001); % salta il primo massimo 

[massimo,kM] = max(R0(inizio:max(size(R0)))); 

kM=kM + inizio -1; 

F0=fS/kM;


M-8.9 

Compute the pitch with Short-time Average Magnitude Difference Function . 


inizio=floor(fS*0.001); % salta il primo minimo 

[minimo,km] = min(STAMDF(inizio:max(size(STAMDF)))); 

km=km + inizio -1; 

F0=fS/km; 

Bisogna tenere presente che talvolta il terzo massimo ha ampiezza maggiore del secondo nel 

qual caso, con le funzioni appena definite, sbaglieremmo la stima (che sarebbe quella di un’armonica 

della frequenza fondamentale); per questo motivo spesso si affiancano altri metodi per evitare errori 

grossolani. 

8.3 Stima dell’inviluppo spettrale 

L’inviluppo spettrale è considerato un elemento molto significativo nella caratterizzazione dei suoni, 

specie nella voce. Esse infatti sono caratterizzate da uno spettro armonico, cui è sovrapposto un 

inviluppo. Le zone in frequenza, in cui si concentra l’energia, sono in corrispondenza con le principali 

risonanze del tratto vocale (percorso del suono dalle corde vocali fino all’esterno della bocca). Queste 

risonanze, chiamate formanti, sono peculiari per la differenziazione e il riconoscimento delle vocali 

stesse (vedi fig. 8.12). Anche le varie famiglie di strumenti musicali sono spesso distinte tra loro da 

tipici inviluppi spettrali. Spesso, nelle trasformazioni del suono, si parla, anche se impropriamente, di 

cambiamento dell’altezza (pitch shifting) con preservazione del timbro, quando si preserva l’inviluppo 

spettrale. 

8.3.1 Stima dell’inviluppo spettrale mediante banco di filtri 

Una prima maniera consiste nel fare una approssimazione, mediante segmenti, dello spettro in ampiezza. 

Si selezionano i massimi e si congiungono con linee rette, oppure si possono prendere punti equispaziati 

sull’asse delle frequenze e si congiungono con segmenti. Le ascisse (frequenze) dei punti 

possono anche essere scelte su una scala logaritmica o altra spaziatura percettivamente significativa. 

Questo metodo è abbastanza flessibile, ma non molto preciso. Questi punti si possono ottenere 

mediante l’uso di un banco di filtri passabanda equispaziati (a banda costante), o distribuiti logaritmicamente 

sull’asse delle frequenze (cosidetti filtri a Q costante, dove Q è il rapporto tra la larghezza 

di banda, e la frequenza centrale del filtro). Un esempio sono i cosidetti filtri di ottava o di terza. In 

alcuni casi essi sono progettati per riprodurre il comportamento della coclea. dal punto di vista computazionale 

i filtri possono essere realizzati mediante FFT, calcolando prima lo spettro (in modulo) e 

poi sommando i contributi di ciascun bin frequenziale pesato dalla risposta in frequenza del r-esimo 

filtro. Se i filtri sono passabanda rettangolari, basta sommare i contributi dei bin appartenenti alla 

banda r-esima. Risulta cioè che l’energia Er(j) per il canale r-esimo del j-esimo frame è data da 

Er(j) = 1 

N 

 

|Xj(k)| 2 

k∈Br

8.3. STIMA DELL’INVILUPPO SPETTRALE 8.17 

(a) (b) 

Figura 8.12: rappresentazione dei baricentri delle vocali nel piano descritto dalla frequenza F 1 e F 2 

delle prime due formanti. Esse formano approssimativamente un triangolo (a). Frequenza delle prime 

formanti delle vocali inglesi (b). 

dove Br indica l’insieme delle componenti spettrali appartenenti al filtro r-esimo e N la dimensione 

della FFT. Talvolta il risultato è normalizzato (diviso) per la larghezza di banda; altre volte no. Questo 

dipende dall’uso che poi ne viene fatto. 

M-8.10 

Write a MATLAB function for the spectral envelope computing, with the filterbank approach. Try a 

filterbank of frequency linearly spaced filters and logarithmic spaced filters (e.g. third octave filters). 

M-8.11 

Write a MATLAB function for the spectral envelope computing, with the gamma tone filterbank approach. 

Look in the literature or on the web for gammatone filter definition. gamma tone filters 

simulate the behaviour of the cochlea. 

8.3.2 Stima dell’inviluppo spettrale mediante predizione lineare (LPC) 

Un’altro metodo consiste nel fare una approssimazione mediante predizione lineare (LPC) come visto 

nel capitolo sulla sintesi. In questo caso si stima un filtro a soli poli che approssima lo spettro. Quando 

l’ordine del filtro è basso, viene solo seguito l’inviluppo spettrale, trascurando la struttura fine dello 

spettro prodotta dalle periodicità del suono. Nella sezione 8.3.2.1 sono riportati alcuni esempi di 

analisi mediante predizione lineare (LPC). 

Di seguito sono riportati due metodi non lineari particolarmente efficaci, consistenti nel cosiddetto 

cepstrum e nella sua variante mel-cepstrum. Quest’ultimo metodo fornisce la parametrizzazione 

dell’inviluppo spettrale più efficace nel riconoscimento del parlato e degli strumenti musicali.


M-8.12 

Write a MATLAB function for the spectral envelope computing, with the LPC approach. Experiment 

different filter lengths p and compare with the original signal spectrum. Apply your function to 

different kinds of sounds: musicals, speech and environmental noises. 

M-8.13 

In LPC analysis, the position of formants (resonances) is related to the poles of the estimated 

transfer function. Factorize the denominator of the transfer function and estimate the frequency of 

the formants. Note that if θk is the argument of zk complex conjugate zero of the denominator, then 

its corresponding resonant frequency fk derives from θk = 2πfk/Fs; the formant bandwith Bk is 

related to the zero modulus by |zk| = exp(−πB/Fs). 

8.3.2.1 Esempi di analisi mediante predizione lineare (LPC) 

Figura 8.13: Analisi LPC della vocale /i/ 

Nella fig. 8.13 è riportata l’analisi della vocale /i/ mediante predizione lineare (LPC), [tratto da 

J. D. Markel, Formant Trajectory Estimation from a Linear Least Squares Inverse Filter Formulation, 

Speech Communications Research Lab Monograph #7, Oct. 1971.] In fig. 8.13 (a) il frame del 

segnale cui è stata applicata la finestra di Hamming; (b) lo spettro del segnale; (c) lo spettro del filtro 

inverso; (d) l’inviluppo spettrale stimato come reciproco dello spettro del filtro inverso; (e) il residuo 

(eccitazione); (f) spettro del residuo. La frequenza di campionamento è 10 kHz; lunghezza del frame 

N = 320 (32 ms); ordine del filtro LPC p = 14. Nella fig. 8.14 è riportata l’analisi mediante 

predizione lineare (LPC) di un suono non vocalizzato (non periodico) costituito dalla consonante 

fricativa /s/. Infine nella fig. 8.15 è riportata l’analisi della vocale /ae/ al variare dell’ordine del filtro 

LPC di predizione lineare: (a) il frame del segnale cui è stata applicata la finestra di Hamming; (b) lo 

spettro del segnale; (c-f) l’inviluppo stimato con p che varia da 6 a 18. La frequenza di campionamento 

è 6 kHz. 

8.3.3 Stima dell’inviluppo spettrale mediante cepstrum 

Il metodo del cepstrum consente la separazione di un segnale y(n) = x(n) ∗ h(n), basato sul modello 

sorgente-filtro, in cui la sorgente x(n) passa attraverso un filtro descritto dalla risposta all’impulso


Figura 8.14: Analisi LPC della fricativa /s/ 

h(n). Lo spettro del segnale y(n) risulta Y (k) = X(k) · H(k), che è il prodotto di due spettri; k è 

l’indice per le frequenze discrete. Il primo corrisponde allo spettro della sorgente e il secondo a quello 

del filtro. E’ difficile separare questi due spettri; più facile è separare l’inviluppo (reale) del filtro dal 

resto dello spettro, attribuendo tutta la fase alla sorgente. L’idea del cesptrum si basa sulla proprietà 

del logaritmo log(a · b) = log(a) + log(b). 

Se prendiamo il logaritmo del modulo dello spettro Y (k), otteniamo 

log |Y (k)| = log(|X(k) · H(k)|) = log |X(k)| + log |H(k)| 

Se consideriamo il grafico di log |Y (k)| come un segnale nel tempo (dimenticandoci temporaneamente 

che in realtà è in frequenza), si possono distinguere due componenti: una oscillazione veloce, dovuta 

alla struttura armonica (righe) dell’eccitazione, e un andamento più lento corrispondente alle risonanze 

del filtro (inviluppo spettrale). Si può quindi ottenere una separazione delle due componenti, cioè 

componente a variazione veloce e quella a variazione lenta, mediante rispettivamente un filtro passa 

alto e passa-basso, del segnale log |Y (k)| sempre interpretato come segnale nel tempo, vedi fig. 8.16 

(sopra). 

Un metodo per separare le due componenti, consiste nell’usare la trasformata (nel nostro caso 

inversa) di Fourier. Pertanto 

DFT −1 (log |Y (k)|) = DFT −1 (log |X(k)|) + DFT −1 (log |H(k)|) 

La parte di DFT −1 (log |Y (k)|) verso l’origine descrive l’inviluppo spettrale, quella distante l’eccitazione. 

In particolare si noterà una specie di riga in corrispondenza della periodicità del log |Y (k)| 

e quindi del periodo del suono , vedi fig. 8.16 (sotto). A questo punto si può capire il gioco di parole 

che sta alla base del nome cesptrum. Infatti la parola ceps-trum corrisponde a spec-trum con la 

prima parte letta all’inverso. Analogamente si chiamiamo quefrency la ascissa di DFT −1 (log |Y (k)|) 

invece che frequency. Normalmente infatti la DFT −1 produce un segnale nel tempo, ma qui invece va


Figura 8.15: Analisi LPC della vocale /ae/ al variare dell’ordine p del filtro di predizione lineare. 

interpretato come frequenza. In definitiva il cesptrum (reale) è dato da 

c(n) = DFT −1 (log |Y (k)|) (8.20) 

Si noti che il cepstrum è una funzione pari dell indice n, in quanto log |Y (k)| è una funzione reale e 

pari. Questa proprietà consente di usare la trasformata coseno inversa per ottenere c(n) da log |Y (k)|. 

L’indice n di c(n) è chiamato quefrency, dove ad alta quefrency (variazioni rapide nello spettro in 

dB) corrispondono valori di n grandi e viceversa. Pertanto si può assumere che i valori bassi della 

quefrency descrivano l’inviluppo spettrale, mentre quelli alti corrispondono all’eccitazione o sorgente. 

La separazione è ottenuta moltiplicando il cepstrum per una finestra passa basso wLP (n) nel 

dominio del cepstrum. Ad es. 

⎧ 

⎨ 1 |n| < nc 

wLP (n) = 0.5 |n| = nc 

⎩ 

0 |n| > nc 

dove nc è una opportuna soglia. Ad esempio per i suoni vocalizzati possiamo considerare che il 

formante più basso F1 di un maschio adulto sia circa F1 = 270 Hz. Le oscillazioni dello spettro 

corrispondenti all’inviluppo non devono avere componenti sopra la quefrency qp = 3, 7 ms = 1/270 

Hz. In definitiva per suoni periodici, nc < np, con np periodo in campioni. Per una frequenza di 

campionamento fS = 44.1 kHz, risulta np = fSqp = fS/F1 = 163 campioni. In pratica verrà scelto 

come soglia un valore leggermente inferiore. Si noti che per la voce femminile la separazione è più 

difficile. Infatti l’altezza media della voce femminile è di circa 256 Hz, mentre il formante più basso 

è a 310 Hz. Questi valori sono piuttosto vicini, e quindi meno facilmente separabili. 

L’inviluppo spettrale, in una scala proporzionale ai decibel, è dato da 

log H(k) = DFT[ wLP · c(n) ] = DFT[wLP (n) · DFT −1 (log |Y (k)|) ] (8.21) 

In fig. 8.17 sono riportati esempi di analisi cepstrale per suoni vocalizzati e non vocalizzati, tratti da 

[Schafer and Rabiner, System for Automatic Formant Analysis of Voiced Speech, JASA, vol. 47, 

1970, p. 634] .


Figura 8.16: Esempio di cepstrum: sopra è rappresentato log |Y (k)| 2 ; sotto il corrispondente cepstrum 

c(n) = DFT −1 (log |Y (k)|) 

M-8.14 

Write a MATLAB function for the spectral envelope computing, with the cepstral approach and experiment 

it for different kinds of sounds. Develop a pitch estimate function based on cepstral approach. 

Si noti inoltre che i massimi dell’inviluppo spettrale corrispondono alle risonanze (formanti) molto 

caratteristiche per differenziare le varie vocali. Essi possono quindi essere individuati dall’inviluppo 

spettrale, come mostrato in fig. 8.18. 

M-8.15 

Estimate the formants of a voice in a song and plot their position on the spectrogram. 

8.3.4 Analisi mediante mel-cepstrum 

Studi di psicoacustica hanno mostrato che la percezione umana del contenuto frequenziale del suono 

non segue una scala lineare, ma all’incirca logaritmica. Infatti per ogni tono di f, misurata in Hz, 

corrisponde una altezza soggettiva misurata su una scala chiamata scala mel. Come riferimento della 

scala mel, si ha che 1000 Hz corrispondono a 1000 mel. Si usa una trasformazione non lineare della 

scala della frequenza per ottenere il corrispondente valore in mel (fig. 8.19), data da 

 

f if f ≤ 1 kHz 

mel(f) = 

 

2595 log10 if f > 1 kHz 

 

1 + f 

700 

Per applicare la scala mel al cepstrum, si usa un banco di filtri triangolari passabanda con frequenza 

centrale in K valori equispaziati in mel, vedi fig. 8.20. La larghezza di banda di ciascun 

filtro è la distanza dalla frequenza centrale del filtro precedente, moltiplicata per due. Il primo filtro


Figura 8.17: Esempio di analisi cepstrale per suoni vocalizzati e non vocalizzati 

parte da 0. Pertanto la larghezza di banda dei filtri sotto 1000 Hz sarà di 200 Hz; poi essa crescerà 

esponenzialmente. Pertanto i filtri saranno a banda costante fino a 1000Hz, a Q costante sopra. 

Il mel-cesptrum vuole stimare l’inviluppo spettrale dell’uscita di questo banco di filtri. Sia quindi 

Yn il logaritmo dell’energia in uscita dal canale n, attraverso la trasformata coseno discreta (DCT) 

ottengo i coefficienti mel-cepstrali MFCC (mel frequency cepstral coefficient) mediante l’equazione 

ck = 

N 

n=1 

 

Yn cos k n − 1 

 

π 

2 N 

k = 0, . . . , K 

Si ricostruisce un inviluppo spettrale semplificato usando i primi Km coefficienti, con Km < K, 

analogamente a quanto visto per la stima dell’inviluppo con il cepstrum 

Km 

˜C(mel) = ck cos(2πk mel 

) 

k=1 

dove Bm = è la larghezza della banda analizzata, espressa in mel. Un tipico valore di Km usato la 

caratterizzazione e classificazione della musica è Km = 20. Si noti che il coefficiente c0 è il valore 

medio dei valori (in dB) dell’energia dei canali del banco di filtri. Pertanto esso è in diretta relazione 

con l’energia del suono. Esso può servire per la stima dell’energia. Inoltre normalmente viene trascurato, 

quando si vuole fare un confronto della forma dell’inviluppo, normalizzato in energia, di vari 

suoni, ad esempio nei problemi di riconoscimento. 

M-8.16 

Write a MATLAB function for the spectral envelope computing, with the mel-cepstral approach and 

experiment it for different kinds of sounds. Compare the results obtained with the different spectral 

envelope algorithms. 

In fig. 8.21 è mostrato un esempio di analisi con mel-cesptrum. In essa sono confrontati spettri 

in decibel, rappresentati su una scala frequenziale logaritmica. Nel primo quadrante è rappresentato 

Bm

8.4. ATTRIBUTI A MEDIO LIVELLO RICAVABILI DALL’ANALISI SPETTRALE 8.23 

Figura 8.18: Automatically formant estimation from cepstrally smooted log Spectra [from Schaefer 

Rabiner]. 

lo spettro del suono. Nel secondo (in alto a destra) l’inviluppo ottenuto mediante mel-cesptrum. Nel 

terzo (in basso a sinistra) l’inviluppo ottenuto mediante predizione lineare. Infine nell’ultimo grafico, 

lo spettro ottenuto usando tutti i coefficienti spettrali 

8.4 Attributi a medio livello ricavabili dall’analisi spettrale 

Dall’analisi spettrale del suono vengono ricavati dei parametri che danno una descrizione delle caratteristiche 

fisiche a basso livello del suono. In particolare si ricava l’ampiezza, fase e frequenza istantanee 

di ogni parziale. Nel modello sinusoidale più rumore si puo’ anche ricavare una descrizione 

delle caratteristiche spettrali del rumore. A partire da questi parametri a basso livello, è possibile 

ricavare una descrizione ad un livello di astrazione più alto, che possa servire sia per una eventuale 

trasformazione del suono stesso nella resintesi, sia per riconoscere la sorgente o per ricavare altre 

informazioni da essa trasmesse. 

Nel caso questi parametri vengano poi usati per la trasformazione, è bene che siano di interpretazione 

intuitiva e che facciano riferimento, in qualche modo, agli attributi percettivi del suono. In 

altri casi si ricavano dallo spettro ad esempio il grado di armonicità, la rumorisità, la brillantezza; 

questi attributi descrivono le caratteristiche del suono e sono utili nei problemi di riconoscimento. 

Oltre agli attributi istantanei del suono, spesso sono utili le loro derivate. La derivata prima descrive 

la tendenza dell’evoluzione temporale, in quell’istante; talvolta viene presa in considerazione 

anche la derivata seconda, che descrive l’accelerazione dell’evoluzione temporale, che risulta spesso 

più in relazione con le scelte volontarie. Nei segnali discreti, la derivata viene sostituita dal calcolo 

della differenza tra il valore corrente ed il precedente d(n) = p(n) − p(n − 1). Spesso però la stima 

della derivata così ottenuta è abbastanza rumorosa ed è opportuno smussarla. A questo scopo per ogni 

istante si calcola la parabola che approssima, ai minimi quadrati, il valore del parametro in tre punti 

adiacenti. Si usa quindi la derivata (prima o seconda) della parabola nel punto centrale. Dall’analisi di


mel 

3500 

3000 

2500 

2000 

1500 

1000 

Transmission 

500 

0 

0 1000 2000 3000 4000 5000 

Hz 

6000 7000 8000 9000 10000 

1 

0.9 

0.8 

0.7 

0.6 

0.5 

0.4 

0.3 

0.2 

0.1 

Figura 8.19: Trasformazione da Hz a mel 

0 

0 1000 2000 3000 4000 

Frequency (Hz) 

5000 6000 7000 8000 

Figura 8.20: Banco di filtri su scala mel 

questi parametri e della loro evoluzione, viene aiutata la segmentazione del suono, cioè la separazione 

di regioni temporali con andamento omogeneo. 

M-8.17 

Plot the time evolution of the first mel-cesptral coefficient of the analisis of a music fragment. Is it 

useful for detecting the transients and separating the notes? 

M-8.18 

Compute the first Km mel cepstrum coefficients of a set of notes of different instruments of the 

same pitch. Are there similarities among instruments of the same kind? How they vary wth the 

different dynamics (lodness) of the notes? Repeat the experiment with the sound of the same 

instrument played at different pitches. 

8.4.1 Attributi a basso livello 

Descriviamo ora più in dettaglio gli attributi più significativi che si ottengono dalla rappresentazione 

sinusoidale più rumore (o meglio residuo). Sia il suono x(n) scomposto nelle due componenti xS(n)


Level (dB) 

Rel. Level (dB) 

60 

40 

20 

20 

100 

0 

−20 

100 

Spectrum 

500 

1000 

Spectral Shape rebuild from LPC 

500 1000 

Hz 

5000 

5000 



20 

0 

−20 

20 

0 

−20 

Spectral Shape rebuild from 6 MFCC 

100 

Spectral Shape rebuild from 26 MFCC 

100 

500 1000 

Hz 

500 1000 

Hz 

Figura 8.21: Esempio di analisi del suono di un clarinetto con mel-cesptrum. 

sinusoidale e xR(n) residuo: x(n) = xS(n) + xN(n), con xS(n) = I 

i=1 aicos[n2πfi(n)/FS + 

φi(n)]. In questa espressione ai rappresenta l’ampiezza, in scala lineare, della i-esima armonica e fi 

la sua frequenza. Essi sono parametri che variano nel tempo. Gli attributi qui descritti si intendono 

ricavati dall’analisi di un frame e vengono in genere riferiti temporalmente al centro del frame stesso, 

oppure alla fine quando l’analisi viene fatta in tempo reale. Essi sono quindi attributi istantanei del 

suono in esame. I più usati sono: 

• ampiezza totale della componente sinusoidale risultante dalla somma di tutte le parziali di un 

frame espresse in decibel 

 

I 

 

AStot = 20 log 10 

dove ai è l’ampiezza della parziale i-esima; 

• ampiezza della componente residuo, ottenuta dalla somma dei valori assoluti del residuo nel 

frame 

 

M−1 

N−1 

|xR(n)| = 20 log10 |XR(k)| 

ARtot = 20 log 10 

• ampiezza totale del suono 

Atot = 20 log 10 

= 20 log 10 

n=0 

 

M−1 

n=0 

I 

i=1 

|x(n)| 

 

N−1 

ai + 

i=1 

ai 

= 20 log 10 

 

 

|XR(k)| 

k=0 

k=0 

N−1 

 

k=0 

5000 

5000 

|X(k)|


• peso dell’armonica i-esima rispetto al totale della componente sinusoidale 

wi = 

ai 

I 

i=1 ai 

• la frequenza fondamentale (pitch), che puo’ essere ottenuta come media pesata delle frequenze 

normalizzate di tutte le armoniche, 

F 0 = 

I 

i=1 

In un suono esattamente periodico, tutte le parziali sono multiple della fondamentale. Cioè vale 

fi = iF 0. Nei suoni reali questo vale solo approssimativamente e pertanto la fondamentale 

deve essere stimata con espressioni del tipo di quella sopra indicata. 

8.4.2 Attributi a livello superiore 

Vengono ora presentati attributi a più alto livello che descrivono le caratteristiche spettrali del suono. 

Questi attributi sono anch’essi ricavati a livello di frame e sono quindi considerati istantanei, nel senso 

precisato sopra. I più usati sono: 

• disarmonicità 

HD = 

fi 

i 

· wi 

I 

|fi − iFo| · wi 

• rumorosità (noiseness) è il rapporto tra l’energia della parte rumorosa e l’energia totale 

i=1 

Noisiness = 

M−1 

n=0 |xR(n)| 

M−1 

n=0 |x(n)| 

In Mpeg7 si chiama AudioHarmonicity ed è un descrittore del segnale. 

• brillantezza, determinata come il baricentro dello spettro 

BR = 

N−1 k=0 k|X(k)| 

N−1 k=0 |X(k)| 

· FS 

N 

Nel caso di suono armonici, dotati cioè di altezza, si definisce anche la brillantezza in relazione 

alla fondamentale F 0 come 

I I 

i=1 i ai 

BRF 0 = = 

I 

i=1 ai 

i=1 

i wi 

• pendenza spettrale, ottenuta dalla regressione lineare sui punti (fi, ai) 

dove 

Stilt = 

ti = 1 

wi 

 

1 

I 

i=1 t2 i 

fi − 

· 

I 

i=1 

tiai 

wi 

I i=1 fi/w2 i 

I i=1 1/w2 

i


• deviazione spettrale delle armoniche (Harmonic Spectral Deviation) 

HDEV = 1 

I 

I 

[ ai − spec env(fi) ] 

i=1 

dove spec env(fi) è l’inviluppo spettrale stimato con un dei metodi visti sipra, vautato alla 

frequenza fi della i-esima armonica. Questo parametro fa parte dei descrittori spettrali del 

timbro in Mpeg7. 

• rapporto l’energia delle armoniche dispari e pari 

OER = 

 

i=pari a2 i 

 

i=dispari a2 i 

Questo parametro è utile per distinguere i suoni tipo clarinetti, che hanno poca energia nelle 

armoniche pari, comportandosi come un tubo chiuso ad una estremità, da quelli tipo tromba, 

che hanno energia simile nei due tipi di armoniche. 

• tristimulus. Questi parametri sono stati pensati per pesare differentemente le armoniche nelle 

varie zone: fondamentale (T 1), dalla seconda alla quarta (T 2), le rimanenti (T 3). E’ definito da 

T 1 = a1 

 

i ai 

T 2 = a2 + a3 + a4 

 

i ai 

T 3 = 

I 

i=5 ai 

 

i ai 

= 1 − T 1 − T 2 

In fig. 8.22(a) è riportata la tipica rappresentazione del tristimulus dove nellasse x è indicato 

(a) (b) 

Figura 8.22: (a) Basic layout of the tristimulus diagram: T 3 vs. T 2. (b) Tristimulus diagram showing 

the timbral time course of a note played on a clarinet. The numbers alongside the plot represent time 

in milliseconds after the onset of the note and the white circle represents the steady state timbre, after 

an initial transient. (Pollard and Jansson, 1982) 

T 3 e nellasse y è indicato T2. Pertanto i suoni con alto T1 (fonadmentale forte) sono vicino


allorigine, con alto T2 (alte armniche medie) sono in alto, con alto T3 (alte armoniche superiori) 

sono a destra. Inoltre il fatto che la somma di T 1 + T 2 + T 3 = 1 implica che i suoni siano 

rappresentati dentro il triangolo con vertici in (0,0), (0,1) e (1,0). In fig. 8.22(b) è rappresentata 

levoluzione del tristimulus di una nota di clarinetto. 

• bandwidth 

BW = 

N−1 

k=0 |X(k)| · |fk − BR| 

N−1 

k=0 |X(k)| 

• ampiezza (valore efficace del suono) 

 

 

amp = X(k) 2 

• spectral rolloff definito come la frequenza Rs sotto la quale è concentrata 85% della distribuzione 

di ampiezza 

Rs 

N−1 

|X(k)| = 0.85 · |X(k)| 

k=1 

Questa è una altra misura della forma dello spettro. 

• flusso spettrale (Spectral Flux) è definito come la distanza euclidea tra due spettri in ampiezza 

di frames consecutivi 

N−1 

SF = [Nt(k) − Nt−1(k)] 2 

k=1 

dove Nt(k) e Nt(k) sono rispettivamente le ampiezze spettrale della trasformata di Fourier del 

frame all’istant t e t − 1. Il flusso spettrale è una misura della quantità di variazione locale dello 

spettro ed è considerato, da alcuni esperimenti, essere correlato alla terza dimensione percettiva 

del timbro (vedi la percezione del timbro nel capitolo 2 delle dispense). 

M-8.19 

Implement the feature descriptors described in this section and compare their effectiveness on 

different kinds of sounds. Plot their evolution from the attack to the decay of a instrumental tone. 

Plot their evolution on a singing voice (e.g. Tom’s Dinner by Susan Vega 

8.4.3 Attributi di segmento sonoro 

Quando si considera la successione temporale di un attributo nei frames successivi, si ottiene una funzione 

del tempo definita negli istanti di riferimento dei vari frames. temporalmente i punti saranno separati 

del hop size usato nell’analisi. Essi sono quindi sottocampionati rispetto al segnale. Con forme 

di interpolazione o approssimazione, eventualmente smussando l’andamento, si possono ottenere gli 

andamenti a frequenza di campionamento. 

Come detto sopra, è importante anche caratterizzare l’evoluzione temporale di questi parametri. 

Inoltre si possono ricavare degli attributi di segmento. Con il termine segmento si intende una porzione 

di suono di caratteristiche omogenee (ad esempio il regime sostenuto) o funzionalmente simili (ad 

esempio il transitorio di attacco). L’operazione di segmentazione del suono consiste nel dividerlo in 

segmenti e viene fatta esaminando gli attributi a livello di segnale. Le traiettoria degli attributi viene 

descritta calcolando per ogni parametro par 

k 

k=1


• la derivata al frame j 

par(j) − par(j − 1) 

der(j) = 

H/FS 

dove H è l’hop size e FS è la frequenza di campionamento; 

• media pesata del parametro su tutti i frames j 

mediapar = 

• varianza pesata del parametro su tutti i frames j 

varpar = 

 

j par(j)amp(j) 

 

j amp(j) 

 

j [par(j) − mediapar] 2 · amp(j) 

 

j amp(j) 

Ci sono alcuni parametri che descrivono le caratteristiche di una nota. Essi si ottengono una volta 

separata la nota dal contesto. 

• logaritmo del tempo di attacco (Log-Attack Time) 

LAT = log 10(attack time) 

dove attack time è la durata del tempo di attacco del suono. Questo parametro è molto importante 

per il riconoscimento dei timbri. Esso infatti è correlato ad una delle dimensioni percettive 

dello spazio timbrico ed è stato inserito tra i descrittori temporali del timbro in MPEG7. Si noti 

che la determinazione dell’inizio e fine dell’attacco, è una operazione difficile: spesso la nota è 

preceduta da rumore o altro, che rende incerta la determinazione dell’ effettivo inizio. Inoltre 

dall’esame dell’inviluppo temporale, non è neppure facile determinare il termine. Spesso si fa 

riferimento al massimo dell’inviluppo; questo va bene per suoni percussivi, come il pianoforte. 

Per suoni ad eccitazione sostenuta, come gli archi o i fiati, il massimo può essere trovato ben 

in avanti, quando il transitorio di attacco è terminato; il musicista spesso tende a controllare 

l’espressività del suono, mediante il controllo dell’inviluppo temporale. Si usa quindi prendere 

come soglie vaori percentuali dell’ampiezza massima, ad esempio rispettivamente 10 % e 90 % 

percento del massimo. 

• rapporto rumore - parte armonica (Noise to Harmonic Ratio - NHR) definito come il rapporto tra 

l’energia della parte rumorosa e l’energia della parte armonica per la parte del regime (sustain) 

si definisce la modulazione dell’energia e la modulazione della frequenza fondamentale. na 

volta separato il regime, si sottrae dall’inviluppo d’energia in dB la sua tendenza (lineare in 

dB). Poi si calcola lo spettro dell’inviluppo corretto e si seleziona il picco nell’estensione [1 

- 10 Hz]. Con lo stesso procedimento si determina la modulazione del periodo, sottraendo la 

tendenza lineare della fondamentale durante il regime, e poi trovando il massimo nello spettro 

dell’inviluppo dell’altezza corretto. La frequenza del massimo corrisponderè alla frequenza del 

tremolo, normalmente tra 4 e 8 Hz. 

• baricentro dell’inviluppo temporale (temporal centroid) 

 

t inv(t) · t 

T C = 

t inv(t)


dove inv(t) è l’inviluppo temporale. Questo parametro è molto utile per distinguere i suoni 

percussivi da quelli sostenuti. Anche questo parametro è inserito tra i descrittori temporali del 

timbro in Mpeg7. 

M-8.20 

Implement the feature descriptors described in these sections and compare their effectiveness on 

different kinds of sounds 

8.4.4 Onset detection 

A musical note is considered as composed of a initial attack transient phse, followed by a steadystate 

phase and a final decay. Attack transients are zones of short duration and fast variations of the 

signal spectral content (non-stationarity), where resonances are still building up. Their perception is 

caused by changes in the intensity, pitch or timbre of a sound. Because of the unpredictability of such 

changes, they are difficult to model. Attack transients precede the steady state of the signal, when the 

signal is stationary, thus easily predictable. Note onset is defined as the beginning of attack transient 

of a note. 

The boundaries between notes and different types of events are often ill-defined. The performer 

can introduce variations and modulations in a given sound without implying the presence of new notes. 

This can also occur as a consequence of the processing of the acoustic signal, recording conditions or 

just as an expressivity feature in the musical performance (i.e. vibratos in woodwind, brass and string 

instruments). Detection of onsets in polyphonic mixtures is difficult even for human listeners. Attack 

transients present some typical behaviour: 1 

Energy burst: in a note’s energy profile, the highest concentration of energy can be found during 

the attack (when a steep increase can be observed). After that, energy progressively decreases 

(Fig. 8.23 (a)). The more impulsive the components of the signal are (percussive sounds as 

opposed to tonal - more sinusoidal - sounds), the more sudden this increase-decrease energy 

characteristic becomes. 

Duration: the attack part of a note is usually very short, introducing significant changes to the signal 

(Fig. 8.23). This abruptness is a trademark of transients. It is particularly acute for percussive 

sounds. 

Surprise: this is also related to the abruptness of transients, but from the statistical point of view. 

New events are unconnected to previous events, thus cannot be predicted from these. The proliferation 

of elements whose values are completely unexpected is more likely during transients. 

Chaotic nature: during transients, the signal includes unstable chaotic elements, which quickly stabilise 

when entering the steady state (see Fig. 8.23 (b)). These elements are not only highly 

uncorrelated with previous and future signal values, but also within different signal elements at 

a given time. 

Steady-state: although obvious, an important characteristic of transients is that they are followed by 

the steady-state of the note. Chaotic components followed by chaotic components can account 

for noise, while a stable follow-up hints at the possible presence of a note. 

1 from PhD dissertation of J. Bello 2003


Figura 8.23: A sequence of two piano notes (a) and the corresponding spectrogram (b). The energy 

increase, short duration and instability related to transients can be observed as well as the stability of 

the steady-state part [from Bello 2003]. 

8.4.4.1 Onset detection by Local energy 

Despite the number of variants, practically all of them are based on the calculation of a first order 

difference function of the signal amplitude envelopes and taking the maximum rising slope as an 

onset or an onset component. An example is the algorithm based on the surfboard method of Schloss 

(1985), which involves smoothing the signal to produce an amplitude envelope and finding peaks in 

its slope using linear regression. In fig. 8.24 the effect of a simple onset detector based on Local 

energy is shown. In fig. 8.24(a) the time-domain audio signal; in fig. 8.24(b) its smoothed amplitude 

envelope drawn in bold over it, computed by a 40ms windowed RMS smoothing with 75% overlap 

and in fig. 8.24(c) peaks in slope shown by dotted lines tangential to the envelope. This method is 

lossy, in that it fails to detect the onsets of many notes which are masked by simultaneously sounding 

notes. Occasional false onsets are detected, such as those caused by amplitude modulation in the 

signal. 

The first order difference function reflects well the loudness of an onsetting sound, but its maximum 

values fail to precisely mark the time of an onset. This is due to two reasons. First, especially 

low sounds may take some time to come to the point where their amplitude is maximally rising, and 

thus that point is crucially late from the physical onset of a sound and leads to an incorrect cross-band 

association with the higher frequencies. Second, the onset track of a sound is most often not monotonically 

increasing, and thus we would have several local maxima in the first order difference function


(a) (b) (c) 

Figura 8.24: Example of onset detector based on local energy: time-domain audio signal (a), 40ms 

windowed RMS smoothing with 75% overlap (b), peaks in slope of envelope (c). 

near the physical onset. 

It is possible to handles both of these problems by using the relative difference function. Let E(t) 

the Short time energy as defined in sec. 8.2.1. The relative difference function is defined as 

Dr(t) = 1 d d 

E(t) = log E(t) 

E(t) dt dt 

This function computes the amount of change in relation to the signal level. This is the same as differentiating 

the logarithm of the energy envelope. This is psycho-acoustically relevant, since perceived 

increase in signal amplitude is in relation to its level, the same amount of increase being more prominent 

in a quiet signal. Indeed the just detectable change in intensity is approximately proportional to 

the intensity of the signal, i.e. δI/I, the Weber fraction, is a constant. This relationship holds for 

intensities from about 20 dB to about 100 dB above the absolute threshold. Onset components are 

detected by a simple peak picking operation, which looks for peaks above a global threshold in the 

relative difference function Dr(t). 

The relative difference function effectively solves the above mentioned problems by detecting 

the onset times of low sounds earlier and, more importantly, by handling complicated onset tracks, 

since oscillations in the onset track of a sound do not matter in relative terms after its amplitude has 

started rising. In fig. 8.25 the absolute and relative difference functions of the onset of a piano sound, 

on six different frequency band ,are plotted. Both of the benefits discussed can be seen clearly. To 

improve the performance of the onset detector, first the overall loudness of the signal is normalized to 

a reference level using a psychoacoustics model of loudness. Then a filterbank divides the signal into 

many non-overlapping bands (often critical band are used). At each band, we detect onset components 

and determine their time and intensity. In final phase, the onset components are combined to yield 

onsets. 

Energy-based algorithms are fast and easy to implement, however their effectiveness decreases 

when dealing with non-percussive signals and when transient energy overlaps in complex mixtures. 

Energy bursts related to transient information are more noticeable at higher frequencies as the tonal 

energy is usually concentrated at lower frequencies, masking the effect of these variations on the 

signal content. More advanced models utilize band-wise processing and a psychoacoustic model of 

intensity coding to combine the results from the separate frequency bands.


Figura 8.25: Onset of a piano sound. First order absolute (dashed) and relative (solid) difference 

functions of the amplitude envelopes of six different frequency bands [from Klapuri 1999]. 

8.4.4.2 Onset detection in frequency domain 

This attack transient noise is particularly noticeable at high frequency locations, since at low frequencies, 

high concentrations of energy (in the bins corresponding to the first few harmonics of the played 

note) mask this effect. 

The High Frequency Content (HFC) function, is defined, for the jth frame, as 

DH(j) = 

k|Xj(k)| 

k 

where |Xj(.)| is the spectral magnitude of the jth frame. Aim of this function is to emphasize the 

high frequency content of the sound and it works well for identifying percussive sounds. If compared 

with energy, this HFC function has greater amplitude during the transient/attack time. 

8.4.4.3 Onset detection by complex domain approach 

The HFC precisely identifies percussive onsets, but is less responsive to non-percussive components. 

In the complex domain approach, to cope with harmonic changes of low transient timbres, a target 

STFT value ˆ Xk is generated as 

ˆXk[n] = | ˆ Xk[n]|e j ˆ φk[n] 

ˆφk[n] = princarg(2φk[n − 1] − φk[n − 2]) 

where φk[n] is the estimated phase deviation. The measure of the Euclidean distance, in the complex 

domain, between the target STFT value ˆ Xk and the observed STFT Xk allows the definition of a


Figura 8.26: Piano signal (a), its high frequency content (b), the profile of High Frequency Content 

function [from Bello 2003]. 

detection function 

DC[n] = 1 

N 

 

|| ˆ Xk[n] − Xk[n]|| 2 

k 

The detection function still contains spurious peaks and some pre-processing and low pass filtering is 

required before peak picking. 

M-8.21 

Implement the onset detectors described in these sections and compare their performance on 

different kinds of music 

8.4.5 Meter extimation algorithms 

As a part of a larger project of modeling the cognition of basic musical structures, Temperley and 

Sleator proposed a meter estimation algorithm for arbitrary MIDI files [Temperley99: D. Temperley 

and D. Sleator, Modeling Meter and Harmony: A Preference-Rule Approach, Computer Music 

Journal, 23(1), 1027, Spring 1999]. The algorithm was based on implementing the preference rules 

verbally described in [Lerdahl 1983], and produced the whole metrical hierarchy as output. 

Dixon proposed a rule-based system to track the tactus pulse of expressive MIDI performances 

[S. Dixon, Automatic Extraction of Tempo and Beat from Expressive Performances, J. New Music 

Research 30 (1), 39-58, 2001]. The method works quite well for MIDI files of all types but has 

problems with audio files which do not contain sharp attacks. The source codes of both Temperley’s 

and Dixon’s systems are publicly available for testing. See 

http://www.link.cs.cmu.edu/music-analysis 

and 

http://www.oefai.at/˜simon/beatroot 

M-8.22 

The source codes of both Temperley’s and Dixon’s systems are publicly available for testing. Test 

and compare their performance on different kinds of music.

Indice 

8 Analisi dei suoni 8.1 

8.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1 

8.2 Parametri nel dominio del tempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.2 

8.2.1 Short-Time Average Energy e Magnitude . . . . . . . . . . . . . . . . . . . 8.5 

8.2.2 Short-Time Average Zero-Crossing Rate . . . . . . . . . . . . . . . . . . . . 8.7 

8.2.3 Short-Time Autocorrelation Function . . . . . . . . . . . . . . . . . . . . . 8.10 

8.2.4 Short-Time Average Magnitude Difference Function . . . . . . . . . . . . . 8.13 

8.2.5 Stima del pitch (F0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.15 

8.3 Stima dell’inviluppo spettrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.16 

8.3.1 Stima dell’inviluppo spettrale mediante banco di filtri . . . . . . . . . . . . . 8.16 

8.3.2 Stima dell’inviluppo spettrale mediante predizione lineare (LPC) . . . . . . . 8.17 

8.3.2.1 Esempi di analisi mediante predizione lineare (LPC) . . . . . . . . 8.18 

8.3.3 Stima dell’inviluppo spettrale mediante cepstrum . . . . . . . . . . . . . . . 8.18 

8.3.4 Analisi mediante mel-cepstrum . . . . . . . . . . . . . . . . . . . . . . . . 8.21 

8.4 Attributi a medio livello ricavabili dall’analisi spettrale . . . . . . . . . . . . . . . . 8.23 

8.4.1 Attributi a basso livello . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.24 

8.4.2 Attributi a livello superiore . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.26 

8.4.3 Attributi di segmento sonoro . . . . . . . . . . . . . . . . . . . . . . . . . . 8.28 

8.4.4 Onset detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.30 

8.4.4.1 Onset detection by Local energy . . . . . . . . . . . . . . . . . . 8.31 

8.4.4.2 Onset detection in frequency domain . . . . . . . . . . . . . . . . 8.33 

8.4.4.3 Onset detection by complex domain approach . . . . . . . . . . . 8.33 

8.4.5 Meter extimation algorithms . . . . . . . . . . . . . . . . . . . . . . . . . . 8.34 

8.35

Capitolo 8 Analisi dei suoni

Create successful ePaper yourself

Delete template?

Save as template?