Dynamic Voltage Scaling Dissertação para obtenção do Grau de ...

Dynamic Voltage Scaling 

(Optimização da Tensão de Alimentação) 

Pedro Luís Neves 

Dissertação para obtenção do Grau de Mestre em 

Engenharia Electrotécnica e de Computadores 

Júri 

Presidente: Doutor Nuno Cavaco Gomes Horta 

Orientador: Doutor Marcelino Bicho dos Santos 

Vogais: Doutor Jorge Filipe Leal Costa Semião 

Outubro de 2012

“The only limits we have are the limits we believe.” 

(Os únicos limites que temos são aqueles em que acreditamos.) 

Dr. Wayne W. Dyer

Agradecimentos 

Estudar no IST tem sido uma experiência muito gratificante. 

Para além do meu reconhecimento a todos os que deforma directa ou indirecta contribuíram 

para o meu percurso académico e para a minha felicidade, gostaria de agradecer em particular: 

Aos meus pais por toda a dedicação e amor que sempre demonstraram, mas também todos os 

sacrifícios realizados para que eu pudesse concluir os meus estudos. 

Aos restantes elementos da minha família, irmã, padrinhos, tios, primos e avós, os bons 

momentos proporcionados, com um especial obrigado ao tio Henrique que de um modo muito próprio 

deu o seu contributo para a minha formação pessoal. 

Ao grande amigo Nuno Órfão por estar sempre presente nos bons e maus momentos. 

Aos companheiros e amigos de faculdade agradeço o companheirismo e entreajuda. 

Aos colegas de laboratório Tiago Moita e Ruben Cabral, os ensinamentos, a ajuda, a amizade e 

a boa disposição demonstradas durante o tempo em que trabalhamos juntos. 

Ao professor Jorge Semião e ao Bruno Jacinto, a disponibilidade para discussões sobre os 

assuntos abordados neste trabalho. 

Ao professor Marcelino Bicho dos Santos, a oportunidade e as condições de excelência que me 

proporcionou para a realização deste trabalho. 

A toda a equipa da SILICONGATE LDA pelo acolhimento excepcional e em especial ao 

Floriberto Lima pelos bons ensinamentos e prontidão para fornecer as melhores condições para a 

realização deste trabalhar. 

Por fim um pedido de desculpa às pessoas a quem prestei menos atenção devido às obrigações 

académicas, em especial ao afilhado João Pedro pela impossibilidade de aproveitar o pouco tempo 

disponível para estar com ele. 

i

Resumo 

Nesta dissertação é apresentada uma nova metodologia que permite melhorar a eficiência dos 

circuitos digitais em microelectrónica, sem comprometer o desempenho e fiabilidade do sistema. 

Actualmente a estratégia da indústria reside em fixar a tensão de alimentação num patamar 

suficientemente alto que garanta o funcionamento do circuito para quaisquer variações no processo 

de fabrico, temperatura e envelhecimento (PVTA – Process+Voltage+Temperature+Aging). No 

entanto esta abordagem traduz-se num elevado dispêndio de energia uma vez que por norma os 

circuitos não funcionam nas piores condições. Contudo, contornar a abordagem actual não é um 

problema trivial. É necessário que o sistema consiga adaptar-se às diferentes condições sem 

comprometer o desempenho e a fiabilidade. Com o objectivo de obter a eficiência máxima, foi 

desenvolvido um sensor que permite monitorizar a degradação no desempenho dos circuitos por 

forma a ajustar a tensão de alimentação às suas necessidades. Para comprovar o seu 

funcionamento foi criado um demonstrador em FPGA contendo um multiplicador com autoteste (BIST 

– Built-In Self-Test), onde foi aplicado o sensor desenvolvido a fim de demonstrar a sua operação 

sem erros e com um consumo de energia optimizado. 

Palavras Chave 

Sensor PVTA, FPGA, Prototipagem, Gestão de Energia em Microelectrónica 

iii

Abstract 

The present work reports a new methodology to improve the power efficiency of microelectronics 

digital cores, without compromising their performance or reliability. Nowadays, the industry most 

common strategy to support variations of the circuit fabrication Process, power supply Voltage, 

Temperature and Aging (PVTA) is based on imposing a custom voltage high enough to ensure the 

correct operation of the circuit in a worst case scenario. However, this approach leads to a 

considerable waste of energy since most of the time circuits do not operate under worst case 

conditions. 

Nevertheless, the solution for this problem is not trivial since it is mandatory to develop a 

methodology were the system is able to adapt itself to different conditions but without compromising 

its performance or reliability. 

In this context, a new methodology is here proposed that aims to guarantee maximum efficiency 

through the use of a sensor that monitors the performance degradation of circuits in order to adjust its 

power supply voltage, guaranteeing the best power consumption but without compromising its 

performance or reliability. To demonstrate the sensor operation, a prototype circuit was developed 

and implemented in a FPGA. The developed prototype includes a multiplier, and corresponding self- 

-test (BIST), to which the developed sensor was applied in order to ensure its operation without 

errors, guaranteeing at the same time minimal power consumption. 

Keywords 

PVTA Sensor, FPGA, Prototyping, Power Management for Microelectronics 

v

Conteúdo 

Agradecimentos ....................................................................................................................................... i 

Resumo .................................................................................................................................................. iii 

Abstract ................................................................................................................................................... v 

Conteúdo ............................................................................................................................................... vii 

Lista de Figuras ...................................................................................................................................... ix 

Lista de Tabelas ..................................................................................................................................... xi 

Lista de Acrónimos ................................................................................................................................ xiii 

Introdução ....................................................................................................................................... 1 

1.1 Motivação ................................................................................................................................ 2 

1.2 Principais Contribuições .......................................................................................................... 4 

1.3 Objectivos ................................................................................................................................ 5 

1.4 Organização da Dissertação ................................................................................................... 5 

Análise e Previsão do Envelhecimento ........................................................................................... 7 

2.1 Envelhecimento e Efeito NBTI ................................................................................................ 8 

2.2 Ring Oscillator Sensor (IBM ® )................................................................................................. 9 

2.3 Sensor de envelhecimento da Sun Microsystems ® .............................................................. 10 

Sensor Global................................................................................................................................ 11 

3.1 Introdução ............................................................................................................................. 12 

3.2 Sensor PVTA......................................................................................................................... 13 

3.2.1 Modo de Envelhecimento .................................................................................................. 14 

3.2.2 Modo de Teste .................................................................................................................. 15 

3.2.3 Detecção ........................................................................................................................... 15 

3.2.4 Implementação Prática ..................................................................................................... 17 

3.3 Temporizador ........................................................................................................................ 20 

3.3.1 Divisor de Relógio ............................................................................................................. 20 

3.3.2 Máquina de Estados ......................................................................................................... 22 

3.3.3 Diagrama de Estados ........................................................................................................ 24 

Demonstrador FPGA ..................................................................................................................... 27 

4.1 Introdução ............................................................................................................................. 28 

4.2 Arquitectura ........................................................................................................................... 28 

vii


4.3 Metodologia de Optimização ................................................................................................. 29 

4.3.1 Modificações Efectuadas .................................................................................................. 30 

4.3.2 Conversor DCDC .............................................................................................................. 30 

4.3.3 Comunicação SPI.............................................................................................................. 31 

4.3.4 Implementação do Sensor Global ..................................................................................... 33 

4.3.5 Multiplicador Pipeline ........................................................................................................ 33 

4.4 Bloco de Controlo e Optimização.......................................................................................... 34 

4.4.1 Caminho de Dados............................................................................................................ 35 

4.4.2 Comportamento................................................................................................................. 36 

4.4.3 Multiplexer tri-state (cut_speed)........................................................................................ 37 

Resultados Experimentais ............................................................................................................ 39 

5.1 Características do Demonstrador ......................................................................................... 40 

5.2 Simulações Post-Route ......................................................................................................... 41 

5.3 Teste em Temperatura .......................................................................................................... 43 

Conclusões e Trabalho Futuro ...................................................................................................... 47 

6.1 Conclusões ............................................................................................................................ 48 

6.2 Trabalho Futuro ..................................................................................................................... 48 

Bibliografia............................................................................................................................................. 49 

Anexos .......................................................................................................................................... 51 

viii

Lista de Figuras 

Figura 1.1 – Distribuição da variação do desempenho típica no processo de fabrico de 

semicondutores ....................................................................................................................................... 3 

Figura 1.2 – Metodologia actualmente utilizada nos microprocessadores para ajuste de tensão ......... 3 

Figura 2.1 – Difusão do Hidrogénio em direcção à poly durante a fase de stress ................................. 8 

Figura 2.2 – Degradação no V th de um transístor PMOS após 50% do tempo na fase de stress e 

recuperação ............................................................................................................................................ 9 

Figura 2.3 – Metodologia do sensor PVTA da IBM ® ............................................................................. 10 

Figura 2.4 – Sensor de Envelhecimento da Sun Microsystems ® ......................................................... 10 

Figura 3.1 – Diagrama simplificado do Sensor Global ......................................................................... 12 

Figura 3.2 – Esquema de uma porta lógica NOR utilizada na cadeia de atraso .................................. 13 

Figura 3.3 – Estado dos transístores das portas NOR no Modo de Envelhecimento .......................... 14 

Figura 3.4 – Estado dos transístores das portas NOR no Modo de Teste ........................................... 15 

Figura 3.5 – Esquema detalhado do Sensor PVTA .............................................................................. 16 

Figura 3.6 – Diagrama temporal comportamental dos principais sinais do Sensor Global .................. 16 

Figura 3.7 – Atraso da porta NOR para diferentes tensões de alimentação ........................................ 18 

Figura 3.8 - Atraso da porta NOR para diferentes temperaturas.......................................................... 18 

Figura 3.9 – Exemplo de optimização no Sensor PVTA ....................................................................... 19 

Figura 3.10 – Princípio de funcionamento do contador assíncrono ..................................................... 20 

Figura 3.11 – Esquema lógico e diagrama temporal de um Ripple Counter crescente de 4 bits ........ 21 

Figura 3.12 – Divisor de relógio implementado .................................................................................... 22 

Figura 3.13 – Módulo assíncrono da máquina de estados ................................................................... 23 

Figura 3.14 – Módulo síncrono da máquina de estados ....................................................................... 23 

Figura 3.15 – Diagrama de estados do Temporizador ......................................................................... 24 

Figura 3.16 – Diagrama temporal comportamental dos sinais da máquina de estados ...................... 25 

Figura 4.1 – Arquitectura de funcionamento do demonstrador ............................................................ 28 

Figura 4.2 – Fluxograma da estratégia Global de Controlo .................................................................. 29 

Figura 4.3 – Verso da placa de circuito impresso da FPGA indicando o LDO a remover ................... 30 

Figura 4.4 – Conversor DCDC programável por SPI ............................................................................ 31 

ix

Lista de Figuras 

Figura 4.5 – Vista de topo da placa de circuito impresso da FPGA indicando o LDO dos 3,3V .......... 31 

Figura 4.6 – Exemplo da implementação SPI....................................................................................... 32 

Figura 4.7 – Diagrama de estados do bloco de Controlo e Optimização ............................................. 34 

Figura 4.8 – Caminho de dados necessário para o funcionamento do controlo .................................. 35 

Figura 4.9 – Multiplexer tri-state para geração do sinal cut_speed ...................................................... 37 

Figura 5.1 – Fotografia do protótipo final .............................................................................................. 40 

Figura 5.2 – Diagrama temporal do bloco Temporizador ..................................................................... 41 

Figura 5.3 – Diagrama temporal do bloco SPI ...................................................................................... 41 

Figura 5.4 – Diagrama temporal do Sensor PVTA ............................................................................... 42 

Figura 5.5 – Gráfico da variação da tensão de alimentação do núcleo digital da FPGA com a 

temperatura ........................................................................................................................................... 44 

Figura 5.6 – Gráfico da variação da corrente consumida pelo núcleo digital da FPGA com a 

temperatura ........................................................................................................................................... 45 

Figura 5.7 – Gráfico da variação da Potência consumida pelo núcleo digital da FPGA com a 

temperatura ........................................................................................................................................... 45 

Figura 5.8 – Poupança obtida com a utilização do Sensor Global para diferentes temperaturas ....... 46 

Figura 7.1 – Esquema eléctrico dos dispositivos de alimentação da placa FGPA utilizada ................ 52 

x

Lista de Tabelas 

Tabela 3.1 – Dimensão dos transístores PMOS e NMOS utilizados para simular o atraso da porta 

NOR ...................................................................................................................................................... 17 

Tabela 4.1 – Tabela com as tensões de saída do DCDC para cada palavra de configuração ............ 32 

Tabela 5.1 – Atributos da FPGA ........................................................................................................... 40 

Tabela 5.2 – Medições em Temperatura .............................................................................................. 43 

xi

Lista de Tabelas 

xii

Lista de Acrónimos 

ASIC 

Application-specific integrated circuit (Circuito integrado de aplicação especifica) 

BIST 

Built-in self-test (Autoteste embutido) 

BTI 

Bias Temperature Instability (Instabilidade em temperatura e polarização) 

CUT 

Circuit Under Test (Circuito em teste) 

DVS 

Dynamic Voltage Scaling (Optimização da Tensão de Alimentação) 

FPGA 

Field-programmable gate array (Arranjo de Portas Programável em Campo) 

I2C 

Inter-Integrated Circuit (Circuito Inter-integrado - barramento série multi-mestre) 

ISM 

Internal Supply Module (Modulo de fornecimento interno) 

JTAG 

Joint Test Action Group (Grupo de Teste de Ação Conjunta) 

LDO 

Low-dropout voltage regulator (regulador de tensão com baixa queda de tensão) 

LUT 

Look-Up Table (Tabela de referêcia) 

MISO 

Master Input, Slave Output (Entrada do Mestre, Saída do Escravo) 

MOSI 

Master Output, Slave Input (Saída do Mestre, Entrada do Escravo) 

NBTI 

Negative Bias Temperature Instability (Instabilidade em temperatura e polarização 

negativa) 

xiii

Lista de Acrónimos 

PBTI 

Positive Bias Temperature Instability (Instabilidade em temperatura e polarização positiva) 

PMU 

Power Management Unit (Unidade de Gestão de Energia) 

PVT 

PVTA 

SoC 

Process, power supply Voltage and Temperature (Processo de fabrico, tensão de 

alimentação e temperatura) 

Process, power supply Voltage, Temperature and Aging (Processo de fabrico, tensão de 

alimentação, temperatura e envelhecimento) 

System-on-Chip (sistema-em-um-chip) 

SPI 

Serial Peripheral Interface (Interface periférica de comunicação série) 

VHDL 

VHSIC Hardware Description Language (Linguagem de descrição de hardware VHSIC) 

VHSIC 

Very High Speed Integrated Circuits (Circuito integrado de muito alta velocidade) 

xiv

Introdução 


1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . 

1.2 Principais Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . 

1.3 Objectivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 . 

1.4 Organização da Dissertação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 . 

1

1. Introdução 

1.1 Motivação 

Num mundo em que a mobilidade tem ganho cada vez mais importância, todo o tipo de 

dispositivos portáteis tem sido criado para satisfazer as necessidades de comunicação e 

entretenimento. No entanto, as baterias actualmente utilizadas por esses dispositivos têm sido o elo 

mais fraco na conjugação entre a autonomia e o volume ocupado pelas mesmas. Por outro lado, as 

preocupações ambientais têm instigado um maior cuidado com a eficiência dos equipamentos 

electrónicos, com o objectivo de reduzir os gastos com a energia. 

Em tecnologia CMOS, grande parte da energia é consumida no período de comutação dos 

transístores. A expressão que traduz a potência dissipada por essas comutações é dada pela 

expressão (1.1): 

P sw = CfV 2 (1.1) 

onde C representa a capacidade média dos nós que mudam de estado, f é a frequência de relógio 

do circuito e V é a tensão com que é alimentado o núcleo digital. 

Esta expressão não é exacta, na medida em que a actividade média do circuito não é constante 

durante a sua operação, mas deixa antever uma dependência quadrática do consumo relativamente 

à tensão de alimentação. Para além das perdas de comutação existe também uma corrente de fuga 

estática nos transístores (subthreshold leakage) que é agravada com a miniaturização dos circuitos. 

Esta corrente de fuga começa a ser preocupante para tecnologias abaixo dos 90nm e o acréscimo de 

potência de perdas é dado pela expressão (1.2): 

P leak = VI leak 

(1.2) 

onde V é a tensão de alimentação e I leak é o somatório da corrente de fuga nos transístores. 

Outra causa para a reduzida optimização no consumo dos semicondutores são as variações no 

processo de fabrico que, devido à sua natureza incerta, obrigam a que a tensão de alimentação 

atribuída a um dado microprocessador seja suficientemente alta para permitir a correcta operação de 

todos os chips fabricados. Na Figura 1.1 é apresentado um exemplo típico da relação entre a 

quantidade de chips com desempenhos acima e abaixo da média comparativamente com a tensão 

necessária ao seu correcto funcionamento. 

2


Figura 1.1 – Distribuição da variação do desempenho típica no processo de fabrico de semicondutores 

Estas condições têm dificultado a tarefa de encontrar mecanismos que consigam optimizar o 

consumo dos dispositivos durante o seu tempo de utilização. Não só as incertezas no processo de 

fabrico, mas também a degradação do seu desempenho devida ao envelhecimento dos transístores, 

têm sido as principais barreiras na hora de optimizar a tensão de alimentação dos circuitos. 

Actualmente, a estratégia mais utilizada em microprocessadores passa por tabelar a tensão de 

alimentação para diferentes frequências de trabalho, reduzindo o consumo quando existe menor 

actividade computacional (Figura 1.2). No entanto, quando o processador passa à plena carga, a 

tensão de alimentação e a frequência passam para o valor máximo, deixando de haver qualquer 

benefício para o consumo. Exemplos desta abordagem são as tecnologias SpeedStep ® da Intel ® [1] e 

PowerNow! da AMD [2]. 

Figura 1.2 – Metodologia actualmente utilizada nos microprocessadores para ajuste de tensão 

3


Apesar de não disponível comercialmente, existe ainda o sistema Razor da ARM ® [3] que 

permite ajustar a tensão de alimentação com base na quantidade de falhas ocorridas durante a 

execução de tarefas. A correcta operação do circuito é assegurada por um mecanismo de 

autocorrecção de erros baseado num modelo de amostragem dupla (uma com relógio rápido e outra 

com relógio lento). Esta solução permite reduções elevadas no consumo, mas necessita que todos 

os caminhos críticos sejam refeitos de modo a integrar os dispositivos de detecção e resolução de 

falhas. No entanto, como esta abordagem interfere no normal fluxo de projecto, a sua adopção por 

parte da indústria torna-se difícil. 

Depois desta análise é possível concluir que se podem obter grandes ganhos de energia caso 

sejam reduzidas as margens de tensão atribuídas para compensar incertezas devido ao processo de 

fabrico, temperatura de operação e envelhecimento. 

1.2 Principais Contribuições 

O sensor aqui apresentado surge na sequência de estudos sobre o impacto do envelhecimento 

nos transístores que mostram um aumento do tempo de propagação dos sinais digitais com o 

decorrer do tempo. O fenómeno de envelhecimento afecta principalmente os transístores tipo P e o 

seu impacto nos circuitos digitais foi analisado em [4]. 

Com o objectivo de prever antecipadamente possíveis falhas nos circuitos digitais causadas por 

variações no processo de fabrico, temperatura e envelhecimento (PVTA), foi desenvolvido um sensor 

local [5] que verifica junto dos principais caminhos críticos a eminência de uma falha ocorrer. 

Mais tarde foi desenvolvido um segundo sensor [6] para avalizar o desempenho global do 

circuito em complemento com o sensor local. 

A principal contribuição deste trabalho consiste no desenvolvimento de um demonstrador em 

FPGA que coloca em prática uma parte do princípio proposto em [6]. Recorrendo a um circuito com 

autoteste, é validada a solução proposta e são quantificados os ganhos obtidos no consumo 

energético quando a tensão de alimentação é optimizada de forma permanente. 

4


1.3 Objectivos 

Esta dissertação tem como objectivo validar um processo que permite optimizar, de forma 

independente (sem interferir no fluxo de projecto) e em tempo real, a tensão de alimentação nos 

circuitos digitais em microelectrónica. Para efectuar esta validação foi criado um protótipo em FPGA 

que permitiu obter resultados experimentais. O sistema sensor e respectivo controlo não provocam 

um acréscimo de recursos físicos nem de consumo significativos quando comparado com o restante 

circuito. 

Para emular as condições reais de funcionamento foi integrado um multiplicador com autoteste 

que indica qualquer falha que ocorra se o processamento for demasiado lento. Habilitando e 

desabilitando este multiplicador podem ainda efectuar-se testes à fiabilidade do sensor durante 

transitórios de carga com diferentes temperaturas. 

1.4 Organização da Dissertação 

 

 

 

 

 

Capitulo 2: Análise e Previsão do Envelhecimento – Neste capítulo é realizada uma 

análise ao efeito do envelhecimento nos transístores tipo P (NBTI) bem como apresentadas 

algumas das actuais estratégias de optimização de energia. 

Capitulo 3: Sensor Global – Neste capítulo é apresentado o princípio de funcionamento do 

sensor PVTA utilizado na FPGA. 

Capitulo 4: Demonstrador FPGA – Neste capítulo são apresentados os mecanismos 

necessários à realização do protótipo em FPGA: algoritmo de controlo global, modificações 

físicas e dispositivos utilizados. 

Capitulo 5: Resultados Experimentais – Neste capítulo são apresentados os resultados 

obtidos por simulação em Xilinx ® bem como os resultados práticos do funcionamento do 

sensor para diferentes temperaturas. 

Capitulo 6: Conclusões e Trabalho Futuro – Neste capítulo são discutidos os resultados 

face aos objectivos iniciais e apontados os objectivos futuros. 

5


6

Análise e Previsão do 

Envelhecimento 


2.1 Envelhecimento e Efeito NBTI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 . 

2.2 Ring Oscillator Sensor (IBM ® ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 . 

2.3 Sensor de envelhecimento da Sun Microsystems ® . . . . . . . . . . . . 9 . 

7

2. Análise e Previsão do Envelhecimento 

2.1 Envelhecimento e Efeito NBTI 

Uma das consequências da operação a longo prazo dos circuitos digitais é a degradação no 

desempenho das portas lógicas devido ao envelhecimento. Esta diminuição do desempenho é 

provocada pelo aumento da tensão de threshold (V th ) nos transístores, que leva à redução na 

corrente de dreno. O fenómeno de envelhecimento pode ocorrer tanto em transístores tipo N (PBTI) 

como em tipo P (NBTI), no entanto os seus efeitos têm maior relevância nos transístores tipo P [4]. 

Neste trabalho não será considerado o PBTI, mas para tecnologias inferiores a 40nm o seu efeito já 

deve ser considerado [6]. Frequentemente chegam a ocorrer erros no processamento digital devido a 

incumprimentos temporais causados pelo envelhecimento a longo prazo, sendo um dos principais 

factores que limitam a vida útil dos dispositivos. 

O fenómeno do NBTI surge devido a processos electroquímicos no seio dos transístores com o 

dióxido de silício puro (SiO 2 ) [7]. Estas reacções ocorrem durante a permanência do transístor no 

estado de condução (fase de stress com V GS = –V dd ), onde devido ao campo eléctrico e às altas 

temperaturas são quebradas as ligações químicas entre o silício (Si) e o hidrogénio (H) na zona de 

junção do silício com o oxido. O hidrogénio libertado acaba por se deslocar em direcção à porta de 

silício policristalino (poly), chegando por vezes a recombinar-se em H 2 (Figura 2.1). Por outro lado, o 

silício quebrado junto ao óxido (Si-) actua como uma armadilha para os portadores do canal, 

reduzindo a mobilidade e aumentando a tensão de limiar (threshold voltage, V th ) do transístor. 

Figura 2.1 – Difusão do Hidrogénio em direcção à poly durante a fase de stress 

Por outro lado, na passagem do transístor ao estado de corte (fase de recuperação com V GS = 

0V), o processo é invertido fazendo com que o hidrogénio se recombine de novo com o silício, 

fazendo diminuir a variação na tensão de limiar do transístor. No entanto, nem todas as ligações 

quebradas são restabelecidas. Isto provoca uma degradação acumulada do V th no transístor, levando 

à progressiva degradação do desempenho das portas lógicas. A longo prazo, o aumento do V th fica 

dependente da taxa de ruptura das ligações Si-H e de recombinações com Si-. Estas, por sua vez 

estão dependentes da probabilidade do transístor estar na fase de stress ou recuperação e de outros 

parâmetros como a temperatura [8]. 

8


Na Figura 2.2 é apresentado um exemplo da variação de V th na situação de igual período de 

tempo na fase de stress e na fase de recuperação. Pode ver-se que para tentar reaver o V th inicial é 

necessário um intervalo de tempo muito superior ao que foi necessário para a degradação ocorrer. 

Figura 2.2 – Degradação no V th de um transístor PMOS após 50% do tempo na fase de stress e recuperação 

Modelos de previsão, bem como resultados experimentais apontam para que o atraso causado 

pelo NBTI seja independente da frequência, para frequências superiores a 100Hz [9] [10]. O maior 

problema surge quando transístores num caminho quase crítico permanecem demasiado tempo na 

fase de stress, podendo nestas circunstâncias, o envelhecimento transformar este caminho num 

caminho crítico. 

2.2 Ring Oscillator Sensor (IBM ® ) 

A técnica utilizada pela IBM ® em [11] tira partido do comportamento de um ou mais osciladores 

em anel (ring oscillators) para obter uma frequência de relógio proporcional a qualquer variação 

PVTA (Figura 2.3). Em seguida o sinal de relógio obtido passa por um divisor de frequência e entra 

num contador. O número de oscilações registadas por intervalo de tempo é analisado periodicamente 

por um bloco de controlo que intervirá no caso de falha iminente. Esta detecção de falhas pode ser 

obtida de duas formas: (1) número de oscilações registadas ser inferior ao de calibração; (2) uma 

discrepância significativa entre leituras. 

9


Figura 2.3 – Metodologia do sensor PVTA da IBM ® 

2.3 Sensor de envelhecimento da Sun Microsystems ® 

O sistema desenvolvido pela antiga Sun Microsystems ® [12], adquirida pela Oracle 

Corporation ® , baseia-se na polarização de diferentes tensões a transístores tipo N e tipo P que irão 

alimentar um regulador de tensão que por sua vez liga a um oscilador controlado por tensão (VCO). 

Em seguida o circuito contador averigua o número de oscilações realizadas por intervalo de tempo e 

compara-as com uma referência. Devido ao envelhecimento dos transístores colocados no sensor, a 

corrente fornecida ao regulador de tensão do VCO é menor e por conseguinte o número de 

oscilações contabilizadas diminui. O diagrama de funcionamento do sensor é apresentado na Figura 

2.4, na qual se pode ver a existência de um multiplexer para escolher qual o sensor a avaliar, bem 

como de uma memória que guarda informações de calibração. Após o varrimento de todos os 

sensores, a diferença verificada entre a contagem de calibração e a obtida na realidade é enviada a 

um sistema de controlo. 

Figura 2.4 – Sensor de Envelhecimento da Sun Microsystems ® 

10

Sensor Global 


3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 . . 

3.2 Sensor PVTA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 . . 

3.3 Temporizador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 . . 

11

3. Sensor Global 

3.1 Introdução 

Nesta secção é apresentada a arquitectura de um sensor para monitorização da degradação do 

desempenho dos circuitos digitais resultante do envelhecimento a longo prazo. Esta arquitectura vem 

no seguimento de uma metodologia recentemente desenvolvida pelo grupo de investigação do 

INESC-ID no âmbito do qual este trabalho foi desenvolvido e que foi apresentada em [6]. 

A introdução desta nova topologia de sensor surgiu da necessidade de contornar dois grandes 

inconvenientes associados à utilização de sensores locais: 

 

 

A necessidade de suspender o funcionamento do circuito em monitorização no momento 

em que é realizada a medição do estado de degradação. Esta interrupção é tempo de 

processamento desperdiçado e rapidamente se poderia chegar à situação em que o tempo 

em processamento seria da mesma ordem de grandeza do tempo de monitorização. 

A necessidade de substituir os flip-flops do caminho crítico por outros com a lógica de 

detecção de falhas integrada, o que obriga ao projecto e caracterização de células 

adicionais para cada biblioteca digital e interfere com o normal fluxo de projecto. 

Por outro lado, com a utilização do Sensor Global aqui apresentado, é possível avaliar em 

tempo real a possibilidade de uma falha ocorrer, através da verificação periódica do desempenho 

instantâneo do circuito em monitorização. Estas informações de desempenho são enviadas para um 

dispositivo de Controlo Digital (apresentado no capítulo 4) que faz subir a tensão de alimentação 

quando o atraso na propagação das portas lógicas do sensor aumenta acima de um limiar pré- 

-definido, ou faz diminuir a tensão de alimentação se o desempenho estiver acima do necessário. 

A implementação do Sensor Global é dividida em 2 blocos distintos (Figura 3.1). Um bloco de 

controlo para gerar periodicamente os sinais necessários ao funcionamento do sensor e outro 

contendo os dispositivos que actuam como sensores a variações PVTA. 

Figura 3.1 – Diagrama simplificado do Sensor Global 

12


3.2 Sensor PVTA 

Num circuito digital, ocorre uma falha quando um sinal que se propaga no caminho crítico não o 

consegue percorrer num tempo inferior ao período de relógio. Sendo este o problema que se 

pretende evitar, o funcionamento do sensor foi projectado para detectar esta situação. Deste modo, o 

sensor mede o desempenho do circuito, emulando o atraso do caminho crítico, recorrendo a um 

circuito composto por uma cadeia de atraso construída com portas NOR ligadas sequencialmente 

(circuito réplica). O motivo pelo qual são utilizadas portas NOR deve-se ao facto de estas 

envelhecerem mais rapidamente do que as restantes portas lógicas. Esta característica garante que 

o tempo de propagação no sensor será sempre superior ao dos potenciais caminhos críticos que 

possam surgir devido ao envelhecimento a longo prazo. Publicações anteriores mostram que pelo 

facto do NBTI ser mais significativo nos transístores PMOS, a degradação do tempo de atraso é mais 

relevante nas transições do ‘0’ para o ’1’ lógico e que o efeito cascata verificado nos transístores 

PMOS das portas NOR contribui fortemente para o aumento do tempo de atraso da porta lógica com 

o seu envelhecimento a longo prazo [13] [14]. 

No entanto, como foi referido anteriormente, a actividade lógica origina regeneração e para 

garantir o pior cenário de envelhecimento no circuito réplica foi necessário impor dois modos de 

funcionamento ao sensor. Assim, no intervalo que decorre entre as verificações de desempenho, o 

sensor passa ao Modo de Envelhecimento (Aging Mode), e no momento da verificação, o sensor 

passa ao Modo de Teste (Test Mode). 

Na Figura 3.2 pode ver-se o esquema de ligações de uma das portas NOR presentes na cadeia 

de atraso. O sinal aging é comum a todas as portas NOR e o seu valor lógico define qual o modo de 

funcionamento em que o sensor se encontra. Por outro lado, o barramento test_data assegura a 

ligação série entre as portas NOR da cadeia de atraso. De referir que na primeira porta NOR da 

cadeia o sinal test_data(0) corresponde ao sinal edge, um impulso usado para avaliar o tempo de 

propagação no sensor. 

Figura 3.2 – Esquema de uma porta lógica NOR utilizada na cadeia de atraso 

13


3.2.1 Modo de Envelhecimento 

A entrada do sensor em Modo de Envelhecimento ocorre quando o sinal aging é forçado a ‘1’ 

pelo bloco Temporizador. Durante este modo os sinais edge e clkgen permanecem inalterados no 

valor lógico ‘0’. Na Figura 3.3 pode ver-se que esta configuração provoca o bloqueio de V dd através 

de P2 ao mesmo tempo que força gnd na saída por meio de N2. Deste modo, o sinal test_data 

propagado a todos os transístores P1 e N1 é ‘0’, o que força os transístores P1 a envelhecer (fase de 

stress). 

Figura 3.3 – Estado dos transístores das portas NOR no Modo de Envelhecimento 

Isto permite concluir que a degradação temporal por envelhecimento observada na cadeia de 

atraso será apenas da responsabilidade dos transístores P1, uma vez que os transístores P2 estão 

em modo de recuperação quase todo o tempo. Por este motivo, e para o correcto funcionamento do 

sensor, é importante que a ordem de ligação das entradas das portas NOR seja respeitada, uma vez 

que durante a fase de stress o fenómeno de envelhecimento só acontece nos transístores que estão 

situados junto à tensão de alimentação. 

14


3.2.2 Modo de Teste 

A mudança para o Modo de Teste ocorre quando o sinal aging transita para ‘0’. Esta alteração 

coloca o transístor P2 em condução e o N2 ao corte, fazendo com que a saída fique dependente do 

sinal test_data colocado na entrada. Na Figura 3.4 pode ver-se que a nova configuração das portas 

NOR reflecte o comportamento lógico de um inversor, permitindo agora a propagação de qualquer 

sinal que seja colocado no início da cadeia. 

Figura 3.4 – Estado dos transístores das portas NOR no Modo de Teste 

De referir que durante o período em que ocorre o teste, os transístores P1 passam algum do 

tempo na fase de regeneração. No entanto, como o intervalo entre verificações consecutivas andará 

sempre acima das centenas de ciclos de relógio, a duração do teste não deve impedir o sensor de 

envelhecer mais do que o restante circuito. 

3.2.3 Detecção 

Uma vez activa a cadeia, é necessário implementar um mecanismo capaz de medir 

quantitativamente o atraso provocado pelo circuito réplica. A abordagem utilizada baseia-se no 

princípio sample-and-hold para registar o estado das portas NOR num dado instante do teste, 

utilizando para o efeito flip-flops tipo D colocados à saída das portas NOR. Tendo em conta que 

durante o teste as portas NOR têm o comportamento de inversores, pode obter-se uma leitura do tipo 

código termómetro extraindo de forma intercalar as saídas ̅ ou dos flip-flops. A utilização deste 

formato justifica-se com a sua fácil obtenção e pelo facto de permitir ao projectista usar diferentes 

formas de manipular a informação do sensor com base no algoritmo de controlo. 

15


A Figura 3.5 mostra o esquema eléctrico final do Sensor PVTA. Face a versões anteriores, como 

a proposta por J. Semião et al. [6], a versão proposta nesta dissertação apresenta algumas 

alterações na forma como são registadas as saídas das portas NOR. Onde anteriormente existia 

uma báscula (latch), um elemento de atraso e um detector de estabilidade (L+DE+SC), existe agora 

apenas um flip-flop tipo D. Esta substituição visa tornar o sensor compatível com células digitais 

normalizadas tendo em conta que a metodologia aqui apresentada não requer a utilização de 

sensores locais. 

Figura 3.5 – Esquema detalhado do Sensor PVTA 

O modo de teste pode ainda ser divido em 3 submodos (Figura 3.6): 

 

 

 

Inicialização – período de espera para permitir que a cadeia de portas NOR estabilize após 

a transição para ‘0’ do sinal aging. 

Propagação – intervalo de tempo em que o sinal edge é propagado na cadeia de atraso. 

Captura – instante em que é efectuada a captura do estado das portas NOR pelos flip-flops. 

Figura 3.6 – Diagrama temporal comportamental dos principais sinais do Sensor Global 

16


Os intervalos de tempo atribuídos a cada submodo são baseados na premissa de que após o 

período correspondente a 1 ciclo de relógio toda a lógica num circuito digital deverá estar 

estabilizada para não ocorrerem erros. Por esta razão a captura ocorre 1 ciclo de relógio após a 

propagação do impulso edge e é atribuído 1 ciclo de relógio mais uma margem de meio período na 

inicialização de forma a garantir que a cadeia se encontra estável mesmo quando o circuito tem um 

comportamento demasiado lento. 

3.2.4 Implementação Prática 

Uma utilização posterior da informação do Sensor Global para optimização da tensão de 

alimentação requer a calibração prévia do sensor. Esta calibração visa determinar quantas portas 

NOR são necessárias para igualar o atraso do caminho crítico a vigiar mais uma margem de 

segurança. Uma vez determinada a calibração, esta deverá servir para todos os chips de um mesmo 

circuito. As variações no processo de fabrico deverão ser compensadas automaticamente devido ao 

aumento ou diminuição no desempenho. De forma genérica, o princípio e topologia do sensor não 

dependem do circuito a monitorizar, da frequência de relógio, nem da tecnologia em que está 

implementado. No entanto a sua implementação vai depender de caso para caso. Em particular, o 

número de portas lógicas utilizadas para representar o circuito réplica irá depender da dimensão do 

caminho crítico, bem como da tecnologia de fabrico. 

Com o objectivo de caracterizar o atraso gerado pela porta NOR foram efectuadas simulações 

em tecnologia TSMC 65nm. Estas simulações mostram a dependência do atraso da porta NOR para 

diferentes tensões de alimentação e diferentes temperaturas. Os resultados obtidos dizem respeito a 

simulações ao nível do esquema eléctrico realizadas com dispositivos cujas dimensões se 

apresentam na Tabela 3.1 e correspondem à porta NOR padrão. 

Transístor W (nm) L (nm) 

P1, P2 460 80 

N1, N2 170 80 

Tabela 3.1 – Dimensão dos transístores PMOS e NMOS utilizados para simular o atraso da porta NOR 

Na Figura 3.7 é apresentado o gráfico da variação no atraso da porta NOR com a tensão de 

alimentação para três cenários diferentes. O caso típico corresponde à operação à temperatura 

ambiente (25ºC), no pior caso à temperatura de 125ºC e no melhor caso à temperatura de -40ºC. 

17

Atraso porta NOR (ps) 

Atraso porta NOR (ps) 


4.50E+01 

4.00E+01 

3.50E+01 

3.00E+01 

2.50E+01 

2.00E+01 

1.50E+01 

1.00E+01 

typical T = 25ºC 

schematic 

Worst T = 125ºC Corner 

Schematic 

Best T = Corner -40ºC 

Schematic 

5.00E+00 

0.00E+00 

1.05 1.15 1.25 1.35 

Tensão de Alimentação (V) 

Figura 3.7 – Atraso da porta NOR para diferentes tensões de alimentação 

Na Figura 3.8 é apresentado o gráfico da variação no atraso da porta NOR com a temperatura e 

também para três cenários diferentes. O caso típico corresponde a operar com a tensão de 

alimentação a 1,2V, no pior caso a 1,08V e no melhor caso a 1,32V. 

5.00E+01 

4.50E+01 

4.00E+01 

3.50E+01 

3.00E+01 

2.50E+01 

2.00E+01 

1.50E+01 

1.00E+01 

5.00E+00 

0.00E+00 

-60 -30 0 30 60 90 120 150 180 

Temperatura (°C) 

typical V dd = 1,2V 

schematic 

Worst V dd = Corner 1,08V 

Schematic 

Best V dd 

Corner = 1,32V 

Schematic 

Figura 3.8 - Atraso da porta NOR para diferentes temperaturas 

Das simulações efectuadas pode ver-se que o atraso na porta NOR aumenta significativamente 

com a diminuição da tensão de alimentação. Por este motivo deve existir especial cuidado com as 

transições de tensão durante o processo de optimização. Para que não ocorram falhas, deve 

garantir-se que a transição para uma tensão inferior não tem demasiado impacto no desempenho. 

Esta margem de segurança deve ser considerada no momento da calibração e é tanto menor quanto 

maior for a resolução na programação da tensão na PMU. 

18


Por outro lado, apenas grandes variações na temperatura do circuito fazem aumentar 

significativamente o atraso. Assim, apenas é necessário garantir que o intervalo de tempo entre as 

verificações de desempenho não é demasiado elevado para causar erros quando o gradiente de 

temperatura é máximo. 

Dependendo da tecnologia na qual é projectado o sensor, bem como da arquitectura do circuito 

em monitorização, a distribuição dos flip-flops pelo circuito réplica pode ser feita de modo a minimizar 

os recursos utilizados. Tipicamente, os microprocessadores estão divididos em blocos funcionais que 

podem ser desligados consoante o tipo de operações a realizar. Diferentes blocos em funcionamento 

significam diferentes caminhos críticos a ter em consideração. Uma melhor optimização do consumo 

pode ser feita tendo em conta os caminhos críticos activos num determinado instante. Deste modo, 

podem colocar-se apenas flip-flops em torno das zonas correspondentes ao atraso dos caminhos 

críticos de cada bloco. Um exemplo desta abordagem é ilustrado na Figura 3.9. 

Figura 3.9 – Exemplo de optimização no Sensor PVTA 

Esta abordagem permite excluir a análise das primeiras NOR uma vez que estão muito distantes 

do atraso do caminho crítico, permitindo reduzir a complexidade do controlo necessária para 

processar a informação. Consoante o nível de sensibilidade pretendido, o espaçamento entre flip- 

-flops consecutivos pode ser de várias portas NOR. Este aumento do atraso entre dois flip-flops 

consecutivos limita as situações em que o código termómetro oscila entre dois valores devido a 

diferenças mínimas no atraso da cadeia. É importante frisar que a não introdução de flip-flops em 

todas as portas NOR leva a que o tempo de atraso no circuito réplica deixe de ser uniforme, sendo 

maior nas portas NOR que têm a capacidade no nó de saída aumentada pela ligação do flip-flop. Por 

esse motivo podem ser colocados inversores com impedância de entrada semelhante à dos flip-flops 

nas portas NOR excluídas. 

19


3.3 Temporizador 

Devido ao funcionamento periódico do Sensor Global, para implementar o bloco Temporizador 

são necessários dois subsistemas. O primeiro é um divisor de relógio para gerar a base de tempo 

para o accionamento do sensor. O segundo dispositivo é uma máquina de estados que é accionada 

pelo divisor de relógio e cujo objectivo é gerar os sinais de controlo necessários aos três submodos 

presentes no Modo de Teste do Sensor PVTA. 

3.3.1 Divisor de Relógio 

Existem alguns métodos para implementar divisores do sinal de relógio. No caso específico 

deste trabalho interessa uma solução simples e de consumo reduzido, mas que permita alguma 

flexibilidade na alteração da base de tempo. A solução que mais se aproxima dos objectivos 

pretendidos é o contador assíncrono. Esta topologia de contador tem a vantagem de usar apenas 

flip-flops na sua implementação, com o benefício de consumir menos energia do que o contador 

síncrono. 

O funcionamento deste contador baseia-se na realimentação negativa para forçar a alternância 

de estados em ciclos de relógio consecutivos. No exemplo da Figura 3.10 pode ver-se que a cada 

novo ciclo de relógio o flip-flop coloca na saída o estado oposto ao estado anterior. O sinal obtido tem 

assim um período que é o dobro do sinal de entrada. 

Figura 3.10 – Princípio de funcionamento do contador assíncrono 

Deste modo, tendo em conta que cada flip-flop implementa uma divisão por dois relativamente 

ao seu sinal de relógio, podem obter-se sucessivas divisões colocando vários flip-flops encadeados 

ligando apenas as entradas de relógio à saída do flip-flop anterior. Esta metodologia tem o nome de 

ripple counter e a frequência que é obtida na saída de cada flip-flop é dada pela expressão (3.1): 

f = f lk 

(3.1) 

onde 

é o numero de flip-flops a montante na cadeia. 

20


Na Figura 3.11 poder ver-se um exemplo da implementação do ripple counter. Neste caso 

pretende-se obter um contador crescente e por esse motivo é necessário que as entradas de relógio 

dos flip-flops seguintes tenham origem na saída Q negada do flip-flop anterior. Caso contrário o 

contador seria decrescente. 

Figura 3.11 – Esquema lógico e diagrama temporal de um Ripple Counter crescente de 4 bits 

Na figura anterior as transições de estado a partir do segundo flip-flop surgem no flanco 

negativo. Isto deve-se ao facto do diagrama temporal mostrar apenas as saídas Q e não as saídas 

que servem de relógio ao flip-flop seguinte. Neste contador todos os flip-flops são do tipo edge trigger 

positivo. 

De referir que este contador tem o inconveniente das saídas não serem totalmente síncronas 

entre si. Isto acontece porque os flip-flops têm entradas de relógios independentes cujos atrasos 

dependem dos flip-flops anteriores. Por este motivo, ao usar o relógio dividido para actuar a máquina 

de estados do sensor deve colocar-se um registo sincronizado com o relógio para prevenir violações 

temporais. Deste modo, deixa de existir qualquer limitação na utilização deste contador, podendo 

assim tirar-se partido da menor área e do menor consumo utilizados. 

21


O número de flip-flops a utilizar depende da frequência de relógio e do tempo que o controlo 

externo demora a executar as operações de subida e descida da tensão do circuito. O intervalo entre 

verificações pode ser estático ou dinâmico dependendo das necessidades. Caso se pretenda usar 

intervalos dinâmicos apenas é necessário adicionar um multiplexer ligado às saídas desejadas para 

que externamente possa ser seleccionada qual a saída do contador a utilizar como base de tempo. 

O esquema final do divisor de relógio implementado é apresentado na Figura 3.12. Tmonit são 

os bits de selecção externa do factor de divisão e clkdiv o sinal resultante da divisão do relógio. Com 

o objectivo de minimizar o atraso na lógica assíncrona e desse modo evitar a utilização de 

dispositivos extra de sincronização na máquina de estados, o relógio do registo de saída foi 

sincronizado com o flanco descendente para desse modo garantir que os interruptores de relógio 

existentes se encontram activos imediatamente antes do flanco de relógio. Caso contrário, o primeiro 

ciclo de relógio à saída do interruptor teria um período inferior ao do relógio global e poderia causar 

problemas de estabilidade. 

Figura 3.12 – Divisor de relógio implementado 

3.3.2 Máquina de Estados 

Como o Sensor Global é sensível à temporização dos sinais e é relevante o seu consumo de 

recursos, a máquina de estados utilizada foi desenvolvida ao nível da porta lógica para assegurar a 

sua optimização. A sua implementação é feita através de um módulo assíncrono, que ao entrar em 

funcionamento activa um segundo módulo síncrono. Este mecanismo foi criado para permitir que a 

sequência de teste seja executada apenas uma vez durante o flanco positivo do sinal clkdiv. O 

princípio de funcionamento baseia-se na utilização de um elemento de memória, neste caso uma 

báscula (latch), que regista o fim da sequência de teste e evita desse modo a sua repetição. Na 

22


Figura 3.13 pode ver-se que durante o flanco negativo do sinal clkdiv a latch é inicializado a ‘1’ (set 

efectuado através do sinal clr). Deste modo, quando o sinal clkdiv regressa a ‘1’ o sinal start activa o 

segundo módulo de controlo, ao mesmo tempo que o sinal aging retira o sensor do modo de 

envelhecimento, dando assim início à sequência de teste. Com este mecanismo, a sequência de 

teste termina no instante em que o segundo módulo fornece o sinal 

à latch. 

Figura 3.13 – Módulo assíncrono da máquina de estados 

Na composição do segundo módulo está um contador síncrono e restante lógica combinatória 

necessária à geração dos sinais de controlo do sensor. O objectivo deste contador é fornecer os 

instantes de tempo nos quais irão ser realizados os três submodos inerentes ao Modo de Teste. Para 

o fazer, é apenas necessário um contador de 2 bits. Esta solução permite implementar os três 

submodos mais um estado de espera. O esquema lógico do segundo módulo é apresentado na 

Figura 3.14, no qual se podem ver dois registos e a porta XOR que compõem o contador crescente, 

bem como a restante lógica combinatória de controlo. 

Figura 3.14 – Módulo síncrono da máquina de estados 

23


No dimensionamento deste módulo existiu uma especial atenção para que os sinais edge e 

clkgen distassem exactamente um período de relógio. Para conseguir esse objectivo é importante 

que a lógica após os registos seja o mais semelhante possível no que toca ao número de portas 

lógicas e respectiva dependência. Só deste modo é possível garantir que tempos de atraso em 

ambos os sinais são semelhantes. Como o sinal edge é iniciado primeiro, a dependência sobre o 

sinal clkgen não existe porque nesse instante o sinal é estático. Desse modo o sinal edge apenas 

está dependente do atraso da porta XOR, e o sinal clkgen de uma porta AND. A lógica implementada 

garante não só um tempo de atraso semelhante na ascensão, como garante também que o sinal 

edge apenas é forçado a ’0’ depois do sinal clkgen ser iniciado. Desta forma, assegura-se que a 

captura efectuada pelos flip-flops da cadeia de atraso não sofre qualquer perturbação pelo facto do 

sinal edge transitar para ‘0’ no instante de captura. 

É importante sublinhar que pelo facto do sinal de relógio fornecido aos registos estar bloqueado 

durante o processo de envelhecimento por um interruptor de relógio (porta AND à esquerda), os 

registos têm de permitir a inicialização assíncrona (clear ou clr). 

3.3.3 Diagrama de Estados 

O diagrama de estados correspondente ao funcionamento do Temporizador é exibido na Figura 

3.15. Entre aspas encontra-se o código actual do contador de 2 bits. Uma vez que a entrada no 

estado de Inicialização 1 ocorre meio período antes do relógio chegar ao contador, no diagrama final 

surgem dois estados para o submodo de inicialização. O motivo pelo qual isto acontece é para dar 

uma margem de 50% ao sensor para estabilizar a cadeia de atraso após a alteração no sinal aging. 

Figura 3.15 – Diagrama de estados do Temporizador 

24


No diagrama temporal da Figura 3.16 pode ver-se que no instante em que o clkdiv vem a ‘1’, o 

sensor entra no Modo de Teste assincronamente (Inicialização 1). Meio período depois é activado o 

segundo módulo de controlo no flanco ascendente de relógio, fazendo avançar de forma síncrona a 

máquina de estados para o estado Inicialização 2. No flanco de relógio seguinte é fornecido o sinal 

edge à cadeia de atraso (Propagação) e no período seguinte o sinal clkgen (Captura). Mais tarde, no 

flanco descendente do sinal clkdiv, é efectuada a inicialização do segundo módulo, repondo o sinal 

clkgen e colocando a máquina de estados em espera. 

Figura 3.16 – Diagrama temporal comportamental dos sinais da máquina de estados 

25


26

Demonstrador FPGA 


4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 . . 

4.2 Arquitectura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 . . 

4.3 Metodologia de Optimização . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 . . 

4.4 Bloco de Controlo e Optimização . . . . . . . . . . . . . . . . . . . . . . . . . 34 . . 

27

4. Demonstrador FPGA 

4.1 Introdução 

Com o objectivo de demonstrar o potencial do Sensor Global apresentado nesta dissertação, foi 

desenvolvida uma plataforma de demonstração utilizando uma FPGA para implementação do sensor 

e de um circuito digital complexo para simular a carga correspondente a um processador comum. A 

opção de utilizar uma FPGA prende-se com o facto de ser um meio de desenvolvimento 

extremamente rápido para obter resultados experimentais e ser um meio frequentemente usado na 

emulação de soluções que se pretendem implementar em ASICs. Apesar do teste ao sensor ser feito 

recorrendo a um FPGA, o objectivo é poder demonstrar o seu funcionamento em SoC. Por esta 

razão, grande parte do código VHDL implementado foi descrito ao nível da porta lógica ao invés do 

respectivo comportamento. Este nível de detalhe permite realizar optimizações importantes para o 

desempenho do sensor, aproximando esta implementação em FPGA da implementação em silício no 

SoC. 

4.2 Arquitectura 

Para poder implementar um sistema de ajuste automático que consiga de forma independente 

controlar a sua própria tensão de alimentação, é necessário recorrer a mais alguns dispositivos extra 

que suportem as instruções de controlo geradas na FPGA. Esta situação implica fazer algumas 

alterações físicas na placa de circuito impresso da FPGA original [15] de modo a permitir a utilização 

de uma fonte de tensão externa na alimentação dos 1,2V fornecida ao chip da Xilinx ® . O objectivo é 

criar uma arquitectura fechada onde o controlador do sensor consegue configurar a tensão de 

alimentação desejada (Figura 4.1). 

Figura 4.1 – Arquitectura de funcionamento do demonstrador 

Neste caso, o módulo que disponibiliza a alimentação externa é um conversor DCDC com 

tensão de saída programável através de protocolo SPI. Para implementar o circuito digital cuja 

alimentação é optimizada, foi usado um multiplicador de 16 bits com autoteste, tendo em vista uma 

avaliação periódica da eventual ocorrência de falhas no processamento. Após uma calibração inicial, 

o mecanismo Sensor Global mais algoritmo de controlo deverá ser capaz de operar dinamicamente, 

ajustando-se às condições de temperatura ou envelhecimento sem qualquer interferência do 

utilizador e sem interferir com a funcionalidade implementada no circuito. 

28


4.3 Metodologia de Optimização 

A metodologia de optimização implementada neste trabalho é composta por quatro etapas mais 

um estágio de inicialização (Figura 4.2). No momento em que o sistema arranca e surge o sinal de 

reset, o mecanismo de controlo força o valor máximo de tensão no circuito de forma conservadora. 

Este valor de tensão máxima é programável em tempo real e pode ser ajustado para diferentes 

frequências à semelhança da estratégia utilizada nos actuais microprocessadores. Nesta situação, o 

microprocessador deve fornecer a nova palavra de tensão e de seguida deverá activar o sinal 

setvmax. Só depois desta operação deverá ser efectuada a alteração da frequência de relógio. Nas 

etapas seguintes, e periodicamente, são efectuadas a leitura ao sensor, calculada a nova palavra de 

tensão e por fim comunicado o novo valor à fonte de alimentação. 

Figura 4.2 – Fluxograma da estratégia Global de Controlo 

29


4.3.1 Modificações Efectuadas 

Neste trabalho foi utilizada uma FPGA Spartan 3 XC3S400-FT256 da Digilent ® . Após uma 

análise ao esquema eléctrico fornecido pelo fabricante foi identificado o processo de distribuição de 

energia na FPGA. O dispositivo é alimentado externamente com 5V que irão alimentar o LDO 

principal, reduzindo a tensão para 3,3V. Este LDO alimenta as interfaces de entrada e saída de 

dados bem como a maioria dos dispositivos na FPGA. Incluídos nestes dispositivos encontra-se um 

LDO para gerar 2,5V e outro para gerar 1,2V. Os 2,5V alimentam os controladores do sinal de relógio 

(DCM) e os periféricos de programação como o JTAG. Por fim, os 1,2V alimentam o núcleo digital da 

FPGA sendo, portanto, este o dispositivo a substituir pelo DCDC com tensão programável. Na Figura 

4.3 é indicado o local, no verso da placa de circuito impresso da FPGA, de onde foi removido o LDO 

dos 1,2V para substituir pela alimentação do DCDC. 

Figura 4.3 – Verso da placa de circuito impresso da FPGA indicando o LDO a remover 

4.3.2 Conversor DCDC 

O conversor DCDC utilizado é apresentado na Figura 4.4 e foi projectado numa parceria entre o 

INESC-ID e a SILICONGATE LDA. Para funcionar, este conversor requer o fornecimento de três 

alimentações externas. À semelhança da FPGA, o DCDC utiliza 1,2V para o núcleo digital, 3,3V para 

entradas e saídas de dados e uma tensão em torno de 2,4V como entrada de potência. Para tornar o 

protótipo independente de fontes de alimentação externas foram utlizados os três LDO existentes na 

FPGA para alimentar paralelamente o DCDC. O LDO de 1,2V que foi retirado da placa da FPGA foi 

soldado a um dissipador externo e usado para alimentar o núcleo digital do DCDC. Para tal foi 

necessário criar um cabo a ligar o LDO de 3,3V da FPGA (Figura 4.5) ao LDO de 1,2V e outro como 

um conector para levar os 1,2V ao DCDC. Um outro cabo foi criado para levar os 2,5V da FPGA para 

a entrada de potência do DCDC. Por fim, os 3,3V são fornecidos juntamente com as linhas de dados. 

30


Figura 4.4 – Conversor DCDC programável por SPI 

Figura 4.5 – Vista de topo da placa de circuito impresso da FPGA indicando o LDO dos 3,3V 

4.3.3 Comunicação SPI 

O protocolo SPI ou interface periférica de comunicação série permite a comunicação de um 

microcontrolador (mestre) com diversos outros componentes (escravos) de uma forma compacta. 

Neste protocolo o dispositivo mestre faz a gestão das comunicações através de uma linha de 

selecção, para cada dispositivo, activa a ‘0’ ( ). A sincronização de dados é assegurada pelo sinal 

de relógio SCLK gerado pelo dispositivo mestre. Por fim, os dispositivos escravos comunicam pela 

linha de dados MISO (master input, slave output ou entrada do mestre, saída do escravo), e mestre 

pela linha MOSI (master output, slave input ou saída do mestre, entrada do escravo). Um exemplo da 

implementação deste protocolo pode ser visto na Figura 4.6. 

31


Figura 4.6 – Exemplo da implementação SPI 

Como seria de esperar, no demonstrador apresentado, o dispositivo mestre encontra-se do lado 

da FPGA e o dispositivo escravo é o conversor DCDC. No caso particular desta implementação o 

sinal MISO foi dispensado uma vez que a rotina para alteração da tensão V dd não necessita de 

qualquer tipo de resposta por parte do DCDC. No entanto existe uma linha de que deverá estar 

sempre no valor lógico ’1’. Relativamente ao modo de transição, os dados devem ser recolhidos no 

flanco ascendente de relógio e enviados com os bits menos significativos primeiro. 

A comunicação com o DCDC é feita utilizando 5 bits de endereçamento e 8 bits para dados. Na 

Tabela 4.1 são apresentadas as tensões realizadas pelo conversor, consoante a palavra de tensão 

Vprog, bem como a palavra de dados a enviara ao DCDC. Apesar da palavra de dados conter 8 bits, 

apenas os 4 bits mais significativos servem para alterar a tensão de saída do DCDC (b4 a b7). Os 

restantes 4 bits enviados deverão ter o valor lógico ‘0’. 

Vprog b7 b6 b5 b4 V out [V] 

0 0 0 0 0 0.600 

1 0 0 0 1 0.650 

2 0 0 1 0 0.700 

3 0 0 1 1 0.750 

4 0 1 0 0 0.800 

5 0 1 0 1 0.850 

6 0 1 1 0 0.900 

7 0 1 1 1 0.950 

8 1 0 0 0 1.000 

9 1 0 0 1 1.050 

10 1 0 1 0 1.100 

11 1 0 1 1 1.150 

12 1 1 0 0 1.200 

13 1 1 0 1 1.250 

14 1 1 1 0 1.300 

15 1 1 1 1 1.350 

Tabela 4.1 – Tabela com as tensões de saída do DCDC para cada palavra de configuração 

32


4.3.4 Implementação do Sensor Global 

A implementação do Sensor Global em FPGA teve algumas particularidades devido às 

condições oferecidas pelo dispositivo. Quando o sensor PVTA foi implementado pela primeira vez, a 

ferramenta de síntese eliminou quase todos os flip-flops e portas NOR da cadeia e substitui-os por 

lógica equivalente. Por este motivo foi necessário impor uma restrição de não optimização nos 

barramentos test_data e Therm_Code através do atributo “keep”. Com esta modificação foi possível 

obter os primeiros resultados do código termómetro, mas verificou-se que eram incoerentes. Esta 

incoerência ficou a dever-se ao atraso dos sinais aging e clkgen originado pelo elevado fanout. O 

problema foi resolvido introduzindo buffers presentes na FPGA para transporte e distribuição de 

sinais de relógio: “BUFG”. Dada a enorme utilidade destes buffers, a sua utilização foi também 

estendida ao bloco Temporizador a fim de ser utlizado no sinal edge, clkdiv e no relógio da máquina 

de estados. 

Por fim, o sensor foi implementado utilizando uma cadeia de atraso com 36 portas NOR, 4 no 

início sem flip-flops e 32 com flip-flops consecutivos fornecendo um código termómetro também de 

32 bits. Esta solução foi adoptada para permitir máxima versatilidade durantes a fase de teste. 

Relativamente ao temporizador, foram utilizados 18 registos para dividir o sinal de relógio cuja saída 

pode ser configurada manualmente. Por segurança é aconselhável que o período do sinal clkdiv seja 

pelo menos maior do que a duração da comunicação de dados via SPI para controlo da tensão do 

DCDC. 

4.3.5 Multiplicador Pipeline 

O método usado para garantir que o sistema de optimização proposto não causa falhas consiste 

em efectuar um teste exaustivo e aferir que o resultado é sempre o desejado. Este é o motivo pelo 

qual foi colocado um multiplicador com autoteste no demonstrador FPGA. A saída do multiplicador 

implementado tem dimensão 32 bits (obtida de duas entradas de 16 bits) e contem dois andares 

pipeline. Estas especificações foram escolhidas de modo a obter uma taxa de ocupação, 

multiplicador mais BIST, superior à dos restantes elementos, garantindo o seu funcionamento em 

torno da frequência fornecida pela FPGA. O código VHDL implementado foi o mesmo utilizado por J. 

Semião et al. em [6]. Tanto o multiplicador como o algoritmo de autoteste são completamente 

independentes dos restantes blocos implementados pelo que apenas têm em comum o sinal de 

relógio. O correcto funcionamento da FPGA origina uma assinatura do BIST permanente, sendo uma 

boa referencia para a calibração do sensor. Com o objectivo de aumentar a correlação entre o 

desempenho do multiplicador e o desempenho do sensor, o multiplicador foi implementado 

recorrendo às LUT. Deste modo são evitados os multiplicadores dedicados e extremamente 

optimizados que não reflectem o real desempenho dos restantes blocos lógicos da FPGA. 

33


4.4 Bloco de Controlo e Optimização 

O algoritmo de optimização implementado, e apresentado na Figura 4.7, baseia-se na 

classificação do desempenho registado pelo sensor em três categorias. Lento, estável e rápido são 

os códigos que a máquina de estados interpreta para decidir se aumenta, mantém ou diminui a 

tensão de alimentação. Estas três combinações são dadas pelo sinal cut_speed que é gerado a partir 

do código termómetro fornecido pelo Sensor Global. 

Figura 4.7 – Diagrama de estados do bloco de Controlo e Optimização 

Por uma questão de segurança e para prevenir erros na comunicação externa, todos os estados 

a partir da verificação convergem para o estado de escrita no SPI, mesmo que a palavra de tensão 

permaneça igual à anterior. 

34


4.4.1 Caminho de Dados 

Para entender melhor o processo de optimização realizado pelo no bloco de controlo, é 

apresentada abaixo uma lista com a descrição dos principais sinais de comando. 

Entrada: 

 

 

 

 

 

 

Vmax – palavra de tensão máxima a fornecer ao circuito num dado instante. 

Vmin – palavra de tensão mínima admissível pelo circuito num dado instante. 

setvmax – sinal exterior que ordena a imposição da palavra de tensão Vmax ao circuito. 

cut_speed – sinal com 2 bits que indica o desempenho do circuito. “00” para lento, “10” para 

estável e “11” para rápido. A combinação “01” não deverá surgir mas para todos os efeitos é 

interpretada como rápido. 

ready – criado a partir do sinal clkgen atrasado de um ciclo de relógio, indica ao controlo que os 

dados de uma nova verificação de desempenho estão disponíveis. 

busy – sinal enviado pelo bloco de comunicação SPI durante o processo de comunicação. 

Saída: 

 

 

 

 

 

Vprog – palavra com a tensão a fornecer ao circuito ordenada por comunicação SPI. 

SPI_EN – sinal para ordenar ao bloco SPI o envio da nova palavra de tensão (Vprog). 

subtract – sinal enviado ao Somador/Subtractor ordenando um subtracção. 

muxout – sinal para escolher a origem da próxima palavra de tensão. 

vprog_EN – sinal para activar a escrita no registo que guarda a palavra de tensão Vprog. 

Figura 4.8 – Caminho de dados necessário para o funcionamento do controlo 

35


A lógica aritmética utilizada no cálculo da palavra tensão é apresentada Figura 4.8. É utilizado 

um registo para guardar a palavra de tensão Vprog a enviar ao DCDC através bloco SPI e um 

multiplexer para inicializar o DCDC com a palavra de tensão Vmax. Durante o processo de 

optimização é utilizado um Somador/Subtractor para incrementar ou decrementar uma unidade à 

palavra de tensão Vprog. Por fim são utilizados dois comparadores para interromper a optimização 

caso sejam alcançados os limites Vmax ou Vmin. 

4.4.2 Comportamento 

Neste subcapítulo será detalhada a função de cada estado apresentado na Figura 4.7. 

 

 

 

 

 

 

 

 

 

INIT – estado inicial no qual é transferida a palavra de tenção Vmax para o registo contendo 

Vprog. O processo é realizado seleccionando a entrada Vmax no multiplexer e activando a 

escrita no registo. 

Verify – estado no qual é avaliado o desempenho do circuito através do sinal cut_speed. 

Comp_add – estado no qual é comparada a actual palavra de tensão Vprog com Vmax a fim de 

verificar se foi atingido o limite superior de tensão. 

Comp_sub – estado no qual é comparada a actual palavra de tensão Vprog com Vmin a fim de 

verificar se foi atingido o limite inferior de tensão. 

Increase – estado no qual é efectuado o incremento de uma unidade à palavra de tensão 

Vprog. O processo é realizado seleccionando no multiplexer a entrada vinda do 

Somador/Subtractor, activando a escrita no registo e ordenando a operação de soma ao 

Somador/Subtractor. 

Decrease – estado no qual é efectuado o decremento de uma unidade à palavra de tensão 

Vprog. O processo é realizado seleccionando no multiplexer a entrada vinda do 

Somador/Subtractor, activando a escrita no registo e ordenando a operação de subtracção ao 

Somador/Subtractor. 

SPI_Write – estado no qual é dada ordem ao bloco SPI para comunicar a nova palavra de 

tensão Vprog ao DCDC. 

Wait_1 – estado no qual se aguarda que o sinal ready venha a ‘0’. Este estado é essencial uma 

vez que a transição para ‘1’ do sinal ready indica a presença de novos dados de desempenho 

vindos do Sensor Global. Por teste motivo é necessário esperar a sua vinda a ‘0’ uma vez que o 

período do sinal ready é muito superior ao tempo que a máquina de estados demora para 

realizar as operações até este estado. 

Wait_2 – estado no qual se aguarda pela conclusão da transmissão de dados SPI (sinal busy) 

bem como a chegada de novos dados por parte do Sensor Global (sinal ready). 

36


4.4.3 Multiplexer tri-state (cut_speed) 

O sinal cut_speed foi criado para facilitar o tratamento da informação gerada pelo Sensor 

Global. Inicialmente foi implementado um codificador para converter o código termómetro numa 

palavra digital que posteriormente seria comparada com a palavra de calibração para definir qual a 

categoria de velocidade a atribuir. No entanto, após alguns testes percebeu-se que esta abordagem 

tem elevados custos no caso de ser implementada com portas lógicas, quer na quantidade de portas 

necessárias mas principalmente no tempo de atraso. Isto porque na FPGA utilizada apenas é 

possível implementar codificadores lógicos em que os bits mais significativos dependem de todos os 

anteriores. Esta situação é particularmente gravosa uma vez que requer esperar pela propagação do 

código termómetro no codificador a cada verificação efectuada pelo sensor. 

Como solução final, implementou-se este conceito mas no sentido inverso. Deste modo, 

pretende usar-se um descodificador para converter a palavra de calibração e desse modo atacar um 

conjunto de buffers tri-state ligados ao código termómetro. O objectivo é multiplexar os dois bits 

consecutivos do código termómetro correspondentes à calibração do caminho crítico a simular. Na 

Figura 4.9 pode ver-se que são utilizados dois multiplexers, um para cada bit do sinal cut_speed, 

correspondentes à selecção dos dois bits consecutivos do código termómetro. Os dois mutiplexers 

têm a vantagem de ser realizados usando apenas um descodificador. Isto é feito desfasando a 

sequência com que os bits do descodificador entram no segundo conjunto de buffers tri-state. A 

utilização destes buffers tem também a vantagem de poder criar grandes multiplexers de atraso 

reduzido, uma vez que evita toda a lógica sequencial e tira proveito do facto do descodificador ficar 

estático após a calibração. 

Figura 4.9 – Multiplexer tri-state para geração do sinal cut_speed 

37


38

Resultados Experimentais 


5.1 Características do Demonstrador . . . . . . . . . . . . . . . . . . . . . . . . . 40 . . 

5.2 Simulações Post-Route . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 . . 

5.3 Teste em Temperatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 . . 

39

5. Resultados Experimentais 

5.1 Características do Demonstrador 

FPGA – Digilent ® Xilinx ® Spartan3 XC3S400-4FT256 [15] (Tabela 5.1) 

 

DCDC – Buck com tensão de saída programável por comunicação SPI, V IN = [2,3 ; 3,6]V, 

V OUT = [0,6 ; 3,6]V com avanços de 50mV, I OUT (max)=1,5A 

CLB Array 

Device 

System 

Gates 

Equivalent 

Logic 

Cells 

(One CLB = Four Slices) 

Total 

Rows Columns CLBs 

Distributed 

RAM Bits 

(K=1024) 

Block RAM 

Bits 

(K=1024) 

Dedicated 

Multipliers 

DCMs 

Maximum 

User I/O 

Maximum 

Differential 

I/O Pairs 

XC3S400 400K 8,064 32 28 896 56K 288K 16 4 265 116 

Tabela 5.1 – Atributos da FPGA 

Na Figura 5.1 encontra-se a fotografia do protótipo de teste criado e que foi utilizado para obter 

os resultados experimentais. A frequência de operação utilizada foi a máxima fornecida pela FPGA 

(50MHz). Já a velocidade da comunicação SPI utilizada foi de 396,83KHz e obteve-se mediante 

alguns testes de estabilidade. Para facilitar o processo de correcção de erros mas também para 

acompanhar o comportamento dos vários dipositivos dentro da FPGA, foram utilizados os displays de 

sete segmentos para mostrar a palavra de tensão Vprog, o valor do sinal cut_speed, o código 

termómetro em hexadecimal e o código de autoteste ou BIST. A calibração manual do sensor é 

efectuada através dos 5 interruptores mais à direita, deixando três interruptores disponíveis para 

seleccionar a informação a apresentar nos displays. Após vários testes o demonstrador foi calibrado 

de forma a obter a palavra de tensão 06 H (0110 b ) correspondente a 0,9V. No entanto, devido a uma 

questão de calibração do DCDC a saída encontra-se 30mV acima do valor tabelado, posicionando a 

tensão de alimentação nos 0,93V. 

Figura 5.1 – Fotografia do protótipo final 

40


5.2 Simulações Post-Route 

Para mostrar o comportamento de alguns sinais internos e verificar o cumprimento dos 

objectivos propostos, foram realizadas algumas simulações post-route a alguns dos módulos 

implementados na FPGA. As simulações são efectuadas individualmente para cada bloco, por esse 

motivo os sinais de entrada em cada bloco são fornecidos manualmente no ficheiro de simulação. 

Figura 5.2 – Diagrama temporal do bloco Temporizador 

A Figura 5.2 apresenta o diagrama temporal do bloco Temporizador. Pode ver-se que foram 

cumpridos os objectivos especificados para este bloco: o sinal edge termina depois do clkgen e o 

sinal aging é o último a vir a ‘1’. Através desta simulação foi medido o período entre o início do sinal 

edge e o sinal clkgen. No Capitulo 3.3.2 tinha sido referido que este intervalo deveria estar o mais 

próximo possível do período de relógio. O resultado obtido foi então 19,952ns, o que é bastante 

próximo dos 20ns do período de relógio. Tendo em conta que se está num ambiente FPGA, este 

resultado foi considerado bastante bom. Comparando estes resultados com os da simulação 

comportamental pode ver-se um forte atraso nas saídas Q0 e Q1 do contador da máquina de 

estados. No entanto este atraso não tem qualquer influência no comportamento do sensor uma vez 

que os sinais aging, edge e clkgen estão sincronizados entre si. 

Figura 5.3 – Diagrama temporal do bloco SPI 

No caso da simulação do bloco SPI apresentada na Figura 5.3, como a frequência de transição 

suportada pelo protocolo é muito inferior aos 50Mhz utilizados pela FPGA, não são visíveis quaisquer 

desfasamentos nos sinais de comunicação. 

41


Figura 5.4 – Diagrama temporal do Sensor PVTA 

Na simulação apresentada na Figura 5.4, referente ao Sensor PVTA, pode ver-se que após o 

sinal clkgen vir a ‘1’, a captura não acontece instantaneamente em todos os flip-flops (região a 

vermelho em torno dos 200ns). No entanto como a margem de captura é muito reduzida não é 

detectada qualquer irregularidade no código termómetro final. Como seria de esperar, quando a 

captura se faz na fronteira de propagação, o simulador não consegue prever se o bit é ‘0’ ou ‘1’ e 

mostra uma indeterminação. 

42


5.3 Teste em Temperatura 

Para demonstrar o correcto funcionamento do Sensor Global e respectivo Controlo Digital, foi 

efectuado o teste a diferentes temperaturas para comprovar a sua estabilidade. A realização do teste 

obrigou à implementação de uma estratégia de comunicação com o exterior da câmara de 

temperatura de modo a obter a informação sobre a conclusão do autoteste e sobre a validade do 

respectivo resultado. A comunicação com a placa da FPGA, além de incluir a recepção da 

informação mencionada, também requer o envio do sinal de reset do autoteste e um sinal adicional 

para forçar o modo de operação não optimizado que aplica a tensão de 1,2V ao núcleo da FPGA. 

Para tal foi utilizada a interface de entrada e saída da FPGA juntamente com um cabo usb de 

aquisição de sinais digitais. 

Equipamentos: 

Voltímetro – HP 34401A 

 

Amperímetro – HP 34401A 

Termómetro – Keithley 2001 

 

Câmara de Temperatura – TestEquity Half Cube 

Modo em Teste Temp. [°C] Tensão [V] Corrente [mA] Vprog Potência [mW] Poupança [%] 

Standby 

1.233 7.64 C 9.42 

1.2 

x 

Run 1.226 17.89 C 21.93 

0 

Standby 0.927 3.72 6 3.45 63.38 

DVS 

Run 0.927 10.97 6 10.17 53.63 

Standby 

1.233 7.98 C 9.84 

1.2 

x 

Run 1.226 18.24 C 22.36 

10 

Standby 0.926 3.90 6 3.61 63.31 

DVS 

Run 0.922 11.15 6 10.28 54.03 

Standby 

1.232 8.91 C 10.98 

1.2 

x 

Run 1.226 19.22 C 23.56 

25 

Standby 0.926 4.39 6 4.07 62.93 

DVS 

Run 0.921 11.68 6 10.76 54.33 

Standby 

1.230 9.72 C 11.96 

1.2 

x 

Run 1.223 20.03 C 24.50 

35 

Standby 0.926 4.86 6 4.50 62.37 

DVS 

Run 0.920 12.16 6 11.19 54.33 

Standby 

1.229 10.87 C 13.36 

1.2 

x 

Run 1.223 21.18 C 25.90 

45 

Standby 0.925 5.53 6 5.12 61.68 

DVS 

Run 0.920 12.81 6 11.79 54.48 

Standby 

1.228 12.38 C 15.2 

1.2 

x 

Run 1.221 22.67 C 27.68 

55 

Standby 0.924 6.44 6 5.95 60.86 

DVS 

Run 0.919 13.72 6 12.61 54.44 

Standby 

1.227 14.40 C 17.67 

1.2 

x 

Run 1.219 24.76 C 30.18 

65 

Standby 0.923 7.66 6 7.07 59.99 

DVS 

Run 0.918 14.97 6 13.74 54.47 

Standby 

1.224 16.96 C 20.76 

1.2 

x 

Run 1.216 27.30 C 33.20 

75 

Standby 0.921 9.26 6 8.53 58.91 

DVS 

Run 0.916 16.56 6 15.17 54.31 

Tabela 5.2 – Medições em Temperatura 

43

Tensão [V] 


Os limites do teste em temperatura foram impostos pelas especificações da FPGA [15], sendo a 

temperatura mínima de 0ºC e a máxima de 80ºC. Na Tabela 5.2 são apresentados os resultados 

obtidos com as tensões e correntes correspondentes ao modo de funcionamento não optimizado da 

FPGA (1,2V) e para o modo com a tensão de alimentação optimizada (DVS). Foram ainda 

efectuadas medidas com o multiplicador activo (Run) e em repouso (Standby). Através da tensão e 

da corrente foi calculada a potência dissipada na FPGA para os casos 1,2V e DVS. Dado que a 

frequência de relógio se mantém para ambas as situações, o tempo de processamento é idêntico e 

por isso a proporção entre a potência e a energia é a mesma para os casos 1.2V e DVS. Assim, os 

valores da potência podem ser usados para quantificar a poupança de energia recorrendo à 

expressão (5.1). Por fim, na Tabela 5.2, a coluna Vprog mostra o valor da palavra de tensão 

fornecida ao DCDC em formato hexadecimal. 

P = ( 

P 

P 2 

) (5.1) 

Com os resultados da Tabela 5.2 foram elaborados quatro gráficos. Nas legendas apresentadas 

juntamente com os gráficos a designação Sb significa Standby e a designação Rn significa Run. 

1.25 

1.2 

1.15 

1.1 

1,2V Sb 

1.05 

1 

1,2V Rn 

DVS Sb 

DVS Rn 

0.95 

0.9 

0 15 30 45 60 75 

Temperatura [ºC] 

Figura 5.5 – Gráfico da variação da tensão de alimentação do núcleo digital da FPGA com a temperatura 

Na Figura 5.5 é apresentado o gráfico da variação da tensão de alimentação do núcleo digital da 

FPGA para as várias temperaturas. É registada uma ligeira queda na tensão quando o circuito está 

em carga no modo Run, mas deve-se apenas à resistência interna do amperímetro e fios de ligação 

entre o DCDC e a FPGA, já que o DCDC regula eficazmente a sua tensão de saída. 

44

Potência [mW] 

Currente [mA] 


30 

25 

20 

15 

10 

1,2V Sb 

1,2V Rn 

DVS Sb 

DVS Rn 

5 

0 

0 15 30 45 60 75 


Figura 5.6 – Gráfico da variação da corrente consumida pelo núcleo digital da FPGA com a temperatura 

Na Figura 5.6 é apresentado o gráfico da variação da corrente consumida pelo núcleo digital da 

FPGA com a temperatura. Pode ver-se que em carga e nos modos 1,2V (Standby e Run) a corrente 

cresce mais rapidamente que no caso do DVS, aumentando de forma significativa o desperdício de 

energia em temperaturas altas. 

35 

30 

25 

20 

15 

10 

1,2V Sb 

1,2V Rn 

DVS Sb 

DVS Rn 

5 

0 

0 15 30 45 60 75 


Figura 5.7 – Gráfico da variação da Potência consumida pelo núcleo digital da FPGA com a temperatura 

45

Poupança [%] 


Na Figura 5.7 pode ver-se o gráfico com a variação da Potência consumida pelo núcleo digital 

da FPGA com a temperatura. Como a variação da tensão em ambos os modos ronda as dezenas de 

milivolts, o andamento da potência é muito semelhante ao observado na corrente. 

64 

62 

60 

58 

56 

DVS Sb 

DVS Rn 

54 

52 

0 15 30 45 60 75 


Figura 5.8 – Poupança obtida com a utilização do Sensor Global para diferentes temperaturas 

Analisando os resultados na perspectiva da poupança de energia, Figura 5.8, pode ver-se que 

nas temperaturas mais elevadas existe uma diminuição da poupança em Standby (Sb). Contudo, 

esta continua ainda a acima dos 58%. Mais importante é o facto de a poupança manter-se 

praticamente constante quando a FPGA está em carga (Rn). Esta situação mostra que é possível 

manter uma elevada redução no consumo de energia, mesmo em altas temperaturas. 

46

Conclusões e Trabalho Futuro 


6.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 . . 

6.2 Trabalho Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 . 

47

6. Conclusões e Trabalho Futuro 

6.1 Conclusões 

Uma análise ao trabalho realizado permite concluir que todos os objectivos foram cumpridos. O 

protótipo desenvolvido funcionou correctamente, permitindo efectuar a validação do sensor e 

quantificar os ganhos possíveis com a optimização implementada, mesmo nas altas temperaturas. 

Foi possível integrar o sensor na FPGA, monitorizando o desempenho da lógica desta, e incluir o 

módulo de controlo que através do SPI comunica com o DCDC externo e optimiza a tensão de 

alimentação da FPGA. O multiplicador com autoteste implementado na FPGA permitiu verificar que a 

solução de optimização implementada não compromete o correcto processamento e proporciona 

ganhos entre os 53% e os 63% dependendo das condições de temperatura e de carga. 

A implementação efectuada, além de permitir validar a metodologia de optimização, comprova 

que a sua implementação não interfere com o fluxo de projecto dos circuitos cuja tensão de 

alimentação é optimizada. 

6.2 Trabalho Futuro 

Como trabalho futuro seria interessante poder realizar algumas das seguintes tarefas: 

Utilização de múltiplos sensores posicionados em diferentes regiões do chip para efectuar a 

optimização com base na temperatura e tensão de alimentação local. 

Testar o funcionamento para diferentes frequências de relógio (o actual algoritmo de controlo 

já está preparado para esta situação) 

Prototipagem em silício integrado uma PMU interna com maior sensibilidade no ajuste da 

tensão e com um protocolo de comunicação mais rápido. 

48

Bibliografia 

[1] S. Gochman, R. Ronen, I. Anati, A. Berkovits, T. Kurts, A. Naveh, A. Saeed, Z. Sperber and R. C. 

Valentine, "The Intel® Pentium® M Processor: Microarchitecture and Performance," Intel® 

Technology Journal, vol. 7, no. 2, Mai. 2003. 

[2] “AMD PowerNow! Technology Dynamically Manages Power and Performance,” Nov. 2000. 

[Online]. Available: http://support.amd.com/us/Embedded_TechDocs/24404a.pdf. 

[3] D. Ernst, N. S. Kim, S. Das, S. Pant, R. Rao, T. Pham, C. Ziesler, D. Blaauw, T. Austin, K. 

Flautner and T. Mudge, "Razor: A Low-Power Pipeline Based on Circuit-Level Timing 

Speculation," in Microarchitecture, 2003. MICRO-36. Proceedings. 36th Annual IEEE/ACM 

International Symposium on, Dez. 2003. 

[4] V. Reddy, A. Krishnan, A. Marshall, J. Rodriguez, S. Natarajan, T. Rost and S. Krishnan, "Impact 

of Negative Bias Temperature Instability on Digital Circuit Reliability," in Reliability Physics 

Symposium Proceedings, 2002. 

[5] J. Vazquez, V. Champac, A. iesemer, . eis, . emião, . Tei eira, M. antos and . Tei eira, 

"Predictive Error Detection by On-line Aging Monitoring," in On-Line Testing Symposium (IOLTS), 

2010. 

[6] J. Semiao, J. Pachito, C. Martins, B. Jacinto, J. Vazquez, V. Champac, M. Santos, I. Teixeira and 

J. Teixeira, "Aging-aware Power or Frequency Tuning with Predictive Fault Detection," in Design 

& Test of Computers, 99 ed., vol. PP, IEEE, 2012. 

[7] M. Khan, S. Hamdioui and F. Catthoor, "Comparative BTI Analysis in Nano-scale Circuits 

Lifetime," in 4th Workshop on Design for Reliability, Paris, France, 2012. 

[8] D. K. Schroder, "Negative bias temperature instability: What do we understand?," 

Microelectronics Reliability, vol. 47, no. 6, 2007. 

[9] W. Wang, S. Yang, S. Bhardwaj, S. Vrudhula, F. Liu and Y. Cao, "The Impact of NBTI Effect on 

Combinational Circuit: Modeling, Simulation, and Analysis," in IEEE Transactions on Very Large 

Scale Integration Systems, vol. 18, Feb. 2010, pp. 173-183. 

[10] S. Bhardwaj, W. Wang, R. Vattikonda, Y. Cao and a. S. Vrudhula, "Predictive Modeling of the 

NBTI Effect for Reliable Design," Custom Integrated Circuits Conference, 2006. CICC '06. IEEE, 

Sept. 2006. 

[11] D. I. Kim, J. Kim, M. J. Kim, J. R. Moulic and H. H. Song, "System and Method for Monitoring 

Reliability of a Digital System". Patent 7495519, 24 Fev 2009. 

[12] C. R. Gauthier, P. R. Trivedi and G. S. Yee, "Embedded Integrated Circuit Aging Sensor 

System". Patent 7054787, 30 Maio 2006. 

[13] K. Kang, S. Gangwal, S. P. Park and K. Roy, "NBTI induced performance degradation in logic 

and memory circuits: how effectively can we approach a reliability solution?," in Design 

Automation Conference, 2008. 

[14] K.-C. Wu and D. Marculescu, "Joint Logic Restructuring and Pin Reordering against NBTI- 

Induced Performance Degradation," in Design, Automation & Test in Europe Conference & 

Exhibition, 2009. 

[15] "Digilent® Xilinx® Spartan3 XC3S400-4FT256," Digilent, Inc., [Online]. Available: 

http://www.digilentinc.com/Products/Detail.cfm?Prod=S3BOARD. 

49

Bibliografia 

50

Anexos 

51

7. Anexos 

Figura 7.1 – Esquema eléctrico dos dispositivos de alimentação da placa FGPA utilizada 

52

Dynamic Voltage Scaling Dissertação para obtenção do Grau de ...

Create successful ePaper yourself

Delete template?

Save as template?