Analiza lexicala [pdf] - Andrei

Analiza Lexicala

Introducere 

LEX – program pentru constructia 

automata a analizoarelor lexicale 

Analiza Lexicala = detectarea de atomi 

lexicali (tokeni) 

Analizor Lexical 

Analizor Lexical 

folosit ca atare (pentru dezvoltarea de aplicatii 

care necesita doar detectare de atomi lexicali) 

folosit pentru detectarea atomilor lexicali ce 

vor reprezenta intrarea unui Analizor Sintactic

Introducere (2) 

Analizor 

lexical 

TOKEN(name,val) 

getToken() 

tabela 

De 

simboli 

Parser

Introducere (3) 

scrierea unei specificatii LEX este 

echivalenta cu scrierea unui set de 

modele pe care analizorul generat va 

incerca sa le gaseasca pe sirul de 

intrare 

OBSERVATIE: un analizor lexical 

scris cu ajutorul LEX este aproape 

sigur mai rapid decat un analizor 

lexical scris “de mana” 

scanner.l 

flex 

lex.yy.c 

CC 

lex.yy.o 

LD 

scanner 

Specificatie 

LEX 

Cod C 

generat 

Binar 

Optimizat 

libfl.a 

Cod 

Executabil

Expresii Regulate 

Expresie Regulata – descriere de 

model folosind un metalimbaj 

. orice caracter in afara de \n 

* zero sau mai multe copii ale expresiei precedente 

+ una sau mai multe copii ale expresiei precedente 

[] un caracter din multimea de caractere definita intre [] 

[0-9] un caracter din multimea de toate caracterele dintre limite 

[^…] un caracter care nu este in multimea de caractere definita 

intre []

Expresii Regulate (2) 

? zero sau mai multe aparitii ale expresiei precedente 

| specificarea unei alternative 

^ inceput de linie (ca prim caracter intr-o ER) 

$ sfarsit de linie (ca ultim caracter intr-o ER) 

{N} indica de cate ori poate sa apara expresia precedenta (numar fix) 

{N} 

{N, M} indica de cate ori poate sa apara expresia precedenta (intre N 

si M ori) 

/ detecteaza un sir care se potriveste cu expresia care precede /, dar 

numai cand este succedata de expresia care urmeaza dupa / (fara a 

avansa consumarea intrarii) 

() grupeaza o serie de expresii intr-o noua expresie 

()

Exemple Expresii Regulate 

[0-9] 

[0-9]+ 

[0-9]* 

-?[0-9]+ 

-?(([0-9]+)|([0-9]*\.[0-9]+)) 

^[ \t]*\n 

^[ \t]*”/*”.*”*/”[ \t]*\n 

o cifra 

un numar natural cu cel putin o 

cifra 

un numar sau sirul vid 

un numar intreg (poatea avea 

semn) 

un numar zecimal cu semn 

descrierea unei linii goale (doar 

spatii si taburi) 

descrierea unei linii care incepe 

si se termina cu un comentariu

Structura unei Specificatii 

LEX 

3 sectiuni 

1. sectiune de definitii 

2. sectiune de reguli 

3. sectiune de rutine 

1 

2 

3 

%{ 

#include 

%} 

DIGIT [0-9] 

ID [a-z][a-z0-9]* 

%% 

{DIGIT}+ printf( "An integer”); 

%% 

int main(void) 

{ 

yyin = fopen( "f.in", "r"); 

yylex(); 

}

Sectiunea de Definitii 

poate contine orice secventa de cod C 

ce se doreste copiata ca atare in 

programul final (aceaste secvente sunt 

delimitate de “%{“ si “%}”) 

aceasa sectiune mai poate contine de 

asemenea definitii (ce vor fi folosite 

apoi in sectiunea de reguli) sau 

declaratii de stari

Exemplu sectiune de 

definitii 

%{ unsigned charCount = 0; 

unsigned wordCount = 0; 

unsigned lineCount = 0; 

%} 

word [^ \t\n]+ 

eol \n 

%x COMMENT

Sectiune de Reguli 

fiecare regula formata din MODEL si 

ACTIUNE (separate prin spatii) 

Programul generat de LEX va executa 

ACTIUNEA de fiecare data cand va detecta 

MODELUL asociat 

MODELELE sunt specificate prin expresii 

regulate 

sectiunea de reguli este delimitata de 

caracterele “%%”

Exemplu sectiunea de 

reguli 

%% 

[ \t]+ ; /* se ignora spatiile goale */ 

[a-zA-Z]+ {printf(“Acesta este un cuvant %s\n”, yytext);} 

-?(([0-9]+)|([0-9]*\.[0-9]+)) {printf(“Acesta este un numar %s\n”, 

yytext);} 

.|\n ECHO; /* este oricum actiunea implicita */ 

%%

Sectiunea de Rutine 

contine orice secventa de cod C 

trebuie sa contina apelul catre 

analizorul lexical yylex() 

poate folosi sau redefini 

variabile/functii/macrouri ce sunt 

generate de LEX in fisierul final

Exemplu sectiune de rutine 

int main( int argc, char * argv[] ) 

{ 

if( argc > 1 ) 

{ 

FILE * file; 

file = fopen( argv[1], "r" ); 

if( !file ) 

{ 

fprintf( stderr, "Could not open %s\n",argv[1]); 

exit(1); 

} 

yyin = file; 

} 

yylex(); 

return 0; 

}

Reguli 

intr-un text ce contine o specificatie LEX 

fiecare linie va trebui sa inceapa din coloana 

intii 

LEX executa actiunea asociata celui mai 

lung model posibil 

Atunci cand se poate alege intre doua 

modele la fel de lungi, se alege intotdeauna 

cel care a fost specificat primul in sectiunea 

de definitii

Stari LEX 

se pot crea stari (start conditions) 

rolul lor este de a descrie informatiile 

dependente de context intr-o specificatie 

LEX 

precedarea unei reguli de o stare anunta 

analizorul ca regula se aplica doar cand 

analizorul este in starea respectiva 

Pot fi inclusive sau exclusive 

restul regulilor sunt valabile in toate celelalte 

stari (mai putin in starile exclusive)

Exemplu Stari 

%s MAGIC 

%% 

.+ { BEGIN INITIAL; 

printf("Magic:");ECHO; } 

magic BEGIN MAGIC; 

%% 

void main(){ yylex(); }

Tot despre stari 

identifica orice stare 

YY_START : intoarce un intreg 

(valoarea interna a starii curente) 

Sunt disponibile rutine pentru accesul 

la stiva de stari (yy_push_state, etc.)

Variabile accesibile 

utilizatorului 

char *yytext : textul pentru tokenul 

curent 

int yyleng : lungimea tokenului curent 

FILE *yyin : fisierul de intrare 

FILE *yyout : fisierul in care scrie 

ECHO

Alte macro-uri si rutine 

accesibile utilizatorului 

ECHO 

REJECT 

yymore() 

yyless(n) 

yywrap()

Lucrul cu mai multe buffere 

de intrare 

yy_create_buffer 

yy_switch_to_buffer 

yy_delete_buffer 

yy_scan_string

Exemple Complete/ 

Mai multe informatii 

Documentatia online 

http://cs.pub.ro/~pt/ 

A. Aho, R. Sethi, J.D.Ullman – 

Compilers, Techniques and Tools 

(cartea cu dragon)

Expresii regulate in Java

java.util.regex 

Pattern 

Matcher 

PatternSyntaxException

Exemplu 

import java.util.regex.*; 

public class RegEx { 

public static void main(String args[]) { 

String myRegex = "abc*"; 

Pattern pattern = Pattern.compile(myRegex); 

Matcher matcher = pattern.matcher("abccabcabccc"); 

while (matcher.find()) { 

System.out.println("Found it : " + matcher.group()); 

} 

} 

}

Cuantificatori 

Greedy 

Reluctant 

Posessive

Cuantificatori (2) 

xfooxxxxxxfoo 

Greedy: *.foo => xfooxxxxxxfoo 

Reluctant: *?.foo => xfoo 

Posessive: *+.foo =>

Documentatie 

http://java.sun.com/docs/books/tutorial/essential/regex/intro.html

Exercitii 

Pentru un fisier text, afisati toate liniile 

de text precedate de numarul liniei 

Scrieti un scurt program similar ca 

functionalitate cu utilitarul Linux ‘wc’ 

Dezvoltati exemplul anterior: daca 

fisierul-sursa contine comentarii (stil C 

sau C++ -- /* …*/ sau // …), continutul 

comentariilor se va ignora in calculul 

statisticilor.

Analiza lexicala [pdf] - Andrei

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?