Text mining v systÃ©mech SAS - Sorry

Text Mining: SAS Enterprise 

Miner versus Teragram 

Petr Berka, Tomáš Kliegr 

VŠE Praha

Text mining vs. data mining 

Text mining = data mining na 

nestrukturovaných textových dokumentech 

• otázka vhodné reprezentace dat (typicky 

„bag of words“) 

• 2 možné přístupy k text mining: 

• Předzpracování dat + „běžné“ algoritmy pro 

data mining 

• Speciální algoritmy pro text mining 

Berka & Kliegr @ SAS Forum 2011 

2

Úlohy text mining 

• Vyhledávání informací (information retrieval, IR) – 

dokument chápan jako celek 

• text categorization 

• document clustering 

• document filtering 

• duplication detection 

• sentiment analysis 

• Extrakce informací (information extraction, IE) – 

hledání v dokumentech 

• text summarization 

• template mining 


3

Text Mining a SAS: Enterprise 

Předzpracování textů 

• Text parsing node (převod dokumentu na BoW) 

Miner 

• Text filtering node (kontrola pravopisu, filtrování 

termínů, propojení témat, fultextové vyhledávání) 

• Text topics node (reprezentace dokumentů 

souhrnnějšími „tématy“ s využitím SVD) 

Text mining 

• Text mining node (převod dokumentu na BoW, 

propojení témat, shlukování dokumentů – SVD, 

termíny) 


4

EM pro IR: předzpracování + 

„běžný“ data mining 


5

Text Parsing node - results 


6

Text Filter node - results 


7

Text filter node – view 


8

Text Topics node - results 


9

Text Topics node - viewer 


10

„Běžný“ data mining 

téma 


11

EM pro IR: speciální algoritmy 

pro text mining 


12

Text Mining node - parsing 


13

Text mining node - analýza 


14


SVD dimenze 


15


termín 


16

Text Mining a SAS: 

komponenty Teragram 

• Content categorization 

• + document duplication detection 

• + text summarization 

• + search and indexing 

• + … (web crawler, content alerts, MeSH rules, IPTC rules) 

• Sentiment analysis 

• Ontology management 


17

SAS Content Categorization 

• Slouží pro kategorizaci dokumentů (IR) 

• Statistické učení 

• Automatické učení pravidel 

• Ruční definice pravidel 

• a identifikaci konceptů v dokumentech (IE) 

• Klasifikační koncepty 

• Gramaticky definované koncepty 


18

Kategorizace dokumentů 

• Statistické učení 

• Black box přístup, vznikne hierarchie konceptů 

• Automatické učení 

• Vytvoří se hierarchie pojmů, pro každou se zadá sada 

ukázkových dokumentů, systém pak pro každou 

kategorii navrhne kategorizační pravidla s jasnou 

sémantikou (pojmy vyskytující se v dané kategorii) 

• Ruční 

• Nekvalifikovaná pravidla – seznam slov 

• Kvalifikovaná pravidla – spec. symboly: (cena@), 

(*produkt), (-sport), (--vítěz) 

• Vážená lingvistická pravidla 

Berka & Kliegr @ SAS Forum 2011 19

Výběr nejvhodnější kategorie 

• Režim frekvenční relevance 

• Match Ratio udává počet termů, které musí být 

rozpoznány, aby byl dokument klasifikován do 

dané kategorie 

• Pokud počet rozpoznaných termů dosáhne Match 

Ratio u více kategorií, vybere se kategorie s 

nejvyšším absolutním počtem rozpoznaných 

kategorií 

• Režim 2- zónové frekvenční relevance 

• Rozpoznané termy blíže začátku dokumentu 

dostanou větší váhu 

• Vhodné pro novinové články 


20

Kategorie a termíny 


21

Definice konceptů 

• Klasifikační koncept (classifier concept) 

• Koncept je definován seznamem slov nebo pomocí 

„regulárních výrazů“ 

• Vhodné pro zachycení očekávaných informací, 

nebo informací, pro které lze sestrojit regulární 

výraz 

• Gramaticky definovaný koncept (grammar 

concept) 

• Lze zachytit předem neznámé informace pomocí 

lingvistických pravidel 


22

Gramatický koncept: 

definování 


23

Gramatický koncept: hledání 

life is a mistake 


24

Podpora češtiny 

Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75 


Shrnutí SAS Content 

Categorization 

• Intuitivní a jednoduchá kategorizace 

dokumentů pomocí ruční definice 

kategorií 

• Velmi jemná podpora pro definici 

gramatických pravidel, které lze využít 

pro extrakci faktů z textu 


SAS Document duplication 

detection (IR) 

Detekce vzájemné (obsahové) podobnosti dokumentů 

test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16KAND.html 0.875 0.843 SIMILAR 

test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR 

test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR 

test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR 

test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR 

test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16DONNELT.html 0.961 0.869 SIMILAR 

test/nytimes-sgml/161004.sgml test/nytimes-html/national/16CROQ.html 0.896 0.865 SIMILAR 

test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16HELLERT.html 0.907 0.854 SIMILAR 

test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16LETTERS.html 0.797 0.080 

PARTLY CONTAINED IN 

test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16ZELINST.html 0.950 0.884 SIMILAR 

test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16GARTWOT.html 0.978 0.914 SIMILAR 

test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16HILL.html 0.848 0.815 SIMILAR 

test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16REST.html 0.832 0.880 SIMILAR 


SAS Text Summarization (IE) 

• Vybírá důležité věty z textu 

• Důležitost je dána výskytem uživatelem definovaných 

konceptů 

• Počet vybraných vět je dán uživatelem 

• Absolutní číslo nebo procento 

• Čím více konceptů ve větě je, tím je důležitější 

• Při definici konceptů je možné využít regulární výrazy a 

gramatická pravidla, není možné využít lematizátor 

• Možnosti shrnutí 

• Celý dokument 

• Odstavce 

• Sekce 


28

uild,7 

house,7 

Věty, ve kterých mají rozpoznané 

koncepty největší váhu, jsou vloženy 

do shrnutí. 


29

SAS Sentiment analysis (IE) 

Analýza emočního obsahu dokumentů (např. názorů 

zákazníků) založená na detekci výskytů slov 

nesoucích kladné, záporné a neutrální emoce 

Metody: 

• Statistické modely 

• Ručně definovaná lingvistická pravidla 

• Hybridní 


SAS Sentiment analysis 


Možnost využití ve výuce 

• předměty zaměřené na data mining a text mining 

• SAS EM-TM 

• předměty zaměřené na zpracování přirozeného 

jazyka (NLP) 

• SAS Content Categorization 

• SAS Sentiment analysis 

• SAS TM (parsing, filtering) 

• předměty zaměřené na vyhledávání informací (IR) 

• SAS Content Categorization 


32

Děkuji za pozornost 

Petr Berka 

berka@vse.cz

Text mining v systÃ©mech SAS - Sorry

Create successful ePaper yourself

Delete template?

Save as template?