24.06.2015 Views

Text mining v systémech SAS - Sorry

Text mining v systémech SAS - Sorry

Text mining v systémech SAS - Sorry

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Text</strong> Mining: <strong>SAS</strong> Enterprise<br />

Miner versus Teragram<br />

Petr Berka, Tomáš Kliegr<br />

VŠE Praha


<strong>Text</strong> <strong>mining</strong> vs. data <strong>mining</strong><br />

<strong>Text</strong> <strong>mining</strong> = data <strong>mining</strong> na<br />

nestrukturovaných textových dokumentech<br />

• otázka vhodné reprezentace dat (typicky<br />

„bag of words“)<br />

• 2 možné přístupy k text <strong>mining</strong>:<br />

• Předzpracování dat + „běžné“ algoritmy pro<br />

data <strong>mining</strong><br />

• Speciální algoritmy pro text <strong>mining</strong><br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

2


Úlohy text <strong>mining</strong><br />

• Vyhledávání informací (information retrieval, IR) –<br />

dokument chápan jako celek<br />

• text categorization<br />

• document clustering<br />

• document filtering<br />

• duplication detection<br />

• sentiment analysis<br />

• Extrakce informací (information extraction, IE) –<br />

hledání v dokumentech<br />

• text summarization<br />

• template <strong>mining</strong><br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

3


<strong>Text</strong> Mining a <strong>SAS</strong>: Enterprise<br />

Předzpracování textů<br />

• <strong>Text</strong> parsing node (převod dokumentu na BoW)<br />

Miner<br />

• <strong>Text</strong> filtering node (kontrola pravopisu, filtrování<br />

termínů, propojení témat, fultextové vyhledávání)<br />

• <strong>Text</strong> topics node (reprezentace dokumentů<br />

souhrnnějšími „tématy“ s využitím SVD)<br />

<strong>Text</strong> <strong>mining</strong><br />

• <strong>Text</strong> <strong>mining</strong> node (převod dokumentu na BoW,<br />

propojení témat, shlukování dokumentů – SVD,<br />

termíny)<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

4


EM pro IR: předzpracování +<br />

„běžný“ data <strong>mining</strong><br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

5


<strong>Text</strong> Parsing node - results<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

6


<strong>Text</strong> Filter node - results<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

7


<strong>Text</strong> filter node – view<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

8


<strong>Text</strong> Topics node - results<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

9


<strong>Text</strong> Topics node - viewer<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

10


„Běžný“ data <strong>mining</strong><br />

téma<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

11


EM pro IR: speciální algoritmy<br />

pro text <strong>mining</strong><br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

12


<strong>Text</strong> Mining node - parsing<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

13


<strong>Text</strong> <strong>mining</strong> node - analýza<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

14


„Běžný“ data <strong>mining</strong><br />

SVD dimenze<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

15


„Běžný“ data <strong>mining</strong><br />

termín<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

16


<strong>Text</strong> Mining a <strong>SAS</strong>:<br />

komponenty Teragram<br />

• Content categorization<br />

• + document duplication detection<br />

• + text summarization<br />

• + search and indexing<br />

• + … (web crawler, content alerts, MeSH rules, IPTC rules)<br />

• Sentiment analysis<br />

• Ontology management<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

17


<strong>SAS</strong> Content Categorization<br />

• Slouží pro kategorizaci dokumentů (IR)<br />

• Statistické učení<br />

• Automatické učení pravidel<br />

• Ruční definice pravidel<br />

• a identifikaci konceptů v dokumentech (IE)<br />

• Klasifikační koncepty<br />

• Gramaticky definované koncepty<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

18


Kategorizace dokumentů<br />

• Statistické učení<br />

• Black box přístup, vznikne hierarchie konceptů<br />

• Automatické učení<br />

• Vytvoří se hierarchie pojmů, pro každou se zadá sada<br />

ukázkových dokumentů, systém pak pro každou<br />

kategorii navrhne kategorizační pravidla s jasnou<br />

sémantikou (pojmy vyskytující se v dané kategorii)<br />

• Ruční<br />

• Nekvalifikovaná pravidla – seznam slov<br />

• Kvalifikovaná pravidla – spec. symboly: (cena@),<br />

(*produkt), (-sport), (--vítěz)<br />

• Vážená lingvistická pravidla<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011 19


Výběr nejvhodnější kategorie<br />

• Režim frekvenční relevance<br />

• Match Ratio udává počet termů, které musí být<br />

rozpoznány, aby byl dokument klasifikován do<br />

dané kategorie<br />

• Pokud počet rozpoznaných termů dosáhne Match<br />

Ratio u více kategorií, vybere se kategorie s<br />

nejvyšším absolutním počtem rozpoznaných<br />

kategorií<br />

• Režim 2- zónové frekvenční relevance<br />

• Rozpoznané termy blíže začátku dokumentu<br />

dostanou větší váhu<br />

• Vhodné pro novinové články<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

20


Kategorie a termíny<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

21


Definice konceptů<br />

• Klasifikační koncept (classifier concept)<br />

• Koncept je definován seznamem slov nebo pomocí<br />

„regulárních výrazů“<br />

• Vhodné pro zachycení očekávaných informací,<br />

nebo informací, pro které lze sestrojit regulární<br />

výraz<br />

• Gramaticky definovaný koncept (grammar<br />

concept)<br />

• Lze zachytit předem neznámé informace pomocí<br />

lingvistických pravidel<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

22


Gramatický koncept:<br />

definování<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

23


Gramatický koncept: hledání<br />

life is a mistake<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

24


Podpora češtiny<br />

Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011 25


Shrnutí <strong>SAS</strong> Content<br />

Categorization<br />

• Intuitivní a jednoduchá kategorizace<br />

dokumentů pomocí ruční definice<br />

kategorií<br />

• Velmi jemná podpora pro definici<br />

gramatických pravidel, které lze využít<br />

pro extrakci faktů z textu<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011 26


<strong>SAS</strong> Document duplication<br />

detection (IR)<br />

Detekce vzájemné (obsahové) podobnosti dokumentů<br />

test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16KAND.html 0.875 0.843 SIMILAR<br />

test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR<br />

test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR<br />

test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR<br />

test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR<br />

test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16DONNELT.html 0.961 0.869 SIMILAR<br />

test/nytimes-sgml/161004.sgml test/nytimes-html/national/16CROQ.html 0.896 0.865 SIMILAR<br />

test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16HELLERT.html 0.907 0.854 SIMILAR<br />

test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16LETTERS.html 0.797 0.080<br />

PARTLY CONTAINED IN<br />

test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16ZELINST.html 0.950 0.884 SIMILAR<br />

test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16GARTWOT.html 0.978 0.914 SIMILAR<br />

test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16HILL.html 0.848 0.815 SIMILAR<br />

test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16REST.html 0.832 0.880 SIMILAR<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011 27


<strong>SAS</strong> <strong>Text</strong> Summarization (IE)<br />

• Vybírá důležité věty z textu<br />

• Důležitost je dána výskytem uživatelem definovaných<br />

konceptů<br />

• Počet vybraných vět je dán uživatelem<br />

• Absolutní číslo nebo procento<br />

• Čím více konceptů ve větě je, tím je důležitější<br />

• Při definici konceptů je možné využít regulární výrazy a<br />

gramatická pravidla, není možné využít lematizátor<br />

• Možnosti shrnutí<br />

• Celý dokument<br />

• Odstavce<br />

• Sekce<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

28


uild,7<br />

house,7<br />

Věty, ve kterých mají rozpoznané<br />

koncepty největší váhu, jsou vloženy<br />

do shrnutí.<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

29


<strong>SAS</strong> Sentiment analysis (IE)<br />

Analýza emočního obsahu dokumentů (např. názorů<br />

zákazníků) založená na detekci výskytů slov<br />

nesoucích kladné, záporné a neutrální emoce<br />

Metody:<br />

• Statistické modely<br />

• Ručně definovaná lingvistická pravidla<br />

• Hybridní<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011 30


<strong>SAS</strong> Sentiment analysis<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011 31


Možnost využití ve výuce<br />

• předměty zaměřené na data <strong>mining</strong> a text <strong>mining</strong><br />

• <strong>SAS</strong> EM-TM<br />

• předměty zaměřené na zpracování přirozeného<br />

jazyka (NLP)<br />

• <strong>SAS</strong> Content Categorization<br />

• <strong>SAS</strong> Sentiment analysis<br />

• <strong>SAS</strong> TM (parsing, filtering)<br />

• předměty zaměřené na vyhledávání informací (IR)<br />

• <strong>SAS</strong> Content Categorization<br />

Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />

32


Děkuji za pozornost<br />

Petr Berka<br />

berka@vse.cz

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!