Text mining v systémech SAS - Sorry
Text mining v systémech SAS - Sorry
Text mining v systémech SAS - Sorry
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>Text</strong> Mining: <strong>SAS</strong> Enterprise<br />
Miner versus Teragram<br />
Petr Berka, Tomáš Kliegr<br />
VŠE Praha
<strong>Text</strong> <strong>mining</strong> vs. data <strong>mining</strong><br />
<strong>Text</strong> <strong>mining</strong> = data <strong>mining</strong> na<br />
nestrukturovaných textových dokumentech<br />
• otázka vhodné reprezentace dat (typicky<br />
„bag of words“)<br />
• 2 možné přístupy k text <strong>mining</strong>:<br />
• Předzpracování dat + „běžné“ algoritmy pro<br />
data <strong>mining</strong><br />
• Speciální algoritmy pro text <strong>mining</strong><br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
2
Úlohy text <strong>mining</strong><br />
• Vyhledávání informací (information retrieval, IR) –<br />
dokument chápan jako celek<br />
• text categorization<br />
• document clustering<br />
• document filtering<br />
• duplication detection<br />
• sentiment analysis<br />
• Extrakce informací (information extraction, IE) –<br />
hledání v dokumentech<br />
• text summarization<br />
• template <strong>mining</strong><br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
3
<strong>Text</strong> Mining a <strong>SAS</strong>: Enterprise<br />
Předzpracování textů<br />
• <strong>Text</strong> parsing node (převod dokumentu na BoW)<br />
Miner<br />
• <strong>Text</strong> filtering node (kontrola pravopisu, filtrování<br />
termínů, propojení témat, fultextové vyhledávání)<br />
• <strong>Text</strong> topics node (reprezentace dokumentů<br />
souhrnnějšími „tématy“ s využitím SVD)<br />
<strong>Text</strong> <strong>mining</strong><br />
• <strong>Text</strong> <strong>mining</strong> node (převod dokumentu na BoW,<br />
propojení témat, shlukování dokumentů – SVD,<br />
termíny)<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
4
EM pro IR: předzpracování +<br />
„běžný“ data <strong>mining</strong><br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
5
<strong>Text</strong> Parsing node - results<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
6
<strong>Text</strong> Filter node - results<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
7
<strong>Text</strong> filter node – view<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
8
<strong>Text</strong> Topics node - results<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
9
<strong>Text</strong> Topics node - viewer<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
10
„Běžný“ data <strong>mining</strong><br />
téma<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
11
EM pro IR: speciální algoritmy<br />
pro text <strong>mining</strong><br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
12
<strong>Text</strong> Mining node - parsing<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
13
<strong>Text</strong> <strong>mining</strong> node - analýza<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
14
„Běžný“ data <strong>mining</strong><br />
SVD dimenze<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
15
„Běžný“ data <strong>mining</strong><br />
termín<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
16
<strong>Text</strong> Mining a <strong>SAS</strong>:<br />
komponenty Teragram<br />
• Content categorization<br />
• + document duplication detection<br />
• + text summarization<br />
• + search and indexing<br />
• + … (web crawler, content alerts, MeSH rules, IPTC rules)<br />
• Sentiment analysis<br />
• Ontology management<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
17
<strong>SAS</strong> Content Categorization<br />
• Slouží pro kategorizaci dokumentů (IR)<br />
• Statistické učení<br />
• Automatické učení pravidel<br />
• Ruční definice pravidel<br />
• a identifikaci konceptů v dokumentech (IE)<br />
• Klasifikační koncepty<br />
• Gramaticky definované koncepty<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
18
Kategorizace dokumentů<br />
• Statistické učení<br />
• Black box přístup, vznikne hierarchie konceptů<br />
• Automatické učení<br />
• Vytvoří se hierarchie pojmů, pro každou se zadá sada<br />
ukázkových dokumentů, systém pak pro každou<br />
kategorii navrhne kategorizační pravidla s jasnou<br />
sémantikou (pojmy vyskytující se v dané kategorii)<br />
• Ruční<br />
• Nekvalifikovaná pravidla – seznam slov<br />
• Kvalifikovaná pravidla – spec. symboly: (cena@),<br />
(*produkt), (-sport), (--vítěz)<br />
• Vážená lingvistická pravidla<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011 19
Výběr nejvhodnější kategorie<br />
• Režim frekvenční relevance<br />
• Match Ratio udává počet termů, které musí být<br />
rozpoznány, aby byl dokument klasifikován do<br />
dané kategorie<br />
• Pokud počet rozpoznaných termů dosáhne Match<br />
Ratio u více kategorií, vybere se kategorie s<br />
nejvyšším absolutním počtem rozpoznaných<br />
kategorií<br />
• Režim 2- zónové frekvenční relevance<br />
• Rozpoznané termy blíže začátku dokumentu<br />
dostanou větší váhu<br />
• Vhodné pro novinové články<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
20
Kategorie a termíny<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
21
Definice konceptů<br />
• Klasifikační koncept (classifier concept)<br />
• Koncept je definován seznamem slov nebo pomocí<br />
„regulárních výrazů“<br />
• Vhodné pro zachycení očekávaných informací,<br />
nebo informací, pro které lze sestrojit regulární<br />
výraz<br />
• Gramaticky definovaný koncept (grammar<br />
concept)<br />
• Lze zachytit předem neznámé informace pomocí<br />
lingvistických pravidel<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
22
Gramatický koncept:<br />
definování<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
23
Gramatický koncept: hledání<br />
life is a mistake<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
24
Podpora češtiny<br />
Hledání přídavných jmen: přesnost i úplnost je 13/17=0.75<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011 25
Shrnutí <strong>SAS</strong> Content<br />
Categorization<br />
• Intuitivní a jednoduchá kategorizace<br />
dokumentů pomocí ruční definice<br />
kategorií<br />
• Velmi jemná podpora pro definici<br />
gramatických pravidel, které lze využít<br />
pro extrakci faktů z textu<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011 26
<strong>SAS</strong> Document duplication<br />
detection (IR)<br />
Detekce vzájemné (obsahové) podobnosti dokumentů<br />
test/nytimes-sgml/159514.sgml test/nytimes-html/international/asia/16KAND.html 0.875 0.843 SIMILAR<br />
test/nytimes-sgml/165654.sgml test/nytimes-html/garden/16cutt.html 0.849 0.794 SIMILAR<br />
test/nytimes-sgml/165654.sgml test/nytimes-html/nyregion/thecity/16ctycytt.html 0.804 0.794 SIMILAR<br />
test/nytimes-sgml/165654.sgml test/nytimes-sgml/145963.sgml 0.928 0.968 SIMILAR<br />
test/nytimes-sgml/165654.sgml test/nytimes-sgml/165557.sgml 0.980 0.979 SIMILAR<br />
test/nytimes-sgml/037435.sgml test/nytimes-html/books/review/16DONNELT.html 0.961 0.869 SIMILAR<br />
test/nytimes-sgml/161004.sgml test/nytimes-html/national/16CROQ.html 0.896 0.865 SIMILAR<br />
test/nytimes-sgml/037508.sgml test/nytimes-html/books/review/16HELLERT.html 0.907 0.854 SIMILAR<br />
test/nytimes-sgml/092193.sgml test/nytimes-html/magazine/16LETTERS.html 0.797 0.080<br />
PARTLY CONTAINED IN<br />
test/nytimes-sgml/037702.sgml test/nytimes-html/books/review/16ZELINST.html 0.950 0.884 SIMILAR<br />
test/nytimes-sgml/037486.sgml test/nytimes-html/books/review/16GARTWOT.html 0.978 0.914 SIMILAR<br />
test/nytimes-sgml/167991.sgml test/nytimes-html/politics/16HILL.html 0.848 0.815 SIMILAR<br />
test/nytimes-sgml/165220.sgml test/nytimes-html/nyregion/16REST.html 0.832 0.880 SIMILAR<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011 27
<strong>SAS</strong> <strong>Text</strong> Summarization (IE)<br />
• Vybírá důležité věty z textu<br />
• Důležitost je dána výskytem uživatelem definovaných<br />
konceptů<br />
• Počet vybraných vět je dán uživatelem<br />
• Absolutní číslo nebo procento<br />
• Čím více konceptů ve větě je, tím je důležitější<br />
• Při definici konceptů je možné využít regulární výrazy a<br />
gramatická pravidla, není možné využít lematizátor<br />
• Možnosti shrnutí<br />
• Celý dokument<br />
• Odstavce<br />
• Sekce<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
28
uild,7<br />
house,7<br />
Věty, ve kterých mají rozpoznané<br />
koncepty největší váhu, jsou vloženy<br />
do shrnutí.<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
29
<strong>SAS</strong> Sentiment analysis (IE)<br />
Analýza emočního obsahu dokumentů (např. názorů<br />
zákazníků) založená na detekci výskytů slov<br />
nesoucích kladné, záporné a neutrální emoce<br />
Metody:<br />
• Statistické modely<br />
• Ručně definovaná lingvistická pravidla<br />
• Hybridní<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011 30
<strong>SAS</strong> Sentiment analysis<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011 31
Možnost využití ve výuce<br />
• předměty zaměřené na data <strong>mining</strong> a text <strong>mining</strong><br />
• <strong>SAS</strong> EM-TM<br />
• předměty zaměřené na zpracování přirozeného<br />
jazyka (NLP)<br />
• <strong>SAS</strong> Content Categorization<br />
• <strong>SAS</strong> Sentiment analysis<br />
• <strong>SAS</strong> TM (parsing, filtering)<br />
• předměty zaměřené na vyhledávání informací (IR)<br />
• <strong>SAS</strong> Content Categorization<br />
Berka & Kliegr @ <strong>SAS</strong> Forum 2011<br />
32
Děkuji za pozornost<br />
Petr Berka<br />
berka@vse.cz