15.11.2013 Views

Impacto de los recursos léxicos manuales y automáticos en la WSD

Impacto de los recursos léxicos manuales y automáticos en la WSD

Impacto de los recursos léxicos manuales y automáticos en la WSD

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Impacto</strong> <strong>de</strong> Recursos Léxicos Manuales y Automáticos <strong>en</strong><br />

<strong>la</strong> <strong>WSD</strong><br />

Javier Tejada Cárcamo 1,2 , Hiram Calvo 3,4 , Alexan<strong>de</strong>r Gelbukh 3 , José Villegas 5<br />

1 School of Computer Sci<strong>en</strong>ce, San Pablo Catholic University, Arequipa, Perú<br />

2 Sociedad Peruana <strong>de</strong> Computación, Arequipa, Perú<br />

3 C<strong>en</strong>ter for Computing Research, National Polytechnic Institute, Mexico City, 07738, México<br />

4 Nara Institute of Sci<strong>en</strong>ce and Technology, Takayama, Ikoma, Nara 630-0192, Japan<br />

5 School of System Engineering, San Agustin National University<br />

jawitejada@hotmail.com, hcalvo@cic.ipn.mx, calvo@is.naist.jp<br />

gelbukh@gelbukh.com, josvil@gmail.com<br />

Abstract. Las tareas <strong>de</strong> procesami<strong>en</strong>to automático <strong>de</strong> l<strong>en</strong>guaje natural usan<br />

difer<strong>en</strong>tes tipos <strong>de</strong> <strong>recursos</strong> <strong>léxicos</strong>, que pue<strong>de</strong>n c<strong>la</strong>sificarse <strong>en</strong> <strong>manuales</strong> y<br />

<strong>automáticos</strong>. La comunidad académica ti<strong>en</strong>e <strong>la</strong> cre<strong>en</strong>cia que <strong>los</strong> <strong>recursos</strong><br />

<strong>manuales</strong> proporcionan datos con mayor semántica que <strong>los</strong> <strong>automáticos</strong>. No se<br />

pue<strong>de</strong> adoptar esta cre<strong>en</strong>cia como verda<strong>de</strong>ra o falsa para cada una <strong>de</strong> tales<br />

tareas. Hemos elegido <strong>la</strong> Desambiguación <strong>de</strong> S<strong>en</strong>tidos <strong>de</strong> Pa<strong>la</strong>bras como tarea,<br />

y muy <strong>en</strong> particu<strong>la</strong>r el método propuesto <strong>en</strong> Tejada et al. para su resolución. En<br />

dicho método, primero se obti<strong>en</strong>e automáticam<strong>en</strong>te un conjunto <strong>de</strong> vocab<strong>los</strong><br />

re<strong>la</strong>cionados con el contexto <strong>de</strong>l vocablo ambiguo. Luego, cada uno emite un<br />

voto por un s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> instancia ambigua, <strong>de</strong> tal manera que el s<strong>en</strong>tido con<br />

mayor cantidad <strong>de</strong> votos es el elegido. En este artículo se varía el orig<strong>en</strong> <strong>de</strong> <strong>los</strong><br />

vocab<strong>los</strong> re<strong>la</strong>cionados, usando <strong>recursos</strong> <strong>manuales</strong>, tal como el tesauro <strong>de</strong><br />

Mobby, y <strong>automáticos</strong>, tales como el Tesauro <strong>de</strong> Lin y <strong>los</strong> Mo<strong>de</strong><strong>los</strong> <strong>de</strong> Espacios<br />

<strong>de</strong> Pa<strong>la</strong>bras. De esta manera, int<strong>en</strong>tamos medir el impacto <strong>de</strong> ambos tipos <strong>de</strong><br />

<strong>recursos</strong> <strong>en</strong> <strong>la</strong> Desambiguación <strong>de</strong> S<strong>en</strong>tidos <strong>de</strong> Pa<strong>la</strong>bras.<br />

Abstract. The tasks of automatic Natural Language Processing (NLP) use<br />

differ<strong>en</strong>t types of lexical resources, which can be c<strong>la</strong>ssified into manual and<br />

automatic. The aca<strong>de</strong>mic community has the belief that manual resources<br />

provi<strong>de</strong> data with more semantic than automatic. It is not possible adopt this<br />

belief as true or false for each of the NLP tasks. We have selected the Word<br />

S<strong>en</strong>se Disambiguation (<strong>WSD</strong>) as a task, and particu<strong>la</strong>rly the method proposed<br />

in Tejada et al. for its resolution. In this method, first, we have got a set of<br />

re<strong>la</strong>ted words with the context of the ambiguous word. Th<strong>en</strong> each one casts a<br />

vote for a s<strong>en</strong>se of the ambiguous instance, so that the meaning with the most<br />

votes is elected. This article changes the origin of re<strong>la</strong>ted words, using manual<br />

resources, such as Mobby thesaurus, and automatic, such as the Thesaurus of<br />

Lin and Word Space Mo<strong>de</strong>ls. In this way, we try to measure the impact of both<br />

types of resources in the <strong>WSD</strong>.<br />

Keywords: L<strong>en</strong>guaje natural, <strong>recursos</strong> <strong>léxicos</strong>, tesauro, <strong>de</strong>sambiguación <strong>de</strong><br />

s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras, mo<strong>de</strong>lo <strong>de</strong> espacio <strong>de</strong> pa<strong>la</strong>bras, no supervisados.


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

1 Introducción<br />

La mayoría <strong>de</strong> tareas <strong>de</strong> procesami<strong>en</strong>to <strong>de</strong> l<strong>en</strong>guaje natural usan conjuntos <strong>de</strong><br />

vocab<strong>los</strong> re<strong>la</strong>cionados semánticam<strong>en</strong>te con <strong>la</strong> finalidad <strong>de</strong> solucionar una tarea <strong>en</strong><br />

particu<strong>la</strong>r. Estos vocab<strong>los</strong> pue<strong>de</strong>n ser obt<strong>en</strong>idos <strong>de</strong> <strong>recursos</strong> <strong>manuales</strong> o <strong>automáticos</strong>.<br />

Se ti<strong>en</strong>e <strong>la</strong> cre<strong>en</strong>cia que <strong>los</strong> vocab<strong>los</strong> obt<strong>en</strong>idos manualm<strong>en</strong>te prove<strong>en</strong> mayor calidad<br />

semántica que <strong>los</strong> obt<strong>en</strong>idos <strong>de</strong> <strong>recursos</strong> creados automáticam<strong>en</strong>te. Asimismo, se<br />

pue<strong>de</strong> afirmar que dicho comportami<strong>en</strong>to varía, <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> <strong>la</strong> tarea <strong>de</strong><br />

procesami<strong>en</strong>to <strong>de</strong> l<strong>en</strong>guaje natural e incluso <strong>de</strong>l método usado <strong>en</strong> dicha tarea.<br />

Se ha elegido <strong>la</strong> Desambiguación <strong>de</strong> S<strong>en</strong>tidos <strong>de</strong> Pa<strong>la</strong>bras (<strong>WSD</strong> por sus sig<strong>la</strong>s <strong>en</strong><br />

inglés Word S<strong>en</strong>se Disambiguation) por ser una tarea intermedia que no ti<strong>en</strong>e<br />

aplicabilidad práctica o comercial por sí misma; sin embargo es requerida por otras<br />

áreas <strong>de</strong> L<strong>en</strong>guaje Natural, tales como <strong>la</strong> Recuperación <strong>de</strong> Información, <strong>la</strong> Traducción<br />

Automática, Question-Answering, <strong>en</strong>tre otras.<br />

El método propuesto <strong>en</strong> Tejada et al. para <strong>la</strong> resolución <strong>de</strong> <strong>la</strong> ambigüedad <strong>de</strong><br />

s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras se basa <strong>en</strong> obt<strong>en</strong>er un conjunto <strong>de</strong> pa<strong>la</strong>bras re<strong>la</strong>cionadas<br />

semánticam<strong>en</strong>te con el contexto <strong>de</strong>l vocablo ambiguo. Éstas <strong>de</strong>terminan el s<strong>en</strong>tido <strong>de</strong><br />

<strong>la</strong> instancia ambigua mediante un algoritmo <strong>de</strong> maximización que acumu<strong>la</strong> votos para<br />

cada s<strong>en</strong>tido, <strong>de</strong> tal manera que el s<strong>en</strong>tido con mayor número <strong>de</strong> votos es el elegido.<br />

En este trabajo se explora difer<strong>en</strong>tes <strong>recursos</strong> <strong>de</strong> información como orig<strong>en</strong> <strong>de</strong> <strong>la</strong>s<br />

pa<strong>la</strong>bras re<strong>la</strong>cionadas. Estos se pue<strong>de</strong>n c<strong>la</strong>sificar <strong>en</strong> <strong>manuales</strong> y <strong>automáticos</strong>. En el<br />

primer caso se ha tomado el Tesauro <strong>de</strong> Mobby (construido manualm<strong>en</strong>te), el cual<br />

proporciona un conjunto <strong>de</strong> términos re<strong>la</strong>cionados sin pon<strong>de</strong>ración para un vocablo<br />

específico. En cuanto a <strong>los</strong> <strong>recursos</strong> <strong>automáticos</strong> se ha seleccionado el Tesauro <strong>de</strong> Lin<br />

[12], el cual proporciona términos re<strong>la</strong>cionados con una valor <strong>de</strong> pon<strong>de</strong>ración<br />

respecto a una pa<strong>la</strong>bra específica. Finalm<strong>en</strong>te, también se han usado <strong>los</strong> Mo<strong>de</strong><strong>los</strong> <strong>de</strong><br />

Espacios <strong>de</strong> Pa<strong>la</strong>bras como una alternativa más para <strong>la</strong> g<strong>en</strong>eración <strong>de</strong> términos<br />

re<strong>la</strong>cionados.<br />

Un mo<strong>de</strong>lo <strong>de</strong> espacio <strong>de</strong> pa<strong>la</strong>bras (WSM por sus sig<strong>la</strong>s <strong>en</strong> inglés Word Space<br />

Mo<strong>de</strong>l) es una repres<strong>en</strong>tación espacial <strong>de</strong>l significado <strong>de</strong> pa<strong>la</strong>bras [3]. Su i<strong>de</strong>a<br />

fundam<strong>en</strong>tal radica <strong>en</strong> que <strong>la</strong> similitud semántica pue<strong>de</strong> ser repres<strong>en</strong>tada como<br />

proximidad o lejanía <strong>en</strong> un espacio <strong>de</strong> n dim<strong>en</strong>siones. Cada dim<strong>en</strong>sión repres<strong>en</strong>ta un<br />

vocablo. Las pa<strong>la</strong>bras se van ubicando <strong>en</strong> el espacio multidim<strong>en</strong>sional tomando <strong>en</strong><br />

cu<strong>en</strong>ta su distribución (frecu<strong>en</strong>cia u otras medidas estadísticas) con cada vocablo <strong>de</strong>l<br />

l<strong>en</strong>guaje.<br />

La factibilidad <strong>de</strong> repres<strong>en</strong>tar una pa<strong>la</strong>bra <strong>en</strong> una arquitectura multidim<strong>en</strong>sional<br />

tomando <strong>en</strong> cu<strong>en</strong>ta su distribución <strong>en</strong> el l<strong>en</strong>guaje está muy <strong>de</strong>mostrada [4]. Es<br />

necesario t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que <strong>la</strong> repres<strong>en</strong>tación espacial <strong>de</strong> una pa<strong>la</strong>bra por si sólo no<br />

ti<strong>en</strong>e s<strong>en</strong>tido (ya que sólo sería un punto <strong>en</strong> el espacio multidim<strong>en</strong>sional); sin embargo<br />

si otras pa<strong>la</strong>bras se repres<strong>en</strong>tan <strong>en</strong> este espacio, es posible calcu<strong>la</strong>r similitu<strong>de</strong>s y<br />

lejanías semánticas.<br />

Tradicionalm<strong>en</strong>te, <strong>la</strong> investigación realizada sobre WSM siempre ha estado<br />

<strong>en</strong>focada hacia <strong>la</strong> creación <strong>de</strong> métodos para su construcción automática, así como<br />

difer<strong>en</strong>tes técnicas para <strong>la</strong> explotación <strong>de</strong> <strong>la</strong> información que almac<strong>en</strong>a este recurso.<br />

Algunos trabajos típicos <strong>en</strong> esta área son: LSA (por sus sig<strong>la</strong>s <strong>en</strong> inglés Lat<strong>en</strong>t


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

Semantic Analysis) [7], HAL (por sus sig<strong>la</strong>s <strong>en</strong> inglés Hyperspace Anlogue to<br />

Language) [8], RI (por sus sig<strong>la</strong>s <strong>en</strong> inglés Random In<strong>de</strong>xing) [9], etc.<br />

Actualm<strong>en</strong>te, no se sabe con certeza el tipo <strong>de</strong> información que provee un WSM.<br />

Sólo se sabe que un conjunto <strong>de</strong> vocab<strong>los</strong> próximos ti<strong>en</strong><strong>en</strong> re<strong>la</strong>ción semántica<br />

(sinonimia, antonimia, etc.). Muchas <strong>de</strong> <strong>los</strong> procesos que implem<strong>en</strong>tan tareas <strong>de</strong><br />

procesami<strong>en</strong>to <strong>de</strong> l<strong>en</strong>guaje natural, tales como recuperación <strong>de</strong> información,<br />

<strong>de</strong>sambiguación <strong>de</strong> s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras, traducción automática, etc., requier<strong>en</strong><br />

conjuntos <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados semánticam<strong>en</strong>te, <strong>los</strong> cuales son utilizados por<br />

difer<strong>en</strong>tes tipos <strong>de</strong> algoritmos.<br />

La importancia <strong>de</strong> este grupo <strong>de</strong> vocab<strong>los</strong> <strong>en</strong> <strong>la</strong>s tareas <strong>de</strong> procesami<strong>en</strong>to <strong>de</strong><br />

l<strong>en</strong>guaje natural no está <strong>en</strong> te<strong>la</strong> <strong>de</strong> juicio; sin embargo, se ti<strong>en</strong>e <strong>la</strong> cre<strong>en</strong>cia que un<br />

grupo <strong>de</strong> vocab<strong>los</strong> g<strong>en</strong>erados manualm<strong>en</strong>te (por el ser humano) ti<strong>en</strong>e mejor<br />

<strong>de</strong>sempeño que uno g<strong>en</strong>erado automáticam<strong>en</strong>te (por una computadora). En esta<br />

artículo, se investiga dicha cre<strong>en</strong>cia.<br />

Para ello, se ha p<strong>la</strong>nteado un método ori<strong>en</strong>tado a resolver <strong>la</strong> <strong>de</strong>sambiguación <strong>de</strong><br />

s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras. Este método toma el contexto <strong>de</strong>l vocablo ambiguo para obt<strong>en</strong>er<br />

un conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados semánticam<strong>en</strong>te. Cada miembro <strong>de</strong>l conjunto<br />

emite un voto por cada uno <strong>de</strong> <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong>l vocablo ambiguo, <strong>de</strong> tal forma que el<br />

s<strong>en</strong>tido con mayor número <strong>de</strong> votos es el elegido como el s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> instancia<br />

ambigua. El conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados será proporcionado por difer<strong>en</strong>tes<br />

fu<strong>en</strong>tes <strong>de</strong> información: Un WSM creado automáticam<strong>en</strong>te, el Tesauro <strong>de</strong> Mobby<br />

creado manualm<strong>en</strong>te y el Tesauro <strong>de</strong> Lin creado automáticam<strong>en</strong>te.<br />

El resto <strong>de</strong>l docum<strong>en</strong>to se organiza <strong>de</strong> <strong>la</strong> sigui<strong>en</strong>te manera: En <strong>la</strong> sección 2 se<br />

<strong>de</strong>scribe <strong>la</strong>s tres fu<strong>en</strong>tes <strong>de</strong> información que se han utilizado: WSM, Tesauro <strong>de</strong><br />

Mobby y Tesauro <strong>de</strong> Lin. En <strong>la</strong> sección 3 se <strong>de</strong>scribe el método <strong>de</strong> <strong>de</strong>sambiguación<br />

p<strong>la</strong>nteado. En <strong>la</strong> sección 4 se muestran <strong>los</strong> resultados obt<strong>en</strong>idos. En <strong>la</strong> sección 5 se<br />

pres<strong>en</strong>tan <strong>la</strong>s conclusiones.<br />

2 Oríg<strong>en</strong>es <strong>de</strong> Información<br />

En nuestro trabajo, se <strong>de</strong>nomina orig<strong>en</strong> <strong>de</strong> información a un recurso léxico (creado<br />

manual o automáticam<strong>en</strong>te) que almac<strong>en</strong>a información estructurada o sin estructurar,<br />

<strong>la</strong> que pue<strong>de</strong> ser explotada para obt<strong>en</strong>er un conjunto <strong>de</strong> términos re<strong>la</strong>cionados. En esta<br />

sección se <strong>de</strong>scrib<strong>en</strong> tres oríg<strong>en</strong>es <strong>de</strong> información: WSM, Tesauro <strong>de</strong> Mobby y<br />

Tesauro <strong>de</strong> Lin.<br />

2.1 Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras (WSM)<br />

WSM es una repres<strong>en</strong>tación espacial <strong>de</strong>l significado <strong>de</strong> pa<strong>la</strong>bras. Su i<strong>de</strong>a fundam<strong>en</strong>tal<br />

radica <strong>en</strong> que <strong>la</strong> similitud semántica pue<strong>de</strong> ser repres<strong>en</strong>tada como proximidad o<br />

cercanía <strong>en</strong> un espacio <strong>de</strong> n dim<strong>en</strong>siones, don<strong>de</strong> n pue<strong>de</strong> ser un número <strong>en</strong>tero <strong>en</strong>tre 1<br />

y otro muy gran<strong>de</strong> (ver fig. 1). Al respecto, Schütze afirmó: “La similitud <strong>de</strong> vectores<br />

es <strong>la</strong> única información pres<strong>en</strong>te <strong>en</strong> este mo<strong>de</strong>lo, <strong>de</strong> tal manera que pa<strong>la</strong>bras que se


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

re<strong>la</strong>cionan semánticam<strong>en</strong>te están cerca y aquel<strong>la</strong>s que no se re<strong>la</strong>cionan<br />

semánticam<strong>en</strong>te están lejos”.[19]<br />

Fig. 1. WSM <strong>de</strong> dos dim<strong>en</strong>siones<br />

En <strong>la</strong> fig. 1, cada una <strong>de</strong> sus dim<strong>en</strong>siones repres<strong>en</strong>ta un vocablo: El eje x al vocablo<br />

tambor y el eje y al vocablo arpa. Los <strong>de</strong>más vocab<strong>los</strong> (guitarra, mandolina, timbal,<br />

bombo) se van posicionando <strong>en</strong> el espacio <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> <strong>la</strong> similitud que ti<strong>en</strong><strong>en</strong> con<br />

arpa y tambor. Se pue<strong>de</strong> observar que <strong>la</strong>s pa<strong>la</strong>bras ti<strong>en</strong><strong>de</strong>n a formar grupos<br />

semánticos. Dicha agrupación, <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> <strong>la</strong> distribución que éstas pres<strong>en</strong>tan <strong>en</strong> el<br />

l<strong>en</strong>guaje; por ejemplo <strong>en</strong> un corpus <strong>de</strong> texto <strong>los</strong> vocab<strong>los</strong> que se usan con timbal,<br />

bombo y tambor suel<strong>en</strong> ser <strong>los</strong> mismos.<br />

Es necesario t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que <strong>la</strong> repres<strong>en</strong>tación espacial <strong>de</strong> una pa<strong>la</strong>bra por sí<br />

sólo no ti<strong>en</strong>e s<strong>en</strong>tido (ya que sólo sería un punto <strong>en</strong> el espacio multidim<strong>en</strong>sional); sin<br />

embargo si otras pa<strong>la</strong>bras se repres<strong>en</strong>tan <strong>en</strong> este espacio, es posible calcu<strong>la</strong>r<br />

similitu<strong>de</strong>s y lejanías semánticas.<br />

2.1.1 Procesami<strong>en</strong>to <strong>de</strong>l Corpus<br />

En esta sección se explica el tratami<strong>en</strong>to <strong>de</strong>l corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, el cual varía<br />

<strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l tipo <strong>de</strong> mo<strong>de</strong>lo <strong>de</strong> espacio <strong>de</strong> pa<strong>la</strong>bras que se <strong>de</strong>sea construir. La<br />

difer<strong>en</strong>cia <strong>en</strong>tre WSM sintagmático y paradigmático radica <strong>en</strong> el conjunto <strong>de</strong> términos<br />

re<strong>la</strong>cionados que proporcionan. Si consultáramos a un WSM paradigmático <strong>los</strong><br />

términos más simi<strong>la</strong>res al vocablo universidad, serían aca<strong>de</strong>mia, escue<strong>la</strong>, colegio,<br />

etc., mi<strong>en</strong>tras que un WSM sintagmático hubiera proporcionado vocab<strong>los</strong> como:<br />

privada, nacional, tecnológica, etc.<br />

Dos vocab<strong>los</strong> re<strong>la</strong>cionados paradigmáticam<strong>en</strong>te no co-ocurr<strong>en</strong> <strong>en</strong>tre el<strong>los</strong>; sin<br />

embargo, <strong>los</strong> vocab<strong>los</strong> con <strong>los</strong> que co-ocurr<strong>en</strong> suel<strong>en</strong> ser <strong>los</strong> mismos. Por ejemplo,<br />

adjetivos difer<strong>en</strong>tes que modifican al mismo sustantivo, como bu<strong>en</strong>a noticia y ma<strong>la</strong><br />

noticia, o querido padre y querida madre. De dichas co-ocurr<strong>en</strong>cias se pue<strong>de</strong><br />

<strong>de</strong>terminar que <strong>los</strong> vocab<strong>los</strong> ma<strong>los</strong> y bu<strong>en</strong>os, padre y madre pres<strong>en</strong>tan una re<strong>la</strong>ción<br />

paradigmática o <strong>de</strong> sustitución.<br />

Exist<strong>en</strong> tres parámetros que influy<strong>en</strong> <strong>en</strong> <strong>la</strong> obt<strong>en</strong>ción <strong>de</strong> este tipo <strong>de</strong> re<strong>la</strong>ciones: el<br />

tamaño <strong>de</strong> <strong>la</strong> v<strong>en</strong>tana contextual, <strong>la</strong> posición <strong>de</strong> <strong>la</strong>s pa<strong>la</strong>bras <strong>de</strong>ntro <strong>de</strong> dicha v<strong>en</strong>tana y<br />

<strong>la</strong> dirección <strong>en</strong> <strong>la</strong> que <strong>la</strong> región <strong>de</strong> contexto se exti<strong>en</strong><strong>de</strong> (hacia <strong>de</strong><strong>la</strong>nte o atrás). Para<br />

ilustrar mejor este punto imaginemos dos secu<strong>en</strong>cias <strong>de</strong> pa<strong>la</strong>bras:<br />

b<strong>la</strong> b<strong>la</strong> b<strong>la</strong> blo bli bli bli<br />

b<strong>la</strong> b<strong>la</strong> b<strong>la</strong> ble bli bli bli


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

Es fácil notar que <strong>la</strong>s pa<strong>la</strong>bras blo y ble pres<strong>en</strong>tan una re<strong>la</strong>ción paradigmática ya<br />

que <strong>la</strong>s pa<strong>la</strong>bras anteriores y posteriores <strong>de</strong> ambas son <strong>la</strong>s mismas. En este caso no<br />

importa si tomamos una v<strong>en</strong>tana <strong>de</strong> tamaño 1+1 (un vocablo a <strong>la</strong> izquierda y uno a <strong>la</strong><br />

<strong>de</strong>recha), 2+2 e incluso 3+3, ya que <strong>en</strong> este caso particu<strong>la</strong>r, cada v<strong>en</strong>tana confirma <strong>la</strong><br />

re<strong>la</strong>ción paradigmática <strong>en</strong>tre blo y ble.<br />

Las v<strong>en</strong>tanas contextuales pue<strong>de</strong>n ser estáticas y dinámicas, es <strong>de</strong>cir, con un<br />

número <strong>de</strong> vocab<strong>los</strong> fijos o variables a <strong>la</strong> <strong>de</strong>recha e izquierda <strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra <strong>en</strong><br />

cuestión. Actualm<strong>en</strong>te <strong>los</strong> investigadores prefier<strong>en</strong> v<strong>en</strong>tanas estáticas.<br />

Ahora supongamos el sigui<strong>en</strong>te contexto:<br />

b<strong>la</strong> blo e bli blo: (b<strong>la</strong>) + (0 bli) blo: (1) + (0 1)<br />

b<strong>la</strong> ble h bli ble: (b<strong>la</strong>) + (0 bli) ble: (1) + (0 1)<br />

Quizás cueste un poco más darse cu<strong>en</strong>ta que <strong>la</strong>s pa<strong>la</strong>bras blo y ble pres<strong>en</strong>tan una<br />

re<strong>la</strong>ción paradigmática, ya que <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> <strong>la</strong> <strong>de</strong>recha (e y h) <strong>de</strong> cada una no son<br />

<strong>la</strong>s mismas. Esto se repres<strong>en</strong>ta mediante notación binaria:<br />

blo: (1) + (0 1)<br />

blo: (1) + (0 1)<br />

Exist<strong>en</strong> difer<strong>en</strong>tes maneras <strong>de</strong> asignar peso a <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> una v<strong>en</strong>tana, pero <strong>la</strong>s<br />

más comunes son <strong>la</strong> binaria y <strong>la</strong> asignación <strong>de</strong> mayor peso a aquel<strong>los</strong> que se<br />

<strong>en</strong>cu<strong>en</strong>tran más cercanos a <strong>la</strong> pa<strong>la</strong>bra <strong>en</strong> cuestión.<br />

2.1.2 Construcción <strong>de</strong> <strong>la</strong> Matriz<br />

Ambos tipos <strong>de</strong> WSM son repres<strong>en</strong>tados mediante una matriz, <strong>en</strong> <strong>la</strong> cual una fi<strong>la</strong><br />

repres<strong>en</strong>ta a un vocablo exist<strong>en</strong>te <strong>en</strong> el corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, mi<strong>en</strong>tras que el<br />

número <strong>de</strong> columnas varía <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l tipo <strong>de</strong> WSM que se construye:<br />

─ En el caso <strong>de</strong> <strong>los</strong> paradigmáticos se crea una columna por cada vocablo<br />

exist<strong>en</strong>te <strong>en</strong> el corpus, por <strong>en</strong><strong>de</strong> una matriz paradigmática ti<strong>en</strong>e dim<strong>en</strong>siones<br />

n × n.<br />

─ En el caso <strong>de</strong> <strong>los</strong> sintagmáticos, el corpus <strong>de</strong> texto se divi<strong>de</strong> <strong>en</strong> regiones<br />

contextuales <strong>de</strong>l mismo tamaño (<strong>de</strong> 10 vocab<strong>los</strong> o más gran<strong>de</strong>s, como 150). El<br />

número <strong>de</strong> columnas <strong>de</strong> esta matriz <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> <strong>la</strong> cantidad <strong>de</strong> regiones<br />

contextuales d <strong>en</strong> <strong>la</strong> que se divi<strong>de</strong> el corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, por <strong>en</strong><strong>de</strong> una<br />

matriz sintagmática ti<strong>en</strong><strong>en</strong> dim<strong>en</strong>siones n × d.<br />

Por ejemplo, dada <strong>la</strong> oración: el gato se comió al ratón <strong>en</strong> el tejado. La matriz<br />

paradigmática resultante tomando <strong>en</strong> cu<strong>en</strong>ta dicha frase y a<strong>de</strong>más, una v<strong>en</strong>tana<br />

contextual <strong>de</strong> un solo vocablo a <strong>la</strong> izquierda y otro a <strong>la</strong> <strong>de</strong>recha se pue<strong>de</strong> apreciar <strong>en</strong> <strong>la</strong><br />

Tab<strong>la</strong> 1.


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

Tab<strong>la</strong> 1. Matriz paradigmática<br />

Vocablo gato Comer ratón tejado<br />

Gato 0 1 0 0<br />

Comer 0 0 1 0<br />

Ratón 0 0 0 1<br />

Tejado 0 0 0 0<br />

El valor que se establece <strong>en</strong> <strong>la</strong>s celdas <strong>de</strong> <strong>la</strong> matriz es un peso <strong>de</strong> pon<strong>de</strong>ración, que<br />

se asigna tomando <strong>en</strong> cu<strong>en</strong>ta difer<strong>en</strong>tes esquemas estadísticos. En el ejemplo se usa<br />

un esquema binario, don<strong>de</strong> 1 significa que existe una co-ocurr<strong>en</strong>cia <strong>en</strong>tre <strong>la</strong> fi<strong>la</strong> i y <strong>la</strong><br />

columna j y 0 que dicha co-ocurr<strong>en</strong>cia no existe.<br />

En el método propuesto, sólo se toman <strong>en</strong> cu<strong>en</strong>ta vocab<strong>los</strong> <strong>de</strong> cont<strong>en</strong>ido (cont<strong>en</strong>t<br />

words <strong>en</strong> inglés), tales como sustantivos, adjetivos y verbos, <strong>de</strong>sechando <strong>la</strong>s pa<strong>la</strong>bras<br />

<strong>de</strong> parada (stop words), lo cual permite reducir <strong>la</strong>s dim<strong>en</strong>siones <strong>de</strong> <strong>la</strong> matriz.<br />

Asimismo, se usan <strong>los</strong> lemas <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> seleccionados.<br />

2.1.3 Esquema <strong>de</strong> Pon<strong>de</strong>ración<br />

El esquema <strong>de</strong> pon<strong>de</strong>ración hace refer<strong>en</strong>cia a un valor que <strong>de</strong>nota <strong>la</strong> afinidad o<br />

re<strong>la</strong>ción semántica <strong>en</strong>tre <strong>la</strong> fi<strong>la</strong> i y <strong>la</strong> columna j. En nuestro método este valor<br />

inicialm<strong>en</strong>te es <strong>la</strong> frecu<strong>en</strong>cia <strong>de</strong> corre<strong>la</strong>ción <strong>en</strong>tre dos vocab<strong>los</strong> <strong>en</strong> el corpus (<strong>en</strong> el<br />

caso <strong>de</strong> <strong>los</strong> paradigmáticos) o <strong>la</strong> cantidad <strong>de</strong> veces que suce<strong>de</strong> un vocablo <strong>en</strong> una<br />

región contextual (<strong>en</strong> el caso <strong>de</strong> <strong>los</strong> sintagmáticos).<br />

En este método se utiliza otro tipo <strong>de</strong> pon<strong>de</strong>ración, conocido como el esquema TF-<br />

IDF (por sus sig<strong>la</strong>s <strong>en</strong> inglés Term Frecu<strong>en</strong>cy - Inverse Docum<strong>en</strong>t Frecu<strong>en</strong>cy), el cual<br />

g<strong>en</strong>eralm<strong>en</strong>te se aplica a tareas <strong>de</strong> c<strong>la</strong>sificación y similitud <strong>de</strong> docum<strong>en</strong>tos [10]. En<br />

este esquema, cada docum<strong>en</strong>to es repres<strong>en</strong>tado por un vector cuyo número <strong>de</strong><br />

dim<strong>en</strong>siones correspon<strong>de</strong> a <strong>la</strong> cantidad <strong>de</strong> vocab<strong>los</strong> que exist<strong>en</strong> <strong>en</strong> él.<br />

En nuestro método, el valor <strong>en</strong> cada celda <strong>de</strong> <strong>la</strong> matriz está <strong>de</strong>terminado por un<br />

peso w (ver ecuación 3), el cual se calcu<strong>la</strong> como el producto <strong>de</strong>l TF (ver ecuación 1) e<br />

IDF (ver ecuación 2). El peso w (i,j) <strong>de</strong>termina el grado <strong>de</strong> re<strong>la</strong>ción semántica <strong>en</strong>tre el<br />

vocablo i (<strong>la</strong> fi<strong>la</strong>) y pa<strong>la</strong>bra j o sección j (<strong>la</strong> columna). El TF muestra <strong>la</strong> importancia<br />

<strong>de</strong> un vocablo respecto a <strong>la</strong> pa<strong>la</strong>bra que modifica o a <strong>la</strong> sección <strong>en</strong> <strong>la</strong> que se <strong>en</strong>cu<strong>en</strong>tra.<br />

Por <strong>la</strong> tanto, el peso <strong>de</strong> <strong>la</strong> re<strong>la</strong>ción aum<strong>en</strong>ta si el vocablo aparece más a m<strong>en</strong>udo<br />

con dicha pa<strong>la</strong>bra o sección. El IDF <strong>de</strong>nota <strong>la</strong> importancia <strong>de</strong> un vocablo respecto al<br />

resto <strong>de</strong> pa<strong>la</strong>bras <strong>de</strong>l corpus, <strong>de</strong> tal manera que su peso disminuye si aparece más a<br />

m<strong>en</strong>udo con <strong>los</strong> <strong>de</strong>más vocab<strong>los</strong> o secciones <strong>de</strong>l corpus, y aum<strong>en</strong>ta cuando aparece<br />

con <strong>la</strong> m<strong>en</strong>or cantidad <strong>de</strong> estos, ya que <strong>los</strong> vocab<strong>los</strong> o secciones muy frecu<strong>en</strong>tes<br />

discriminan poco a <strong>la</strong> hora <strong>de</strong> repres<strong>en</strong>tar al vocablo mediante un vector.<br />

freq<br />

i,j<br />

fi,j<br />

. (1)<br />

max freq l,j


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

N<br />

(2)<br />

idfi<br />

log<br />

ni<br />

.<br />

(3)<br />

wi<br />

fi<br />

, j<br />

idfi<br />

.<br />

En <strong>la</strong>s ecuaciones anteriores, i repres<strong>en</strong>ta a <strong>la</strong> i-ésima fi<strong>la</strong> (vocab<strong>los</strong>) y j (pue<strong>de</strong> ser<br />

vocab<strong>los</strong> o secciones) repres<strong>en</strong>ta a <strong>la</strong>s j-ésima columna <strong>de</strong> nuestra matriz. La freqi,j es<br />

<strong>la</strong> frecu<strong>en</strong>cia <strong>en</strong>tre i y j, max freql,j es <strong>la</strong> más alta <strong>de</strong> cualquier vocablo i <strong>en</strong> una<br />

sección o vocablo j. N es el número <strong>de</strong> vocab<strong>los</strong> <strong>de</strong>l corpus tomados <strong>en</strong> cu<strong>en</strong>ta <strong>en</strong> <strong>la</strong><br />

construcción <strong>de</strong> <strong>la</strong> matriz, ni es el número <strong>de</strong> vocab<strong>los</strong> con <strong>los</strong> que ocurre j, y wi es el<br />

peso final. El peso w que se calcu<strong>la</strong> para todas <strong>la</strong>s dim<strong>en</strong>siones <strong>de</strong> un vocablo i,<br />

forman un vector que se almac<strong>en</strong>a <strong>en</strong> el WSM (ver ecuación 4).<br />

<br />

V<br />

( vocablo<br />

i)<br />

{( dim1 , w1<br />

),....,( dimn<br />

n<br />

, w )}<br />

.<br />

V (vocablo i ) es el vector que repres<strong>en</strong>ta al vocablo i con respecto a <strong>la</strong> totalidad <strong>de</strong><br />

vocab<strong>los</strong> o secciones <strong>de</strong>l corpus, dim n cada una <strong>de</strong> <strong>la</strong>s dim<strong>en</strong>siones <strong>de</strong>l WSM (el<br />

número <strong>de</strong> dim<strong>en</strong>siones es el número <strong>de</strong> vocab<strong>los</strong> o secciones <strong>de</strong>l corpus <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to) y w n es el peso asignado a dim n . Muchos pesos son 0 (cero), lo que<br />

<strong>de</strong>nota <strong>la</strong> inexist<strong>en</strong>cia <strong>de</strong> una corre<strong>la</strong>ción <strong>en</strong>tre el vocablo i y el vocablo o sección j.<br />

Realm<strong>en</strong>te <strong>la</strong> cantidad <strong>de</strong> ceros <strong>en</strong> el sistema es elevada (data spars<strong>en</strong>ess), lo que<br />

confirma <strong>la</strong> Ley <strong>de</strong> Zipf [11], que indica que sólo unas pocas pa<strong>la</strong>bras <strong>en</strong> el l<strong>en</strong>guaje<br />

(non cont<strong>en</strong>t words) se comportan promiscuam<strong>en</strong>te, es <strong>de</strong>cir se re<strong>la</strong>cionan con<br />

muchas pa<strong>la</strong>bras.<br />

Tomando <strong>en</strong> cu<strong>en</strong>ta el ejemplo anterior, se pue<strong>de</strong> <strong>de</strong>terminar <strong>la</strong> lista <strong>de</strong> coocurr<strong>en</strong>cias<br />

<strong>de</strong> un vocablo; por ejemplo, <strong>en</strong> <strong>la</strong> oración mostrada <strong>en</strong> <strong>la</strong> Tab<strong>la</strong> 1, el<br />

vocablo comer, está repres<strong>en</strong>tado por <strong>la</strong> tup<strong>la</strong> (1,0,1), <strong>la</strong> cual se convierte <strong>en</strong> un vector<br />

V ( x1,<br />

x2,<br />

x3)<br />

don<strong>de</strong> el número <strong>de</strong> dim<strong>en</strong>siones es el número <strong>de</strong> vocab<strong>los</strong> <strong>en</strong> el<br />

sistema (<strong>en</strong> nuestro ejemplo son tres), y <strong>los</strong> valores (1,0,1) son <strong>la</strong>s coor<strong>de</strong>nadas <strong>de</strong><br />

posicionami<strong>en</strong>to <strong>en</strong> el espacio vectorial. Repres<strong>en</strong>tando vectorialm<strong>en</strong>te <strong>la</strong>s<br />

propieda<strong>de</strong>s <strong>de</strong> distribución <strong>de</strong> una pa<strong>la</strong>bra po<strong>de</strong>mos pasar a una repres<strong>en</strong>tación<br />

geométrica <strong>de</strong> dicho vocablo.<br />

(4)<br />

2.2 Tesauro <strong>de</strong> Mobby<br />

El tesauro <strong>de</strong> Mobby está consi<strong>de</strong>rado como una <strong>de</strong> <strong>la</strong>s fu<strong>en</strong>tes <strong>de</strong> información más<br />

gran<strong>de</strong>s y coher<strong>en</strong>tes que exist<strong>en</strong> para el idioma inglés. Este tesauro es manual, es<br />

<strong>de</strong>cir, creado por el ser humano. La segunda edición <strong>de</strong> dicho tesauro ha mejorado<br />

mucho con respecto a <strong>la</strong> primera, añadi<strong>en</strong>do mas <strong>de</strong> 5000 pa<strong>la</strong>bras principales, que <strong>en</strong><br />

su totalidad superan <strong>los</strong> 30000 vocab<strong>los</strong>.<br />

Asimismo, se le añadió también más <strong>de</strong> un millón <strong>de</strong> sinónimos y términos<br />

re<strong>la</strong>cionados, que <strong>en</strong> su totalidad superan <strong>los</strong> 2.5 millones <strong>de</strong> sinónimos y términos<br />

re<strong>la</strong>cionados. La fig. 2 muestra parte <strong>de</strong> una <strong>en</strong>trada <strong>de</strong>l tesauro.


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

<strong>de</strong>mon: baba yaga, lilith, mafioso, satan, young turk, addict, afreet, ape-man, atua,<br />

barghest, beast, beldam, berserk, berserker, bomber, brute,bug,<br />

caco<strong>de</strong>mon, collector, daemon, daeva, damned spirits, <strong>de</strong>monkind,<br />

<strong>de</strong>mons, <strong>de</strong>niz<strong>en</strong>s of hell, <strong>de</strong>vil, <strong>de</strong>vil incarnate, dragon, dybbuk, eager<br />

beaver, <strong>en</strong>ergum<strong>en</strong>, <strong>en</strong>thusiast, evil g<strong>en</strong>ius, evil spirit, evil spirits, faddist,<br />

Fig. 2. Vocablo “<strong>de</strong>mon” <strong>en</strong> el tesauro <strong>de</strong> Mobby<br />

2.3 Tesauro <strong>de</strong> Lin<br />

Este tesauro, creado automáticam<strong>en</strong>te, fue uno <strong>de</strong> <strong>los</strong> primeros <strong>recursos</strong> <strong>léxicos</strong> que se<br />

construyó usando una técnica <strong>de</strong> l<strong>en</strong>guaje natural, conocida como Bootstrapping<br />

semantics [12]. Para ello, primero se <strong>de</strong>fine una medida <strong>de</strong> similitud que se basa <strong>en</strong><br />

<strong>los</strong> patrones <strong>de</strong> distribución <strong>de</strong> <strong>la</strong>s pa<strong>la</strong>bras. Esta medida permite construir un tesauro<br />

usando un corpus parseado, el cual consta <strong>de</strong> 64 millones <strong>de</strong> pa<strong>la</strong>bras, <strong>la</strong>s cuales<br />

fueron tomadas <strong>de</strong> diversos corpus tales como el Wall Street Journal (24 millones <strong>de</strong><br />

pa<strong>la</strong>bras), San Jose Mercury (21 millones <strong>de</strong> pa<strong>la</strong>bras) y AP Newswire (19 millones<br />

<strong>de</strong> pa<strong>la</strong>bras). Una vez que el corpus fue parseado se extrajo 56.5 millones <strong>de</strong> tripletas<br />

<strong>de</strong> <strong>de</strong>p<strong>en</strong><strong>de</strong>ncia (<strong>de</strong> <strong>la</strong>s cuales 8.7 millones fueron únicas). En el corpus parseado hubo<br />

5469 sustantivos, 2173 verbos, y 2632 adjetivos/adverbios que ocurrieron al m<strong>en</strong>os<br />

100 veces.<br />

Finalm<strong>en</strong>te, se computó <strong>la</strong> similitud semántica <strong>de</strong> cada par <strong>de</strong> vocab<strong>los</strong> <strong>en</strong>tre<br />

sustantivos, verbos, adjetivos y adverbios. Para cada una <strong>de</strong> estas pa<strong>la</strong>bras se creó una<br />

<strong>en</strong>trada <strong>en</strong> el tesauro, que conti<strong>en</strong>e una lista pon<strong>de</strong>rada <strong>de</strong> términos simi<strong>la</strong>res.<br />

3 Método <strong>de</strong> Desambiguación<br />

McCarthy et al. [2] propuso un algoritmo no supervisado para <strong>en</strong>contrar el s<strong>en</strong>tido<br />

predominante <strong>de</strong> una pa<strong>la</strong>bra, sin tomar <strong>en</strong> cu<strong>en</strong>ta <strong>la</strong> frecu<strong>en</strong>cia <strong>de</strong><br />

WordNet/SemCor. Se basa <strong>en</strong> el tesauro <strong>de</strong> Lin [13] para <strong>de</strong>terminar <strong>la</strong> similitud <strong>en</strong>tre<br />

pa<strong>la</strong>bras. Para una instancia ambigua w se consi<strong>de</strong>ra todas <strong>la</strong>s pa<strong>la</strong>bras u re<strong>la</strong>cionadas<br />

a w <strong>en</strong> el tesauro <strong>de</strong> Lin. Usando un algoritmo <strong>de</strong> maximización cada vocablo u emite<br />

un voto por un s<strong>en</strong>tido ws i <strong>de</strong> w, <strong>de</strong> tal manera que el s<strong>en</strong>tido con mayor cantidad <strong>de</strong><br />

votos es el elegido como el s<strong>en</strong>tido predominante <strong>de</strong> w y, <strong>en</strong> particu<strong>la</strong>r, esta heurística<br />

se pue<strong>de</strong> utilizar <strong>en</strong> <strong>WSD</strong>.<br />

Este método <strong>de</strong> <strong>de</strong>sambiguación no utiliza el contexto <strong>de</strong>l vocablo ambiguo para<br />

obt<strong>en</strong>er un conjunto <strong>de</strong> términos re<strong>la</strong>cionados, por <strong>en</strong><strong>de</strong> siempre se le asignará el<br />

mismo s<strong>en</strong>tido a una instancia ambigua. El s<strong>en</strong>tido elegido como predominante para<br />

una pa<strong>la</strong>bra <strong>de</strong>p<strong>en</strong><strong>de</strong> únicam<strong>en</strong>te <strong>de</strong> <strong>los</strong> corpus utilizados para construir el tesauro.<br />

En el método <strong>de</strong> <strong>de</strong>sambiguación p<strong>la</strong>nteado <strong>en</strong> Tejada et al. [1], un WSM<br />

previam<strong>en</strong>te construido proporciona una lista <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados con el<br />

contexto <strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra ambigua. Al igual que McCarthy et. al. cada uno vota por un<br />

s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra ambigua (mediante su algoritmo <strong>de</strong> maximización); pero <strong>en</strong> este<br />

caso se elige el s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> instancia ambigua <strong>en</strong> un contexto específico (ver fig. 3).


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

vocablo ambiguo w<br />

pa<strong>la</strong>bra<br />

contextual c1<br />

w s<strong>en</strong>tidos<br />

pa<strong>la</strong>bra<br />

contextual c2<br />

pa<strong>la</strong>bra<br />

contextual c3<br />

...<br />

w<br />

c 1<br />

c 2<br />

c 3<br />

WSM -<br />

r 1<br />

r 2<br />

r 3<br />

r 4<br />

r 5<br />

r 6<br />

r 7<br />

r 8<br />

r 9<br />

términos más simi<strong>la</strong>res al vector <br />

usando como medida el cos<strong>en</strong>o <strong>de</strong> dos vectores<br />

Fig. 3. Método <strong>de</strong> <strong>de</strong>sambiguación p<strong>la</strong>nteado<br />

3.1 Algoritmo <strong>de</strong> maximización<br />

Este algoritmo permite que cada vocablo pon<strong>de</strong>rado emita un voto para cada s<strong>en</strong>tido<br />

<strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra polisémica. El s<strong>en</strong>tido con el puntaje más alto es seleccionado. Las<br />

ecuaciones sigui<strong>en</strong>tes muestran cómo <strong>la</strong> lista <strong>de</strong> vocab<strong>los</strong> pon<strong>de</strong>rados acumu<strong>la</strong> una<br />

puntuación para un s<strong>en</strong>tido.<br />

(5)<br />

(6)<br />

(7)<br />

En estas ecuaciones, w es <strong>la</strong> pa<strong>la</strong>bra ambigua, w si es cada uno <strong>de</strong> <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> w,<br />

LT w es <strong>la</strong> lista pon<strong>de</strong>rada <strong>de</strong> <strong>los</strong> términos y t j es cada término. P(w, t j ) repres<strong>en</strong>ta <strong>la</strong><br />

similitud semántica <strong>en</strong>tre w y t j . Este valor se ha calcu<strong>la</strong>do <strong>en</strong> el WSM. P Norm<br />

repres<strong>en</strong>ta cómo vamos a normalizar el peso <strong>de</strong> w si utilizando todos <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> w<br />

y el t j actual.<br />

La función pswn <strong>de</strong>vuelve el s<strong>en</strong>tido <strong>de</strong> una pa<strong>la</strong>bra que ti<strong>en</strong>e <strong>la</strong> mayor similitud<br />

semántica con un s<strong>en</strong>tido particu<strong>la</strong>r. Por ejemplo, pswn (w si , t j ) compara todos <strong>los</strong><br />

s<strong>en</strong>tidos <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> re<strong>la</strong>cionados t j con w si y obti<strong>en</strong>e el s<strong>en</strong>tido <strong>de</strong> t j que ti<strong>en</strong>e


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

más similitud semántica con respecto a w si . La fig. 4 muestra el algoritmo <strong>de</strong><br />

maximización.<br />

Fig. 4. Algoritmo <strong>de</strong> maximización<br />

Nosotros usamos WordNet::Simi<strong>la</strong>rity pres<strong>en</strong>tado <strong>en</strong> [14] para medir <strong>la</strong> similitud<br />

semántica <strong>en</strong>tre dos s<strong>en</strong>tidos. Se trata <strong>de</strong> un conjunto <strong>de</strong> librerías que implem<strong>en</strong>tan<br />

medidas <strong>de</strong> similitud y re<strong>la</strong>ción semántica <strong>de</strong> WordNet. Hemos estado utilizando el<br />

Adapted Lesk (Ext<strong>en</strong><strong>de</strong>d G<strong>los</strong>s Over<strong>la</strong>p) como medida <strong>de</strong> similitud [15], Pero es<br />

posible utilizar otras medidas semánticas como: JCN [17] Resnik [18], Lin [19], etc.<br />

3.2 Recuperación <strong>de</strong> Términos Re<strong>la</strong>cionados<br />

En esta etapa se obti<strong>en</strong>e un conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados con <strong>la</strong> instancia<br />

ambigua. Este proceso <strong>de</strong> selección toma <strong>en</strong> cu<strong>en</strong>ta el contexto <strong>de</strong>l vocablo ambiguo.<br />

A continuación se <strong>de</strong>scribe dicho proceso <strong>en</strong> cada uno <strong>de</strong> <strong>los</strong> oríg<strong>en</strong>es <strong>de</strong> información<br />

<strong>de</strong>scritos <strong>en</strong> <strong>la</strong> sección 2.<br />

3.2.1 Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras<br />

El WSM almac<strong>en</strong>a vectores <strong>de</strong> dim<strong>en</strong>sionalidad n. Para <strong>de</strong>terminar <strong>los</strong> vocab<strong>los</strong><br />

re<strong>la</strong>cionados con <strong>la</strong> instancia ambigua, se crea un vector <strong>en</strong> el que se repres<strong>en</strong>te su<br />

contexto y se le compara con <strong>los</strong> exist<strong>en</strong>tes <strong>en</strong> el WSM. Los vectores más simi<strong>la</strong>res<br />

<strong>de</strong>terminan <strong>los</strong> vocab<strong>los</strong> re<strong>la</strong>cionados. La dim<strong>en</strong>sionalidad <strong>de</strong>l vector ambiguo es n y<br />

el peso <strong>de</strong> pon<strong>de</strong>ración <strong>en</strong> cada dim<strong>en</strong>sión, <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto.<br />

En <strong>la</strong> Tab<strong>la</strong> 2, se muestran <strong>los</strong> vectores <strong>de</strong> un WSM. Las columnas d i son <strong>la</strong>s<br />

dim<strong>en</strong>siones <strong>de</strong> <strong>los</strong> vectores, y <strong>la</strong>s fi<strong>la</strong>s son <strong>los</strong> vocab<strong>los</strong> <strong>de</strong>l sistema. w es el vocablo<br />

ambiguo y su vector indica que <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto son d 2 y d 4 . La columna<br />

similitud, or<strong>de</strong>nada <strong>de</strong>sc<strong>en</strong><strong>de</strong>ntem<strong>en</strong>te, indica que el vocablo r 1 es más simi<strong>la</strong>r<br />

a w, que el vocablo r n .


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

Table 2. Vectores <strong>en</strong> un WSM<br />

d 1 d 2 d 3 d 4 d 5 d 6 … d n Similitud<br />

w 0 1 0 1 0 0 … 0<br />

r 1 1 2 6 5 2 2 … 0 0.99<br />

r 2 0 5 4 0 1 1 … 3 0.92<br />

r 3 4 4 3 3 1 1 … 0 0.83<br />

…<br />

…<br />

r n 0 4 0 5 2 2 … 4 0.68<br />

…<br />

Exist<strong>en</strong> varias maneras <strong>de</strong> computar <strong>la</strong> similitud <strong>de</strong> dos vectores y <strong>en</strong> nuestro<br />

método se <strong>de</strong>termina mediante el valor <strong>de</strong>l cos<strong>en</strong>o <strong>de</strong>l ángulo que forman expresado<br />

por el coci<strong>en</strong>te <strong>en</strong>tre el producto punto y el producto cruz (ver ecuación 8).<br />

…<br />

(8)<br />

.<br />

3.2.2 Tesauro <strong>de</strong> Mobby<br />

Una <strong>en</strong>trada o vocablo <strong>en</strong> el tesauro <strong>de</strong> Mobby es un conjunto <strong>de</strong> pa<strong>la</strong>bras listadas<br />

alfabéticam<strong>en</strong>te, que carec<strong>en</strong> <strong>de</strong> algún valor o peso <strong>de</strong> pon<strong>de</strong>ración que <strong>de</strong>termine el<br />

grado <strong>de</strong> similitud o re<strong>la</strong>ción semántica con dicha <strong>en</strong>trada. (ver sección 2.2). Para<br />

ello, se ha creado un método que tome <strong>en</strong> cu<strong>en</strong>ta el contexto <strong>en</strong> <strong>la</strong> selección <strong>de</strong><br />

términos re<strong>la</strong>cionados proporcionados por dicho tesauro, el cual se <strong>de</strong>tal<strong>la</strong> a<br />

continuación:<br />

1. Obt<strong>en</strong>er el contexto <strong>de</strong>l vocablo ambiguo repres<strong>en</strong>tado <strong>en</strong>: C(w) ={c 1 , c 2 ,…, c i },<br />

don<strong>de</strong> w es <strong>la</strong> instancia ambigua y c i es cada uno <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto.<br />

2. Obt<strong>en</strong>er el conjunto <strong>de</strong> pa<strong>la</strong>bras listadas alfabéticam<strong>en</strong>te para el vocablo<br />

ambiguo, que proporciona este tesauro, repres<strong>en</strong>tado <strong>en</strong>: S(w) ={sw 1 , sw 2 ,…,<br />

sw i }, don<strong>de</strong> w es el vocablo ambiguo y sw i , cada una <strong>de</strong> <strong>la</strong>s pa<strong>la</strong>bras que<br />

proporciona el tesauro.<br />

3. Discriminar <strong>los</strong> vocab<strong>los</strong> obt<strong>en</strong>idos <strong>en</strong> S(w) tomando <strong>en</strong> cu<strong>en</strong>ta C(w). Para ello,<br />

se construye un WSM (ver Tab<strong>la</strong> 3) don<strong>de</strong> cada columna es una pa<strong>la</strong>bra <strong>de</strong> C(w)<br />

y cada fi<strong>la</strong>, un miembro <strong>de</strong> S(w). Se incluye el vocablo ambiguo w como una fi<strong>la</strong><br />

más.<br />

Tab<strong>la</strong> 3. WSM usando tesauro <strong>de</strong> Mobby<br />

c 1 c 2 c 3 c i<br />

sw 1 (c 1, sw 1 ) (c 2, sw 1 ) (c 3, sw 1 ) (c i, sw 1 )


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

sw 2 (c 1, sw 2 ) (c 2, sw 2 ) (c 3, sw 2 ) (c i, sw 2 )<br />

sw 3 (c 1, sw 3 ) (c 2, sw 3 ) (c 3, sw 3 ) (c i, sw 3 )<br />

sw j (c 1, sw j ) (c 2, sw j ) (c 3, sw j ) (c i, sw j )<br />

w (c 1, w) (c 2, w) (c 3, w) (c i, w)<br />

Cada par or<strong>de</strong>nado repres<strong>en</strong>ta <strong>la</strong> máxima similitud semántica <strong>en</strong>tre c i y sw i o <strong>en</strong><br />

su caso, w. Este valor se computa comparando todos <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> c i con <strong>los</strong> <strong>de</strong><br />

sw i (ver figura 5) y se elige el más alto. La comparación <strong>de</strong> dos s<strong>en</strong>tidos se<br />

realiza mediante el paquete WordNet::Simi<strong>la</strong>rity usando <strong>la</strong> medida <strong>de</strong> similitud<br />

semántica ext<strong>en</strong><strong>de</strong>d g<strong>los</strong>s over<strong>la</strong>p (una adaptación <strong>de</strong> algoritmo <strong>de</strong> Lesk) [15]<br />

Fig. 5. Comparación <strong>de</strong> <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> dos vocab<strong>los</strong>.<br />

4. Finalm<strong>en</strong>te, se compara el vector <strong>de</strong> w, con cada uno <strong>de</strong> <strong>los</strong> vectores <strong>de</strong> sw i<br />

usando el cos<strong>en</strong>o <strong>de</strong> dos vectores obt<strong>en</strong>i<strong>en</strong>do <strong>de</strong> esta manera <strong>los</strong> vocab<strong>los</strong> más<br />

re<strong>la</strong>cionados.<br />

3.2.3 Tesauro <strong>de</strong> Lin<br />

A difer<strong>en</strong>cia <strong>de</strong>l tesauro <strong>de</strong> Mobby, el tesauro <strong>de</strong> Lin proporciona un valor que<br />

cuantifica <strong>la</strong> similitud semántica para cada pa<strong>la</strong>bra correspondi<strong>en</strong>te a una <strong>en</strong>trada.<br />

Este valor hace refer<strong>en</strong>cia a <strong>la</strong>s pa<strong>la</strong>bras que usualm<strong>en</strong>te se usan juntas. Por ejemplo,<br />

<strong>en</strong> <strong>la</strong> oración Las estrel<strong>la</strong>s <strong>de</strong>l firmam<strong>en</strong>to luc<strong>en</strong> más hermosas que nunca, al<br />

consultar este tesauro por <strong>la</strong>s pa<strong>la</strong>bras más re<strong>la</strong>cionadas con estrel<strong>la</strong>, obt<strong>en</strong>dríamos<br />

cantante, música, g<strong>la</strong>mour, mi<strong>en</strong>tras <strong>la</strong>s m<strong>en</strong>os re<strong>la</strong>cionadas serían p<strong>la</strong>neta, astro,<br />

universo.<br />

En el contexto <strong>en</strong> el que aparece firmam<strong>en</strong>to, <strong>los</strong> vocab<strong>los</strong> p<strong>la</strong>neta, astro, universo<br />

ti<strong>en</strong><strong>en</strong> mayor re<strong>la</strong>ción que cantante, música, g<strong>la</strong>mour. Por esto se pres<strong>en</strong>ta un método<br />

que usando este tesauro, obt<strong>en</strong>ga <strong>los</strong> vocab<strong>los</strong> más re<strong>la</strong>cionados a una instancia<br />

ambigua tomando <strong>en</strong> cu<strong>en</strong>ta su contexto. Dicho método se <strong>de</strong>tal<strong>la</strong> a continuación:<br />

1. Obt<strong>en</strong>er el contexto <strong>de</strong>l vocablo ambiguo repres<strong>en</strong>tado <strong>en</strong>: C(w) ={c 1 , c 2 ,…, c i },<br />

don<strong>de</strong> w es <strong>la</strong> instancia ambigua y c i es cada uno <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto.<br />

2. Obt<strong>en</strong>er el conjunto <strong>de</strong> pa<strong>la</strong>bras re<strong>la</strong>cionadas que proporciona este tesauro para <strong>la</strong><br />

instancia ambigua, repres<strong>en</strong>tado <strong>en</strong>: S(w) ={(sw 1, p 1 ), (sw 2, p 2 ),…, (sw i, p i )}, don<strong>de</strong>


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

w es el vocablo ambiguo, sw i cada vocablo simi<strong>la</strong>r que proporciona el tesauro <strong>de</strong><br />

Lin y p i es el peso que se le asigna a <strong>la</strong> re<strong>la</strong>ción semántica <strong>en</strong>tre sw i y w.<br />

3. Discriminar <strong>los</strong> vocab<strong>los</strong> obt<strong>en</strong>idos <strong>en</strong> S(w) tomando <strong>en</strong> cu<strong>en</strong>ta C(w). Las<br />

columnas repres<strong>en</strong>tan cada uno <strong>de</strong> <strong>los</strong> miembros <strong>de</strong>l contexto y <strong>la</strong>s fi<strong>la</strong>s <strong>los</strong><br />

vocab<strong>los</strong> simi<strong>la</strong>res. Asimismo, se incluye w como una fi<strong>la</strong> más <strong>de</strong>l WSM (ver<br />

Tab<strong>la</strong> 4), asignando <strong>la</strong> máxima similitud semántica <strong>en</strong>tre w y cada uno <strong>de</strong> <strong>los</strong><br />

miembros <strong>de</strong> su contexto. El peso que cuantifica <strong>la</strong> re<strong>la</strong>ción semántica <strong>en</strong>tre c i y<br />

sw i es el proporcionado por este tesauro.<br />

Tab<strong>la</strong> 4. WSM usando tesauro <strong>de</strong> Lin<br />

c 1 c 2 c 3 c i<br />

sw 1 (c 1, sw 1 ) (c 2, sw 1 ) (c 3, sw 1 ) (c i, sw 1 )<br />

sw 2 (c 1, sw 2 ) (c 2, sw 2 ) (c 3, sw 2 ) (c i, sw 2 )<br />

sw 3 (c 1, sw 3 ) (c 2, sw 3 ) (c 3, sw 3 ) (c i, sw 3 )<br />

sw j (c 1, sw j ) (c 2, sw j ) (c 3, sw j ) (c i, sw j )<br />

w (c 1, w) (c 2, w) (c 3, w) (c i, w)<br />

4. Finalm<strong>en</strong>te, se compara el vector <strong>de</strong> w, con cada uno <strong>de</strong> <strong>los</strong> vectores <strong>de</strong> sw i<br />

usando el cos<strong>en</strong>o <strong>de</strong> dos vectores obt<strong>en</strong>i<strong>en</strong>do <strong>de</strong> esta manera <strong>los</strong> vocab<strong>los</strong> más<br />

re<strong>la</strong>cionados.<br />

4 Experim<strong>en</strong>tos y Resultados<br />

El método <strong>de</strong> <strong>de</strong>sambiguación utilizado ya ha sido publicado <strong>en</strong> uno <strong>de</strong> nuestros<br />

artícu<strong>los</strong> anteriores [1]. Éste método superó <strong>los</strong> resultados obt<strong>en</strong>idos por el mejor<br />

método <strong>de</strong>sambiguación exist<strong>en</strong>te hasta el mom<strong>en</strong>to que fue publicado por Diana Mc.<br />

Carthy et. al. [2]. Dichos resultados se muestran <strong>en</strong> <strong>la</strong> Tab<strong>la</strong> 5.<br />

Tab<strong>la</strong> 5. Resultados <strong>de</strong> SENSEVAL-2<br />

Or<strong>de</strong>n Sistema Tipo Precision Recall Cobertura (%)<br />

1 SMUaw supervisado 0.69 0.69 100<br />

Mc.Carthy et al. no supervisado 0.64 0.63 100<br />

2 CNTS-Antwerp supervisado 0.636 0.636 100<br />

3 Sinequa-LIA - HMM supervisado 0.618 0.618 100<br />

WordNet most frequ<strong>en</strong>t<br />

– s<strong>en</strong>se supervisado 0.605 0.605 100<br />

4 UNED - AW-U2 no supervisado 0.575 0.569 98.9<br />

5 UNED - AW-U no supervisado 0.556 0.55 98.9<br />

6 UCLA - gchao2 supervisado 0.475 0.454 95.55<br />

7 UCLA - gchao3 supervisado 0.474 0.453 95.55


Número <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados<br />

Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

9<br />

CL Research - DIMAP<br />

(R) no supervisado 0.451 0.451 100<br />

10 UCLA - gchao supervisado 0.5 0.449 89.72<br />

En <strong>los</strong> experim<strong>en</strong>tos realizados hemos usado como corpus <strong>de</strong> evaluación <strong>los</strong><br />

sustantivos <strong>de</strong> SENSEVAL-2. El Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras ha sido creado<br />

tomando British National Corpus (100 millones <strong>de</strong> pa<strong>la</strong>bras) como corpus <strong>de</strong><br />

<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />

Tab<strong>la</strong> 6. Resultados <strong>de</strong> <strong>WSD</strong> usando difer<strong>en</strong>tes fu<strong>en</strong>tes <strong>de</strong> información<br />

WSM MOBBY LIN<br />

10 61.62 58.9 61.82<br />

20 63.46 56.04 60.47<br />

30 64 57.62 60.86<br />

40 64 60.16 61.59<br />

50 64 58.26 64.46<br />

60 66.43 57.62 63.95<br />

70 68.66 58.57 64.89<br />

100 67.22 57.62 65.05<br />

200 69.08 57.31 65.13<br />

500 70.55 58.26 63.97<br />

1000 65.12 55.09 59.92<br />

2000 62.1 53.8 63.66<br />

Promedio 65.52 57.44 62.98<br />

La Tab<strong>la</strong> 6 muestra <strong>los</strong> resultados obt<strong>en</strong>idos por el método <strong>de</strong> <strong>de</strong>sambiguación<br />

cuando el grupo <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados para una instancia ambigua son<br />

proporcionados por difer<strong>en</strong>tes fu<strong>en</strong>tes <strong>de</strong> información: WSM, Tesauro <strong>de</strong> Mobby y<br />

Tesauro <strong>de</strong> Lin. En dicha tab<strong>la</strong> se pue<strong>de</strong> observar que <strong>los</strong> mejores resultados se<br />

consigue con el WSM, seguido por el tesauro <strong>de</strong> Lin y luego el tesauro <strong>de</strong> Mobby.<br />

Asimismo se aprecia que <strong>los</strong> mejores resultados se obtuvieron con 40, 200 y 500<br />

vocab<strong>los</strong> re<strong>la</strong>cionados. Finalm<strong>en</strong>te <strong>en</strong> <strong>la</strong> fig. 6 se pue<strong>de</strong> ver con mayor c<strong>la</strong>ridad como<br />

<strong>los</strong> vocab<strong>los</strong> suministrador por el WSM ti<strong>en</strong><strong>en</strong> mejores resultados <strong>en</strong> el método <strong>de</strong><br />

<strong>WSD</strong>.


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

Fig. 6. Resultados <strong>de</strong> <strong>WSD</strong> usando difer<strong>en</strong>tes fu<strong>en</strong>tes <strong>de</strong> información<br />

5 Conclusiones y Trabajo Futuro<br />

Los resultados obt<strong>en</strong>idos nos permit<strong>en</strong> concluir que un grupo <strong>de</strong> vocab<strong>los</strong><br />

suministrados por <strong>recursos</strong> construidos automáticam<strong>en</strong>te ti<strong>en</strong><strong>en</strong> mejor r<strong>en</strong>dimi<strong>en</strong>to<br />

que aquel<strong>los</strong> que proporcionan <strong>recursos</strong> construidos manualm<strong>en</strong>te cuando son<br />

utilizados <strong>en</strong> el método <strong>de</strong> <strong>de</strong>sambiguación p<strong>la</strong>nteado. Los grupos <strong>de</strong> vocab<strong>los</strong><br />

re<strong>la</strong>cionados obt<strong>en</strong>idos <strong>de</strong>l Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras y <strong>de</strong>l Tesauro <strong>de</strong> Lin<br />

obti<strong>en</strong><strong>en</strong> mejores resultados que <strong>los</strong> vocab<strong>los</strong> re<strong>la</strong>cionados obt<strong>en</strong>idos <strong>de</strong>l Tesauro <strong>de</strong><br />

Mobby. No po<strong>de</strong>mos afirmar que este comportami<strong>en</strong>to sea el mismo para cualquier<br />

aplicación <strong>de</strong>l l<strong>en</strong>guaje natural, sin embargo es un indicador importante a tomar <strong>en</strong><br />

cu<strong>en</strong>ta cuando se necesite elegir un conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados.<br />

Nosotros creemos que este comportami<strong>en</strong>to se <strong>de</strong>be a que cuando un proceso no<br />

supervisado construye un recurso léxico, como el WSM o el Tesauro <strong>de</strong> Lin, <strong>de</strong><br />

términos simi<strong>la</strong>res o re<strong>la</strong>cionados semánticam<strong>en</strong>te sólo toma <strong>en</strong> cu<strong>en</strong>ta <strong>la</strong> información<br />

exist<strong>en</strong>te <strong>de</strong>ntro <strong>de</strong>l texto que se procesa; sin embargo el grupo <strong>de</strong> lexicógrafos que<br />

crean un recurso manual posiblem<strong>en</strong>te se v<strong>en</strong> influ<strong>en</strong>ciados por un mundo pragmático<br />

que <strong>los</strong> métodos no supervisados no <strong>de</strong>tectan.<br />

Asimismo, otra razón que pue<strong>de</strong> explicar <strong>la</strong> preval<strong>en</strong>cia <strong>de</strong> <strong>los</strong> vocab<strong>los</strong><br />

re<strong>la</strong>cionados obt<strong>en</strong>ido <strong>de</strong> <strong>recursos</strong> <strong>automáticos</strong> sobre <strong>los</strong> <strong>manuales</strong>, es <strong>la</strong> dim<strong>en</strong>sión<br />

<strong>de</strong> <strong>los</strong> <strong>recursos</strong> <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to que se utilizan <strong>en</strong> <strong>los</strong> métodos no supervisados. Por<br />

ejemplo para <strong>la</strong> construcción <strong>de</strong>l WSM se ha utilizado un corpus <strong>de</strong> 100 millones <strong>de</strong><br />

pa<strong>la</strong>bras. Si se compara <strong>la</strong> cantidad <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados que prove<strong>en</strong> <strong>los</strong> <strong>recursos</strong><br />

creados automáticam<strong>en</strong>te con aquel<strong>los</strong> que prove<strong>en</strong> <strong>los</strong> <strong>recursos</strong> <strong>manuales</strong>, <strong>la</strong><br />

difer<strong>en</strong>cia es muy notoria. Sea como fuere, creemos que <strong>la</strong> t<strong>en</strong><strong>de</strong>ncia <strong>en</strong> <strong>la</strong>s<br />

aplicaciones <strong>de</strong> l<strong>en</strong>guaje natural es utilizar métodos no supervisados para <strong>la</strong> creación<br />

<strong>de</strong> <strong>recursos</strong> <strong>léxicos</strong> cuyo objetivo sea proveer términos re<strong>la</strong>cionados semánticam<strong>en</strong>te.


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

6 Refer<strong>en</strong>cias<br />

1. Tejada, J., Gelbukh A., Calvo, H. An Innovative Two-Stage <strong>WSD</strong> Unsupervised<br />

Method. SEPLN Journal 40, March 2008.<br />

2. McCarthy, D. and R. Navigli (2009) The English Lexical Substitution Task, To<br />

appear in Language Resources and Evaluation 43 (2) Special Issue on Computational<br />

Semantic Analysis of Language: SemEval-2007 and Beyond, Agirre, E., Marquez, L.<br />

and Wic<strong>en</strong>towksi, R. (Eds). pp 139-159 Springer, 2009.<br />

3. Sahlgr<strong>en</strong>, Magnus. The Word-Space Mo<strong>de</strong>l Using distributional analysis to repres<strong>en</strong>t<br />

syntagmatic and paradigmatic re<strong>la</strong>tions betwe<strong>en</strong> words in high-dim<strong>en</strong>sional vector<br />

spaces, Ph.D. dissertation, Departm<strong>en</strong>t of Linguistics, Stockholm University, 2006.<br />

4. Schütze, Hinrich: Dim<strong>en</strong>sions of meaning. Proceedings of Supercomputing’92. IEEE<br />

Computer Society Press, Los A<strong>la</strong>mitos, California. 787-796 (1992)<br />

5. Landauer, T., & Dumais, S.: A solution to p<strong>la</strong>to's problem: The <strong>la</strong>t<strong>en</strong>t semantic<br />

analysis theory of acquisition, induction and repres<strong>en</strong>tation of knowledge.<br />

Psychological Review, 104 (2), 211{240 (1997)<br />

6. Lund, K., Burgess, C., & Atchley, R.: Semantic and associative priming in highdim<strong>en</strong>sional<br />

semantic space. In Proceedings of the 17th Annual Confer<strong>en</strong>ce of the<br />

Cognitive Sci<strong>en</strong>ce Society, CogSci'95 (pp. 660{665). Erlbaum (1995)<br />

7. Landauer, T., & Dumais, S. (1997). A solution to p<strong>la</strong>to's problem: The <strong>la</strong>t<strong>en</strong>t<br />

semantic analysis theory of acquisition, induction and repres<strong>en</strong>tation of<br />

knowledge. Psychological Review, 104 (2), 211{240.<br />

8. Lund, K., Burgess, C., & Atchley, R. (1995). Semantic and associative<br />

priming in high-dim<strong>en</strong>sional semantic space. In Proceedings of the 17th<br />

Annual Confer<strong>en</strong>ce of the Cognitive Sci<strong>en</strong>ce Society, CogSci'95 (pp.<br />

660{665). Erlbaum.<br />

9. Sahlgr<strong>en</strong>, M. (2005). An introduction to random in<strong>de</strong>xing. In H. Witschel<br />

(Ed.), Methods and Applications of Semantic In<strong>de</strong>xing Workshop at the 7th<br />

International Confer<strong>en</strong>ce on Terminology and Knowledge Engineering,<br />

TKE'05,Cop<strong>en</strong>hag<strong>en</strong>, D<strong>en</strong>mark, august 16, 2005 (Vol. 87).<br />

10. Pe<strong>de</strong>rs<strong>en</strong>, T.; Patwardhan, S. and Michelizzi (2004).WordNet::Simi<strong>la</strong>rity -<br />

Measuring the Re<strong>la</strong>tedness of Concepts. Appears in the Proceedings of Fifth<br />

Annual Meeting of the North American Chapter of the Association for<br />

Computational Linguistics (NAACL-04), May 3-5, 2004, Boston, MA<br />

(Demonstration System).<br />

11. Zipf, G.(1949). Human behavior and the principle of least-e_ort. Cambridge,<br />

MA: Addison-Wesley.<br />

12. Lin, D. (1998). Automatic retrieval and clustering of simi<strong>la</strong>r words.<br />

Proceedings of C I G C -. pp. 768-774. Montreal, Canada.<br />

13. Lin, D. (1997). Using syntactic <strong>de</strong>p<strong>en</strong><strong>de</strong>ncy as a local context to resolve<br />

word s<strong>en</strong>se ambiguity. In Proceedings of the 35th Annual Meeting of the<br />

Association for Computational Linguistics, pages 64–71, Madrid, July 1997.<br />

14. Pe<strong>de</strong>rs<strong>en</strong>, T.; Patwardhan, S. and Michelizzi (2004).WordNet::Simi<strong>la</strong>rity -<br />

Measuring the Re<strong>la</strong>tedness of Concepts. Appears in the Proceedings of Fifth<br />

Annual Meeting of the North American Chapter of the Association for<br />

Computational Linguistics (NAACL-04), May 3-5, 2004, Boston, MA<br />

(Demonstration System).


Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />

15. Lesk, Michael (1986). Automated S<strong>en</strong>se Disambiguation Using Machinereadable<br />

Dictionaries: How to Tell a Pine one from an Ice Cream Cone.<br />

Proceedings of the 1986 SIGDOC Confer<strong>en</strong>ce, Toronto, Canada, June 1986,<br />

24-26.<br />

16. Jiang, J. and Conrath D. (1997). Semantic simi<strong>la</strong>rity based on corpus<br />

statistics and lexical taxonomy. In Proceedings on International Confer<strong>en</strong>ce<br />

on Research in Computational Linguistics, Taiwan, 1997.<br />

17. Resnik, Philip, Using information cont<strong>en</strong>t to evaluate semantic simi<strong>la</strong>rity in a<br />

taxonomy, Montreal. Proceedings of the 14th International Joint Confer<strong>en</strong>ce on<br />

Artificial Intellig<strong>en</strong>ce, 1995, pp. 448-453.<br />

18. Lin, D. (1998). Automatic retrieval and clustering of simi<strong>la</strong>r words.<br />

Proceedings of C I G C -. pp. 768-774. Montreal, Canada.<br />

19. Schütze, Hinrich (1993). Word space. In Hanson, Steph<strong>en</strong> J.; Cowan, Jack D.<br />

and Giles, C. Lee (Eds.) Advances in Neural Information Processing<br />

Systems 5, Morgan Kauffman, San Mateo, California, 5, 895-902.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!