Impacto de los recursos léxicos manuales y automáticos en la WSD
Impacto de los recursos léxicos manuales y automáticos en la WSD
Impacto de los recursos léxicos manuales y automáticos en la WSD
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Impacto</strong> <strong>de</strong> Recursos Léxicos Manuales y Automáticos <strong>en</strong><br />
<strong>la</strong> <strong>WSD</strong><br />
Javier Tejada Cárcamo 1,2 , Hiram Calvo 3,4 , Alexan<strong>de</strong>r Gelbukh 3 , José Villegas 5<br />
1 School of Computer Sci<strong>en</strong>ce, San Pablo Catholic University, Arequipa, Perú<br />
2 Sociedad Peruana <strong>de</strong> Computación, Arequipa, Perú<br />
3 C<strong>en</strong>ter for Computing Research, National Polytechnic Institute, Mexico City, 07738, México<br />
4 Nara Institute of Sci<strong>en</strong>ce and Technology, Takayama, Ikoma, Nara 630-0192, Japan<br />
5 School of System Engineering, San Agustin National University<br />
jawitejada@hotmail.com, hcalvo@cic.ipn.mx, calvo@is.naist.jp<br />
gelbukh@gelbukh.com, josvil@gmail.com<br />
Abstract. Las tareas <strong>de</strong> procesami<strong>en</strong>to automático <strong>de</strong> l<strong>en</strong>guaje natural usan<br />
difer<strong>en</strong>tes tipos <strong>de</strong> <strong>recursos</strong> <strong>léxicos</strong>, que pue<strong>de</strong>n c<strong>la</strong>sificarse <strong>en</strong> <strong>manuales</strong> y<br />
<strong>automáticos</strong>. La comunidad académica ti<strong>en</strong>e <strong>la</strong> cre<strong>en</strong>cia que <strong>los</strong> <strong>recursos</strong><br />
<strong>manuales</strong> proporcionan datos con mayor semántica que <strong>los</strong> <strong>automáticos</strong>. No se<br />
pue<strong>de</strong> adoptar esta cre<strong>en</strong>cia como verda<strong>de</strong>ra o falsa para cada una <strong>de</strong> tales<br />
tareas. Hemos elegido <strong>la</strong> Desambiguación <strong>de</strong> S<strong>en</strong>tidos <strong>de</strong> Pa<strong>la</strong>bras como tarea,<br />
y muy <strong>en</strong> particu<strong>la</strong>r el método propuesto <strong>en</strong> Tejada et al. para su resolución. En<br />
dicho método, primero se obti<strong>en</strong>e automáticam<strong>en</strong>te un conjunto <strong>de</strong> vocab<strong>los</strong><br />
re<strong>la</strong>cionados con el contexto <strong>de</strong>l vocablo ambiguo. Luego, cada uno emite un<br />
voto por un s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> instancia ambigua, <strong>de</strong> tal manera que el s<strong>en</strong>tido con<br />
mayor cantidad <strong>de</strong> votos es el elegido. En este artículo se varía el orig<strong>en</strong> <strong>de</strong> <strong>los</strong><br />
vocab<strong>los</strong> re<strong>la</strong>cionados, usando <strong>recursos</strong> <strong>manuales</strong>, tal como el tesauro <strong>de</strong><br />
Mobby, y <strong>automáticos</strong>, tales como el Tesauro <strong>de</strong> Lin y <strong>los</strong> Mo<strong>de</strong><strong>los</strong> <strong>de</strong> Espacios<br />
<strong>de</strong> Pa<strong>la</strong>bras. De esta manera, int<strong>en</strong>tamos medir el impacto <strong>de</strong> ambos tipos <strong>de</strong><br />
<strong>recursos</strong> <strong>en</strong> <strong>la</strong> Desambiguación <strong>de</strong> S<strong>en</strong>tidos <strong>de</strong> Pa<strong>la</strong>bras.<br />
Abstract. The tasks of automatic Natural Language Processing (NLP) use<br />
differ<strong>en</strong>t types of lexical resources, which can be c<strong>la</strong>ssified into manual and<br />
automatic. The aca<strong>de</strong>mic community has the belief that manual resources<br />
provi<strong>de</strong> data with more semantic than automatic. It is not possible adopt this<br />
belief as true or false for each of the NLP tasks. We have selected the Word<br />
S<strong>en</strong>se Disambiguation (<strong>WSD</strong>) as a task, and particu<strong>la</strong>rly the method proposed<br />
in Tejada et al. for its resolution. In this method, first, we have got a set of<br />
re<strong>la</strong>ted words with the context of the ambiguous word. Th<strong>en</strong> each one casts a<br />
vote for a s<strong>en</strong>se of the ambiguous instance, so that the meaning with the most<br />
votes is elected. This article changes the origin of re<strong>la</strong>ted words, using manual<br />
resources, such as Mobby thesaurus, and automatic, such as the Thesaurus of<br />
Lin and Word Space Mo<strong>de</strong>ls. In this way, we try to measure the impact of both<br />
types of resources in the <strong>WSD</strong>.<br />
Keywords: L<strong>en</strong>guaje natural, <strong>recursos</strong> <strong>léxicos</strong>, tesauro, <strong>de</strong>sambiguación <strong>de</strong><br />
s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras, mo<strong>de</strong>lo <strong>de</strong> espacio <strong>de</strong> pa<strong>la</strong>bras, no supervisados.
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
1 Introducción<br />
La mayoría <strong>de</strong> tareas <strong>de</strong> procesami<strong>en</strong>to <strong>de</strong> l<strong>en</strong>guaje natural usan conjuntos <strong>de</strong><br />
vocab<strong>los</strong> re<strong>la</strong>cionados semánticam<strong>en</strong>te con <strong>la</strong> finalidad <strong>de</strong> solucionar una tarea <strong>en</strong><br />
particu<strong>la</strong>r. Estos vocab<strong>los</strong> pue<strong>de</strong>n ser obt<strong>en</strong>idos <strong>de</strong> <strong>recursos</strong> <strong>manuales</strong> o <strong>automáticos</strong>.<br />
Se ti<strong>en</strong>e <strong>la</strong> cre<strong>en</strong>cia que <strong>los</strong> vocab<strong>los</strong> obt<strong>en</strong>idos manualm<strong>en</strong>te prove<strong>en</strong> mayor calidad<br />
semántica que <strong>los</strong> obt<strong>en</strong>idos <strong>de</strong> <strong>recursos</strong> creados automáticam<strong>en</strong>te. Asimismo, se<br />
pue<strong>de</strong> afirmar que dicho comportami<strong>en</strong>to varía, <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> <strong>la</strong> tarea <strong>de</strong><br />
procesami<strong>en</strong>to <strong>de</strong> l<strong>en</strong>guaje natural e incluso <strong>de</strong>l método usado <strong>en</strong> dicha tarea.<br />
Se ha elegido <strong>la</strong> Desambiguación <strong>de</strong> S<strong>en</strong>tidos <strong>de</strong> Pa<strong>la</strong>bras (<strong>WSD</strong> por sus sig<strong>la</strong>s <strong>en</strong><br />
inglés Word S<strong>en</strong>se Disambiguation) por ser una tarea intermedia que no ti<strong>en</strong>e<br />
aplicabilidad práctica o comercial por sí misma; sin embargo es requerida por otras<br />
áreas <strong>de</strong> L<strong>en</strong>guaje Natural, tales como <strong>la</strong> Recuperación <strong>de</strong> Información, <strong>la</strong> Traducción<br />
Automática, Question-Answering, <strong>en</strong>tre otras.<br />
El método propuesto <strong>en</strong> Tejada et al. para <strong>la</strong> resolución <strong>de</strong> <strong>la</strong> ambigüedad <strong>de</strong><br />
s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras se basa <strong>en</strong> obt<strong>en</strong>er un conjunto <strong>de</strong> pa<strong>la</strong>bras re<strong>la</strong>cionadas<br />
semánticam<strong>en</strong>te con el contexto <strong>de</strong>l vocablo ambiguo. Éstas <strong>de</strong>terminan el s<strong>en</strong>tido <strong>de</strong><br />
<strong>la</strong> instancia ambigua mediante un algoritmo <strong>de</strong> maximización que acumu<strong>la</strong> votos para<br />
cada s<strong>en</strong>tido, <strong>de</strong> tal manera que el s<strong>en</strong>tido con mayor número <strong>de</strong> votos es el elegido.<br />
En este trabajo se explora difer<strong>en</strong>tes <strong>recursos</strong> <strong>de</strong> información como orig<strong>en</strong> <strong>de</strong> <strong>la</strong>s<br />
pa<strong>la</strong>bras re<strong>la</strong>cionadas. Estos se pue<strong>de</strong>n c<strong>la</strong>sificar <strong>en</strong> <strong>manuales</strong> y <strong>automáticos</strong>. En el<br />
primer caso se ha tomado el Tesauro <strong>de</strong> Mobby (construido manualm<strong>en</strong>te), el cual<br />
proporciona un conjunto <strong>de</strong> términos re<strong>la</strong>cionados sin pon<strong>de</strong>ración para un vocablo<br />
específico. En cuanto a <strong>los</strong> <strong>recursos</strong> <strong>automáticos</strong> se ha seleccionado el Tesauro <strong>de</strong> Lin<br />
[12], el cual proporciona términos re<strong>la</strong>cionados con una valor <strong>de</strong> pon<strong>de</strong>ración<br />
respecto a una pa<strong>la</strong>bra específica. Finalm<strong>en</strong>te, también se han usado <strong>los</strong> Mo<strong>de</strong><strong>los</strong> <strong>de</strong><br />
Espacios <strong>de</strong> Pa<strong>la</strong>bras como una alternativa más para <strong>la</strong> g<strong>en</strong>eración <strong>de</strong> términos<br />
re<strong>la</strong>cionados.<br />
Un mo<strong>de</strong>lo <strong>de</strong> espacio <strong>de</strong> pa<strong>la</strong>bras (WSM por sus sig<strong>la</strong>s <strong>en</strong> inglés Word Space<br />
Mo<strong>de</strong>l) es una repres<strong>en</strong>tación espacial <strong>de</strong>l significado <strong>de</strong> pa<strong>la</strong>bras [3]. Su i<strong>de</strong>a<br />
fundam<strong>en</strong>tal radica <strong>en</strong> que <strong>la</strong> similitud semántica pue<strong>de</strong> ser repres<strong>en</strong>tada como<br />
proximidad o lejanía <strong>en</strong> un espacio <strong>de</strong> n dim<strong>en</strong>siones. Cada dim<strong>en</strong>sión repres<strong>en</strong>ta un<br />
vocablo. Las pa<strong>la</strong>bras se van ubicando <strong>en</strong> el espacio multidim<strong>en</strong>sional tomando <strong>en</strong><br />
cu<strong>en</strong>ta su distribución (frecu<strong>en</strong>cia u otras medidas estadísticas) con cada vocablo <strong>de</strong>l<br />
l<strong>en</strong>guaje.<br />
La factibilidad <strong>de</strong> repres<strong>en</strong>tar una pa<strong>la</strong>bra <strong>en</strong> una arquitectura multidim<strong>en</strong>sional<br />
tomando <strong>en</strong> cu<strong>en</strong>ta su distribución <strong>en</strong> el l<strong>en</strong>guaje está muy <strong>de</strong>mostrada [4]. Es<br />
necesario t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que <strong>la</strong> repres<strong>en</strong>tación espacial <strong>de</strong> una pa<strong>la</strong>bra por si sólo no<br />
ti<strong>en</strong>e s<strong>en</strong>tido (ya que sólo sería un punto <strong>en</strong> el espacio multidim<strong>en</strong>sional); sin embargo<br />
si otras pa<strong>la</strong>bras se repres<strong>en</strong>tan <strong>en</strong> este espacio, es posible calcu<strong>la</strong>r similitu<strong>de</strong>s y<br />
lejanías semánticas.<br />
Tradicionalm<strong>en</strong>te, <strong>la</strong> investigación realizada sobre WSM siempre ha estado<br />
<strong>en</strong>focada hacia <strong>la</strong> creación <strong>de</strong> métodos para su construcción automática, así como<br />
difer<strong>en</strong>tes técnicas para <strong>la</strong> explotación <strong>de</strong> <strong>la</strong> información que almac<strong>en</strong>a este recurso.<br />
Algunos trabajos típicos <strong>en</strong> esta área son: LSA (por sus sig<strong>la</strong>s <strong>en</strong> inglés Lat<strong>en</strong>t
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
Semantic Analysis) [7], HAL (por sus sig<strong>la</strong>s <strong>en</strong> inglés Hyperspace Anlogue to<br />
Language) [8], RI (por sus sig<strong>la</strong>s <strong>en</strong> inglés Random In<strong>de</strong>xing) [9], etc.<br />
Actualm<strong>en</strong>te, no se sabe con certeza el tipo <strong>de</strong> información que provee un WSM.<br />
Sólo se sabe que un conjunto <strong>de</strong> vocab<strong>los</strong> próximos ti<strong>en</strong><strong>en</strong> re<strong>la</strong>ción semántica<br />
(sinonimia, antonimia, etc.). Muchas <strong>de</strong> <strong>los</strong> procesos que implem<strong>en</strong>tan tareas <strong>de</strong><br />
procesami<strong>en</strong>to <strong>de</strong> l<strong>en</strong>guaje natural, tales como recuperación <strong>de</strong> información,<br />
<strong>de</strong>sambiguación <strong>de</strong> s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras, traducción automática, etc., requier<strong>en</strong><br />
conjuntos <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados semánticam<strong>en</strong>te, <strong>los</strong> cuales son utilizados por<br />
difer<strong>en</strong>tes tipos <strong>de</strong> algoritmos.<br />
La importancia <strong>de</strong> este grupo <strong>de</strong> vocab<strong>los</strong> <strong>en</strong> <strong>la</strong>s tareas <strong>de</strong> procesami<strong>en</strong>to <strong>de</strong><br />
l<strong>en</strong>guaje natural no está <strong>en</strong> te<strong>la</strong> <strong>de</strong> juicio; sin embargo, se ti<strong>en</strong>e <strong>la</strong> cre<strong>en</strong>cia que un<br />
grupo <strong>de</strong> vocab<strong>los</strong> g<strong>en</strong>erados manualm<strong>en</strong>te (por el ser humano) ti<strong>en</strong>e mejor<br />
<strong>de</strong>sempeño que uno g<strong>en</strong>erado automáticam<strong>en</strong>te (por una computadora). En esta<br />
artículo, se investiga dicha cre<strong>en</strong>cia.<br />
Para ello, se ha p<strong>la</strong>nteado un método ori<strong>en</strong>tado a resolver <strong>la</strong> <strong>de</strong>sambiguación <strong>de</strong><br />
s<strong>en</strong>tidos <strong>de</strong> pa<strong>la</strong>bras. Este método toma el contexto <strong>de</strong>l vocablo ambiguo para obt<strong>en</strong>er<br />
un conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados semánticam<strong>en</strong>te. Cada miembro <strong>de</strong>l conjunto<br />
emite un voto por cada uno <strong>de</strong> <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong>l vocablo ambiguo, <strong>de</strong> tal forma que el<br />
s<strong>en</strong>tido con mayor número <strong>de</strong> votos es el elegido como el s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> instancia<br />
ambigua. El conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados será proporcionado por difer<strong>en</strong>tes<br />
fu<strong>en</strong>tes <strong>de</strong> información: Un WSM creado automáticam<strong>en</strong>te, el Tesauro <strong>de</strong> Mobby<br />
creado manualm<strong>en</strong>te y el Tesauro <strong>de</strong> Lin creado automáticam<strong>en</strong>te.<br />
El resto <strong>de</strong>l docum<strong>en</strong>to se organiza <strong>de</strong> <strong>la</strong> sigui<strong>en</strong>te manera: En <strong>la</strong> sección 2 se<br />
<strong>de</strong>scribe <strong>la</strong>s tres fu<strong>en</strong>tes <strong>de</strong> información que se han utilizado: WSM, Tesauro <strong>de</strong><br />
Mobby y Tesauro <strong>de</strong> Lin. En <strong>la</strong> sección 3 se <strong>de</strong>scribe el método <strong>de</strong> <strong>de</strong>sambiguación<br />
p<strong>la</strong>nteado. En <strong>la</strong> sección 4 se muestran <strong>los</strong> resultados obt<strong>en</strong>idos. En <strong>la</strong> sección 5 se<br />
pres<strong>en</strong>tan <strong>la</strong>s conclusiones.<br />
2 Oríg<strong>en</strong>es <strong>de</strong> Información<br />
En nuestro trabajo, se <strong>de</strong>nomina orig<strong>en</strong> <strong>de</strong> información a un recurso léxico (creado<br />
manual o automáticam<strong>en</strong>te) que almac<strong>en</strong>a información estructurada o sin estructurar,<br />
<strong>la</strong> que pue<strong>de</strong> ser explotada para obt<strong>en</strong>er un conjunto <strong>de</strong> términos re<strong>la</strong>cionados. En esta<br />
sección se <strong>de</strong>scrib<strong>en</strong> tres oríg<strong>en</strong>es <strong>de</strong> información: WSM, Tesauro <strong>de</strong> Mobby y<br />
Tesauro <strong>de</strong> Lin.<br />
2.1 Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras (WSM)<br />
WSM es una repres<strong>en</strong>tación espacial <strong>de</strong>l significado <strong>de</strong> pa<strong>la</strong>bras. Su i<strong>de</strong>a fundam<strong>en</strong>tal<br />
radica <strong>en</strong> que <strong>la</strong> similitud semántica pue<strong>de</strong> ser repres<strong>en</strong>tada como proximidad o<br />
cercanía <strong>en</strong> un espacio <strong>de</strong> n dim<strong>en</strong>siones, don<strong>de</strong> n pue<strong>de</strong> ser un número <strong>en</strong>tero <strong>en</strong>tre 1<br />
y otro muy gran<strong>de</strong> (ver fig. 1). Al respecto, Schütze afirmó: “La similitud <strong>de</strong> vectores<br />
es <strong>la</strong> única información pres<strong>en</strong>te <strong>en</strong> este mo<strong>de</strong>lo, <strong>de</strong> tal manera que pa<strong>la</strong>bras que se
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
re<strong>la</strong>cionan semánticam<strong>en</strong>te están cerca y aquel<strong>la</strong>s que no se re<strong>la</strong>cionan<br />
semánticam<strong>en</strong>te están lejos”.[19]<br />
Fig. 1. WSM <strong>de</strong> dos dim<strong>en</strong>siones<br />
En <strong>la</strong> fig. 1, cada una <strong>de</strong> sus dim<strong>en</strong>siones repres<strong>en</strong>ta un vocablo: El eje x al vocablo<br />
tambor y el eje y al vocablo arpa. Los <strong>de</strong>más vocab<strong>los</strong> (guitarra, mandolina, timbal,<br />
bombo) se van posicionando <strong>en</strong> el espacio <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong> <strong>la</strong> similitud que ti<strong>en</strong><strong>en</strong> con<br />
arpa y tambor. Se pue<strong>de</strong> observar que <strong>la</strong>s pa<strong>la</strong>bras ti<strong>en</strong><strong>de</strong>n a formar grupos<br />
semánticos. Dicha agrupación, <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> <strong>la</strong> distribución que éstas pres<strong>en</strong>tan <strong>en</strong> el<br />
l<strong>en</strong>guaje; por ejemplo <strong>en</strong> un corpus <strong>de</strong> texto <strong>los</strong> vocab<strong>los</strong> que se usan con timbal,<br />
bombo y tambor suel<strong>en</strong> ser <strong>los</strong> mismos.<br />
Es necesario t<strong>en</strong>er <strong>en</strong> cu<strong>en</strong>ta que <strong>la</strong> repres<strong>en</strong>tación espacial <strong>de</strong> una pa<strong>la</strong>bra por sí<br />
sólo no ti<strong>en</strong>e s<strong>en</strong>tido (ya que sólo sería un punto <strong>en</strong> el espacio multidim<strong>en</strong>sional); sin<br />
embargo si otras pa<strong>la</strong>bras se repres<strong>en</strong>tan <strong>en</strong> este espacio, es posible calcu<strong>la</strong>r<br />
similitu<strong>de</strong>s y lejanías semánticas.<br />
2.1.1 Procesami<strong>en</strong>to <strong>de</strong>l Corpus<br />
En esta sección se explica el tratami<strong>en</strong>to <strong>de</strong>l corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, el cual varía<br />
<strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l tipo <strong>de</strong> mo<strong>de</strong>lo <strong>de</strong> espacio <strong>de</strong> pa<strong>la</strong>bras que se <strong>de</strong>sea construir. La<br />
difer<strong>en</strong>cia <strong>en</strong>tre WSM sintagmático y paradigmático radica <strong>en</strong> el conjunto <strong>de</strong> términos<br />
re<strong>la</strong>cionados que proporcionan. Si consultáramos a un WSM paradigmático <strong>los</strong><br />
términos más simi<strong>la</strong>res al vocablo universidad, serían aca<strong>de</strong>mia, escue<strong>la</strong>, colegio,<br />
etc., mi<strong>en</strong>tras que un WSM sintagmático hubiera proporcionado vocab<strong>los</strong> como:<br />
privada, nacional, tecnológica, etc.<br />
Dos vocab<strong>los</strong> re<strong>la</strong>cionados paradigmáticam<strong>en</strong>te no co-ocurr<strong>en</strong> <strong>en</strong>tre el<strong>los</strong>; sin<br />
embargo, <strong>los</strong> vocab<strong>los</strong> con <strong>los</strong> que co-ocurr<strong>en</strong> suel<strong>en</strong> ser <strong>los</strong> mismos. Por ejemplo,<br />
adjetivos difer<strong>en</strong>tes que modifican al mismo sustantivo, como bu<strong>en</strong>a noticia y ma<strong>la</strong><br />
noticia, o querido padre y querida madre. De dichas co-ocurr<strong>en</strong>cias se pue<strong>de</strong><br />
<strong>de</strong>terminar que <strong>los</strong> vocab<strong>los</strong> ma<strong>los</strong> y bu<strong>en</strong>os, padre y madre pres<strong>en</strong>tan una re<strong>la</strong>ción<br />
paradigmática o <strong>de</strong> sustitución.<br />
Exist<strong>en</strong> tres parámetros que influy<strong>en</strong> <strong>en</strong> <strong>la</strong> obt<strong>en</strong>ción <strong>de</strong> este tipo <strong>de</strong> re<strong>la</strong>ciones: el<br />
tamaño <strong>de</strong> <strong>la</strong> v<strong>en</strong>tana contextual, <strong>la</strong> posición <strong>de</strong> <strong>la</strong>s pa<strong>la</strong>bras <strong>de</strong>ntro <strong>de</strong> dicha v<strong>en</strong>tana y<br />
<strong>la</strong> dirección <strong>en</strong> <strong>la</strong> que <strong>la</strong> región <strong>de</strong> contexto se exti<strong>en</strong><strong>de</strong> (hacia <strong>de</strong><strong>la</strong>nte o atrás). Para<br />
ilustrar mejor este punto imaginemos dos secu<strong>en</strong>cias <strong>de</strong> pa<strong>la</strong>bras:<br />
b<strong>la</strong> b<strong>la</strong> b<strong>la</strong> blo bli bli bli<br />
b<strong>la</strong> b<strong>la</strong> b<strong>la</strong> ble bli bli bli
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
Es fácil notar que <strong>la</strong>s pa<strong>la</strong>bras blo y ble pres<strong>en</strong>tan una re<strong>la</strong>ción paradigmática ya<br />
que <strong>la</strong>s pa<strong>la</strong>bras anteriores y posteriores <strong>de</strong> ambas son <strong>la</strong>s mismas. En este caso no<br />
importa si tomamos una v<strong>en</strong>tana <strong>de</strong> tamaño 1+1 (un vocablo a <strong>la</strong> izquierda y uno a <strong>la</strong><br />
<strong>de</strong>recha), 2+2 e incluso 3+3, ya que <strong>en</strong> este caso particu<strong>la</strong>r, cada v<strong>en</strong>tana confirma <strong>la</strong><br />
re<strong>la</strong>ción paradigmática <strong>en</strong>tre blo y ble.<br />
Las v<strong>en</strong>tanas contextuales pue<strong>de</strong>n ser estáticas y dinámicas, es <strong>de</strong>cir, con un<br />
número <strong>de</strong> vocab<strong>los</strong> fijos o variables a <strong>la</strong> <strong>de</strong>recha e izquierda <strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra <strong>en</strong><br />
cuestión. Actualm<strong>en</strong>te <strong>los</strong> investigadores prefier<strong>en</strong> v<strong>en</strong>tanas estáticas.<br />
Ahora supongamos el sigui<strong>en</strong>te contexto:<br />
b<strong>la</strong> blo e bli blo: (b<strong>la</strong>) + (0 bli) blo: (1) + (0 1)<br />
b<strong>la</strong> ble h bli ble: (b<strong>la</strong>) + (0 bli) ble: (1) + (0 1)<br />
Quizás cueste un poco más darse cu<strong>en</strong>ta que <strong>la</strong>s pa<strong>la</strong>bras blo y ble pres<strong>en</strong>tan una<br />
re<strong>la</strong>ción paradigmática, ya que <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> <strong>la</strong> <strong>de</strong>recha (e y h) <strong>de</strong> cada una no son<br />
<strong>la</strong>s mismas. Esto se repres<strong>en</strong>ta mediante notación binaria:<br />
blo: (1) + (0 1)<br />
blo: (1) + (0 1)<br />
Exist<strong>en</strong> difer<strong>en</strong>tes maneras <strong>de</strong> asignar peso a <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> una v<strong>en</strong>tana, pero <strong>la</strong>s<br />
más comunes son <strong>la</strong> binaria y <strong>la</strong> asignación <strong>de</strong> mayor peso a aquel<strong>los</strong> que se<br />
<strong>en</strong>cu<strong>en</strong>tran más cercanos a <strong>la</strong> pa<strong>la</strong>bra <strong>en</strong> cuestión.<br />
2.1.2 Construcción <strong>de</strong> <strong>la</strong> Matriz<br />
Ambos tipos <strong>de</strong> WSM son repres<strong>en</strong>tados mediante una matriz, <strong>en</strong> <strong>la</strong> cual una fi<strong>la</strong><br />
repres<strong>en</strong>ta a un vocablo exist<strong>en</strong>te <strong>en</strong> el corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, mi<strong>en</strong>tras que el<br />
número <strong>de</strong> columnas varía <strong>de</strong>p<strong>en</strong>di<strong>en</strong>do <strong>de</strong>l tipo <strong>de</strong> WSM que se construye:<br />
─ En el caso <strong>de</strong> <strong>los</strong> paradigmáticos se crea una columna por cada vocablo<br />
exist<strong>en</strong>te <strong>en</strong> el corpus, por <strong>en</strong><strong>de</strong> una matriz paradigmática ti<strong>en</strong>e dim<strong>en</strong>siones<br />
n × n.<br />
─ En el caso <strong>de</strong> <strong>los</strong> sintagmáticos, el corpus <strong>de</strong> texto se divi<strong>de</strong> <strong>en</strong> regiones<br />
contextuales <strong>de</strong>l mismo tamaño (<strong>de</strong> 10 vocab<strong>los</strong> o más gran<strong>de</strong>s, como 150). El<br />
número <strong>de</strong> columnas <strong>de</strong> esta matriz <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> <strong>la</strong> cantidad <strong>de</strong> regiones<br />
contextuales d <strong>en</strong> <strong>la</strong> que se divi<strong>de</strong> el corpus <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to, por <strong>en</strong><strong>de</strong> una<br />
matriz sintagmática ti<strong>en</strong><strong>en</strong> dim<strong>en</strong>siones n × d.<br />
Por ejemplo, dada <strong>la</strong> oración: el gato se comió al ratón <strong>en</strong> el tejado. La matriz<br />
paradigmática resultante tomando <strong>en</strong> cu<strong>en</strong>ta dicha frase y a<strong>de</strong>más, una v<strong>en</strong>tana<br />
contextual <strong>de</strong> un solo vocablo a <strong>la</strong> izquierda y otro a <strong>la</strong> <strong>de</strong>recha se pue<strong>de</strong> apreciar <strong>en</strong> <strong>la</strong><br />
Tab<strong>la</strong> 1.
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
Tab<strong>la</strong> 1. Matriz paradigmática<br />
Vocablo gato Comer ratón tejado<br />
Gato 0 1 0 0<br />
Comer 0 0 1 0<br />
Ratón 0 0 0 1<br />
Tejado 0 0 0 0<br />
El valor que se establece <strong>en</strong> <strong>la</strong>s celdas <strong>de</strong> <strong>la</strong> matriz es un peso <strong>de</strong> pon<strong>de</strong>ración, que<br />
se asigna tomando <strong>en</strong> cu<strong>en</strong>ta difer<strong>en</strong>tes esquemas estadísticos. En el ejemplo se usa<br />
un esquema binario, don<strong>de</strong> 1 significa que existe una co-ocurr<strong>en</strong>cia <strong>en</strong>tre <strong>la</strong> fi<strong>la</strong> i y <strong>la</strong><br />
columna j y 0 que dicha co-ocurr<strong>en</strong>cia no existe.<br />
En el método propuesto, sólo se toman <strong>en</strong> cu<strong>en</strong>ta vocab<strong>los</strong> <strong>de</strong> cont<strong>en</strong>ido (cont<strong>en</strong>t<br />
words <strong>en</strong> inglés), tales como sustantivos, adjetivos y verbos, <strong>de</strong>sechando <strong>la</strong>s pa<strong>la</strong>bras<br />
<strong>de</strong> parada (stop words), lo cual permite reducir <strong>la</strong>s dim<strong>en</strong>siones <strong>de</strong> <strong>la</strong> matriz.<br />
Asimismo, se usan <strong>los</strong> lemas <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> seleccionados.<br />
2.1.3 Esquema <strong>de</strong> Pon<strong>de</strong>ración<br />
El esquema <strong>de</strong> pon<strong>de</strong>ración hace refer<strong>en</strong>cia a un valor que <strong>de</strong>nota <strong>la</strong> afinidad o<br />
re<strong>la</strong>ción semántica <strong>en</strong>tre <strong>la</strong> fi<strong>la</strong> i y <strong>la</strong> columna j. En nuestro método este valor<br />
inicialm<strong>en</strong>te es <strong>la</strong> frecu<strong>en</strong>cia <strong>de</strong> corre<strong>la</strong>ción <strong>en</strong>tre dos vocab<strong>los</strong> <strong>en</strong> el corpus (<strong>en</strong> el<br />
caso <strong>de</strong> <strong>los</strong> paradigmáticos) o <strong>la</strong> cantidad <strong>de</strong> veces que suce<strong>de</strong> un vocablo <strong>en</strong> una<br />
región contextual (<strong>en</strong> el caso <strong>de</strong> <strong>los</strong> sintagmáticos).<br />
En este método se utiliza otro tipo <strong>de</strong> pon<strong>de</strong>ración, conocido como el esquema TF-<br />
IDF (por sus sig<strong>la</strong>s <strong>en</strong> inglés Term Frecu<strong>en</strong>cy - Inverse Docum<strong>en</strong>t Frecu<strong>en</strong>cy), el cual<br />
g<strong>en</strong>eralm<strong>en</strong>te se aplica a tareas <strong>de</strong> c<strong>la</strong>sificación y similitud <strong>de</strong> docum<strong>en</strong>tos [10]. En<br />
este esquema, cada docum<strong>en</strong>to es repres<strong>en</strong>tado por un vector cuyo número <strong>de</strong><br />
dim<strong>en</strong>siones correspon<strong>de</strong> a <strong>la</strong> cantidad <strong>de</strong> vocab<strong>los</strong> que exist<strong>en</strong> <strong>en</strong> él.<br />
En nuestro método, el valor <strong>en</strong> cada celda <strong>de</strong> <strong>la</strong> matriz está <strong>de</strong>terminado por un<br />
peso w (ver ecuación 3), el cual se calcu<strong>la</strong> como el producto <strong>de</strong>l TF (ver ecuación 1) e<br />
IDF (ver ecuación 2). El peso w (i,j) <strong>de</strong>termina el grado <strong>de</strong> re<strong>la</strong>ción semántica <strong>en</strong>tre el<br />
vocablo i (<strong>la</strong> fi<strong>la</strong>) y pa<strong>la</strong>bra j o sección j (<strong>la</strong> columna). El TF muestra <strong>la</strong> importancia<br />
<strong>de</strong> un vocablo respecto a <strong>la</strong> pa<strong>la</strong>bra que modifica o a <strong>la</strong> sección <strong>en</strong> <strong>la</strong> que se <strong>en</strong>cu<strong>en</strong>tra.<br />
Por <strong>la</strong> tanto, el peso <strong>de</strong> <strong>la</strong> re<strong>la</strong>ción aum<strong>en</strong>ta si el vocablo aparece más a m<strong>en</strong>udo<br />
con dicha pa<strong>la</strong>bra o sección. El IDF <strong>de</strong>nota <strong>la</strong> importancia <strong>de</strong> un vocablo respecto al<br />
resto <strong>de</strong> pa<strong>la</strong>bras <strong>de</strong>l corpus, <strong>de</strong> tal manera que su peso disminuye si aparece más a<br />
m<strong>en</strong>udo con <strong>los</strong> <strong>de</strong>más vocab<strong>los</strong> o secciones <strong>de</strong>l corpus, y aum<strong>en</strong>ta cuando aparece<br />
con <strong>la</strong> m<strong>en</strong>or cantidad <strong>de</strong> estos, ya que <strong>los</strong> vocab<strong>los</strong> o secciones muy frecu<strong>en</strong>tes<br />
discriminan poco a <strong>la</strong> hora <strong>de</strong> repres<strong>en</strong>tar al vocablo mediante un vector.<br />
freq<br />
i,j<br />
fi,j<br />
. (1)<br />
max freq l,j
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
N<br />
(2)<br />
idfi<br />
log<br />
ni<br />
.<br />
(3)<br />
wi<br />
fi<br />
, j<br />
idfi<br />
.<br />
En <strong>la</strong>s ecuaciones anteriores, i repres<strong>en</strong>ta a <strong>la</strong> i-ésima fi<strong>la</strong> (vocab<strong>los</strong>) y j (pue<strong>de</strong> ser<br />
vocab<strong>los</strong> o secciones) repres<strong>en</strong>ta a <strong>la</strong>s j-ésima columna <strong>de</strong> nuestra matriz. La freqi,j es<br />
<strong>la</strong> frecu<strong>en</strong>cia <strong>en</strong>tre i y j, max freql,j es <strong>la</strong> más alta <strong>de</strong> cualquier vocablo i <strong>en</strong> una<br />
sección o vocablo j. N es el número <strong>de</strong> vocab<strong>los</strong> <strong>de</strong>l corpus tomados <strong>en</strong> cu<strong>en</strong>ta <strong>en</strong> <strong>la</strong><br />
construcción <strong>de</strong> <strong>la</strong> matriz, ni es el número <strong>de</strong> vocab<strong>los</strong> con <strong>los</strong> que ocurre j, y wi es el<br />
peso final. El peso w que se calcu<strong>la</strong> para todas <strong>la</strong>s dim<strong>en</strong>siones <strong>de</strong> un vocablo i,<br />
forman un vector que se almac<strong>en</strong>a <strong>en</strong> el WSM (ver ecuación 4).<br />
<br />
V<br />
( vocablo<br />
i)<br />
{( dim1 , w1<br />
),....,( dimn<br />
n<br />
, w )}<br />
.<br />
V (vocablo i ) es el vector que repres<strong>en</strong>ta al vocablo i con respecto a <strong>la</strong> totalidad <strong>de</strong><br />
vocab<strong>los</strong> o secciones <strong>de</strong>l corpus, dim n cada una <strong>de</strong> <strong>la</strong>s dim<strong>en</strong>siones <strong>de</strong>l WSM (el<br />
número <strong>de</strong> dim<strong>en</strong>siones es el número <strong>de</strong> vocab<strong>los</strong> o secciones <strong>de</strong>l corpus <strong>de</strong><br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to) y w n es el peso asignado a dim n . Muchos pesos son 0 (cero), lo que<br />
<strong>de</strong>nota <strong>la</strong> inexist<strong>en</strong>cia <strong>de</strong> una corre<strong>la</strong>ción <strong>en</strong>tre el vocablo i y el vocablo o sección j.<br />
Realm<strong>en</strong>te <strong>la</strong> cantidad <strong>de</strong> ceros <strong>en</strong> el sistema es elevada (data spars<strong>en</strong>ess), lo que<br />
confirma <strong>la</strong> Ley <strong>de</strong> Zipf [11], que indica que sólo unas pocas pa<strong>la</strong>bras <strong>en</strong> el l<strong>en</strong>guaje<br />
(non cont<strong>en</strong>t words) se comportan promiscuam<strong>en</strong>te, es <strong>de</strong>cir se re<strong>la</strong>cionan con<br />
muchas pa<strong>la</strong>bras.<br />
Tomando <strong>en</strong> cu<strong>en</strong>ta el ejemplo anterior, se pue<strong>de</strong> <strong>de</strong>terminar <strong>la</strong> lista <strong>de</strong> coocurr<strong>en</strong>cias<br />
<strong>de</strong> un vocablo; por ejemplo, <strong>en</strong> <strong>la</strong> oración mostrada <strong>en</strong> <strong>la</strong> Tab<strong>la</strong> 1, el<br />
vocablo comer, está repres<strong>en</strong>tado por <strong>la</strong> tup<strong>la</strong> (1,0,1), <strong>la</strong> cual se convierte <strong>en</strong> un vector<br />
V ( x1,<br />
x2,<br />
x3)<br />
don<strong>de</strong> el número <strong>de</strong> dim<strong>en</strong>siones es el número <strong>de</strong> vocab<strong>los</strong> <strong>en</strong> el<br />
sistema (<strong>en</strong> nuestro ejemplo son tres), y <strong>los</strong> valores (1,0,1) son <strong>la</strong>s coor<strong>de</strong>nadas <strong>de</strong><br />
posicionami<strong>en</strong>to <strong>en</strong> el espacio vectorial. Repres<strong>en</strong>tando vectorialm<strong>en</strong>te <strong>la</strong>s<br />
propieda<strong>de</strong>s <strong>de</strong> distribución <strong>de</strong> una pa<strong>la</strong>bra po<strong>de</strong>mos pasar a una repres<strong>en</strong>tación<br />
geométrica <strong>de</strong> dicho vocablo.<br />
(4)<br />
2.2 Tesauro <strong>de</strong> Mobby<br />
El tesauro <strong>de</strong> Mobby está consi<strong>de</strong>rado como una <strong>de</strong> <strong>la</strong>s fu<strong>en</strong>tes <strong>de</strong> información más<br />
gran<strong>de</strong>s y coher<strong>en</strong>tes que exist<strong>en</strong> para el idioma inglés. Este tesauro es manual, es<br />
<strong>de</strong>cir, creado por el ser humano. La segunda edición <strong>de</strong> dicho tesauro ha mejorado<br />
mucho con respecto a <strong>la</strong> primera, añadi<strong>en</strong>do mas <strong>de</strong> 5000 pa<strong>la</strong>bras principales, que <strong>en</strong><br />
su totalidad superan <strong>los</strong> 30000 vocab<strong>los</strong>.<br />
Asimismo, se le añadió también más <strong>de</strong> un millón <strong>de</strong> sinónimos y términos<br />
re<strong>la</strong>cionados, que <strong>en</strong> su totalidad superan <strong>los</strong> 2.5 millones <strong>de</strong> sinónimos y términos<br />
re<strong>la</strong>cionados. La fig. 2 muestra parte <strong>de</strong> una <strong>en</strong>trada <strong>de</strong>l tesauro.
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
<strong>de</strong>mon: baba yaga, lilith, mafioso, satan, young turk, addict, afreet, ape-man, atua,<br />
barghest, beast, beldam, berserk, berserker, bomber, brute,bug,<br />
caco<strong>de</strong>mon, collector, daemon, daeva, damned spirits, <strong>de</strong>monkind,<br />
<strong>de</strong>mons, <strong>de</strong>niz<strong>en</strong>s of hell, <strong>de</strong>vil, <strong>de</strong>vil incarnate, dragon, dybbuk, eager<br />
beaver, <strong>en</strong>ergum<strong>en</strong>, <strong>en</strong>thusiast, evil g<strong>en</strong>ius, evil spirit, evil spirits, faddist,<br />
Fig. 2. Vocablo “<strong>de</strong>mon” <strong>en</strong> el tesauro <strong>de</strong> Mobby<br />
2.3 Tesauro <strong>de</strong> Lin<br />
Este tesauro, creado automáticam<strong>en</strong>te, fue uno <strong>de</strong> <strong>los</strong> primeros <strong>recursos</strong> <strong>léxicos</strong> que se<br />
construyó usando una técnica <strong>de</strong> l<strong>en</strong>guaje natural, conocida como Bootstrapping<br />
semantics [12]. Para ello, primero se <strong>de</strong>fine una medida <strong>de</strong> similitud que se basa <strong>en</strong><br />
<strong>los</strong> patrones <strong>de</strong> distribución <strong>de</strong> <strong>la</strong>s pa<strong>la</strong>bras. Esta medida permite construir un tesauro<br />
usando un corpus parseado, el cual consta <strong>de</strong> 64 millones <strong>de</strong> pa<strong>la</strong>bras, <strong>la</strong>s cuales<br />
fueron tomadas <strong>de</strong> diversos corpus tales como el Wall Street Journal (24 millones <strong>de</strong><br />
pa<strong>la</strong>bras), San Jose Mercury (21 millones <strong>de</strong> pa<strong>la</strong>bras) y AP Newswire (19 millones<br />
<strong>de</strong> pa<strong>la</strong>bras). Una vez que el corpus fue parseado se extrajo 56.5 millones <strong>de</strong> tripletas<br />
<strong>de</strong> <strong>de</strong>p<strong>en</strong><strong>de</strong>ncia (<strong>de</strong> <strong>la</strong>s cuales 8.7 millones fueron únicas). En el corpus parseado hubo<br />
5469 sustantivos, 2173 verbos, y 2632 adjetivos/adverbios que ocurrieron al m<strong>en</strong>os<br />
100 veces.<br />
Finalm<strong>en</strong>te, se computó <strong>la</strong> similitud semántica <strong>de</strong> cada par <strong>de</strong> vocab<strong>los</strong> <strong>en</strong>tre<br />
sustantivos, verbos, adjetivos y adverbios. Para cada una <strong>de</strong> estas pa<strong>la</strong>bras se creó una<br />
<strong>en</strong>trada <strong>en</strong> el tesauro, que conti<strong>en</strong>e una lista pon<strong>de</strong>rada <strong>de</strong> términos simi<strong>la</strong>res.<br />
3 Método <strong>de</strong> Desambiguación<br />
McCarthy et al. [2] propuso un algoritmo no supervisado para <strong>en</strong>contrar el s<strong>en</strong>tido<br />
predominante <strong>de</strong> una pa<strong>la</strong>bra, sin tomar <strong>en</strong> cu<strong>en</strong>ta <strong>la</strong> frecu<strong>en</strong>cia <strong>de</strong><br />
WordNet/SemCor. Se basa <strong>en</strong> el tesauro <strong>de</strong> Lin [13] para <strong>de</strong>terminar <strong>la</strong> similitud <strong>en</strong>tre<br />
pa<strong>la</strong>bras. Para una instancia ambigua w se consi<strong>de</strong>ra todas <strong>la</strong>s pa<strong>la</strong>bras u re<strong>la</strong>cionadas<br />
a w <strong>en</strong> el tesauro <strong>de</strong> Lin. Usando un algoritmo <strong>de</strong> maximización cada vocablo u emite<br />
un voto por un s<strong>en</strong>tido ws i <strong>de</strong> w, <strong>de</strong> tal manera que el s<strong>en</strong>tido con mayor cantidad <strong>de</strong><br />
votos es el elegido como el s<strong>en</strong>tido predominante <strong>de</strong> w y, <strong>en</strong> particu<strong>la</strong>r, esta heurística<br />
se pue<strong>de</strong> utilizar <strong>en</strong> <strong>WSD</strong>.<br />
Este método <strong>de</strong> <strong>de</strong>sambiguación no utiliza el contexto <strong>de</strong>l vocablo ambiguo para<br />
obt<strong>en</strong>er un conjunto <strong>de</strong> términos re<strong>la</strong>cionados, por <strong>en</strong><strong>de</strong> siempre se le asignará el<br />
mismo s<strong>en</strong>tido a una instancia ambigua. El s<strong>en</strong>tido elegido como predominante para<br />
una pa<strong>la</strong>bra <strong>de</strong>p<strong>en</strong><strong>de</strong> únicam<strong>en</strong>te <strong>de</strong> <strong>los</strong> corpus utilizados para construir el tesauro.<br />
En el método <strong>de</strong> <strong>de</strong>sambiguación p<strong>la</strong>nteado <strong>en</strong> Tejada et al. [1], un WSM<br />
previam<strong>en</strong>te construido proporciona una lista <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados con el<br />
contexto <strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra ambigua. Al igual que McCarthy et. al. cada uno vota por un<br />
s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra ambigua (mediante su algoritmo <strong>de</strong> maximización); pero <strong>en</strong> este<br />
caso se elige el s<strong>en</strong>tido <strong>de</strong> <strong>la</strong> instancia ambigua <strong>en</strong> un contexto específico (ver fig. 3).
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
vocablo ambiguo w<br />
pa<strong>la</strong>bra<br />
contextual c1<br />
w s<strong>en</strong>tidos<br />
pa<strong>la</strong>bra<br />
contextual c2<br />
pa<strong>la</strong>bra<br />
contextual c3<br />
...<br />
w<br />
c 1<br />
c 2<br />
c 3<br />
WSM -<br />
r 1<br />
r 2<br />
r 3<br />
r 4<br />
r 5<br />
r 6<br />
r 7<br />
r 8<br />
r 9<br />
términos más simi<strong>la</strong>res al vector <br />
usando como medida el cos<strong>en</strong>o <strong>de</strong> dos vectores<br />
Fig. 3. Método <strong>de</strong> <strong>de</strong>sambiguación p<strong>la</strong>nteado<br />
3.1 Algoritmo <strong>de</strong> maximización<br />
Este algoritmo permite que cada vocablo pon<strong>de</strong>rado emita un voto para cada s<strong>en</strong>tido<br />
<strong>de</strong> <strong>la</strong> pa<strong>la</strong>bra polisémica. El s<strong>en</strong>tido con el puntaje más alto es seleccionado. Las<br />
ecuaciones sigui<strong>en</strong>tes muestran cómo <strong>la</strong> lista <strong>de</strong> vocab<strong>los</strong> pon<strong>de</strong>rados acumu<strong>la</strong> una<br />
puntuación para un s<strong>en</strong>tido.<br />
(5)<br />
(6)<br />
(7)<br />
En estas ecuaciones, w es <strong>la</strong> pa<strong>la</strong>bra ambigua, w si es cada uno <strong>de</strong> <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> w,<br />
LT w es <strong>la</strong> lista pon<strong>de</strong>rada <strong>de</strong> <strong>los</strong> términos y t j es cada término. P(w, t j ) repres<strong>en</strong>ta <strong>la</strong><br />
similitud semántica <strong>en</strong>tre w y t j . Este valor se ha calcu<strong>la</strong>do <strong>en</strong> el WSM. P Norm<br />
repres<strong>en</strong>ta cómo vamos a normalizar el peso <strong>de</strong> w si utilizando todos <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> w<br />
y el t j actual.<br />
La función pswn <strong>de</strong>vuelve el s<strong>en</strong>tido <strong>de</strong> una pa<strong>la</strong>bra que ti<strong>en</strong>e <strong>la</strong> mayor similitud<br />
semántica con un s<strong>en</strong>tido particu<strong>la</strong>r. Por ejemplo, pswn (w si , t j ) compara todos <strong>los</strong><br />
s<strong>en</strong>tidos <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> re<strong>la</strong>cionados t j con w si y obti<strong>en</strong>e el s<strong>en</strong>tido <strong>de</strong> t j que ti<strong>en</strong>e
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
más similitud semántica con respecto a w si . La fig. 4 muestra el algoritmo <strong>de</strong><br />
maximización.<br />
Fig. 4. Algoritmo <strong>de</strong> maximización<br />
Nosotros usamos WordNet::Simi<strong>la</strong>rity pres<strong>en</strong>tado <strong>en</strong> [14] para medir <strong>la</strong> similitud<br />
semántica <strong>en</strong>tre dos s<strong>en</strong>tidos. Se trata <strong>de</strong> un conjunto <strong>de</strong> librerías que implem<strong>en</strong>tan<br />
medidas <strong>de</strong> similitud y re<strong>la</strong>ción semántica <strong>de</strong> WordNet. Hemos estado utilizando el<br />
Adapted Lesk (Ext<strong>en</strong><strong>de</strong>d G<strong>los</strong>s Over<strong>la</strong>p) como medida <strong>de</strong> similitud [15], Pero es<br />
posible utilizar otras medidas semánticas como: JCN [17] Resnik [18], Lin [19], etc.<br />
3.2 Recuperación <strong>de</strong> Términos Re<strong>la</strong>cionados<br />
En esta etapa se obti<strong>en</strong>e un conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados con <strong>la</strong> instancia<br />
ambigua. Este proceso <strong>de</strong> selección toma <strong>en</strong> cu<strong>en</strong>ta el contexto <strong>de</strong>l vocablo ambiguo.<br />
A continuación se <strong>de</strong>scribe dicho proceso <strong>en</strong> cada uno <strong>de</strong> <strong>los</strong> oríg<strong>en</strong>es <strong>de</strong> información<br />
<strong>de</strong>scritos <strong>en</strong> <strong>la</strong> sección 2.<br />
3.2.1 Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras<br />
El WSM almac<strong>en</strong>a vectores <strong>de</strong> dim<strong>en</strong>sionalidad n. Para <strong>de</strong>terminar <strong>los</strong> vocab<strong>los</strong><br />
re<strong>la</strong>cionados con <strong>la</strong> instancia ambigua, se crea un vector <strong>en</strong> el que se repres<strong>en</strong>te su<br />
contexto y se le compara con <strong>los</strong> exist<strong>en</strong>tes <strong>en</strong> el WSM. Los vectores más simi<strong>la</strong>res<br />
<strong>de</strong>terminan <strong>los</strong> vocab<strong>los</strong> re<strong>la</strong>cionados. La dim<strong>en</strong>sionalidad <strong>de</strong>l vector ambiguo es n y<br />
el peso <strong>de</strong> pon<strong>de</strong>ración <strong>en</strong> cada dim<strong>en</strong>sión, <strong>de</strong>p<strong>en</strong><strong>de</strong> <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto.<br />
En <strong>la</strong> Tab<strong>la</strong> 2, se muestran <strong>los</strong> vectores <strong>de</strong> un WSM. Las columnas d i son <strong>la</strong>s<br />
dim<strong>en</strong>siones <strong>de</strong> <strong>los</strong> vectores, y <strong>la</strong>s fi<strong>la</strong>s son <strong>los</strong> vocab<strong>los</strong> <strong>de</strong>l sistema. w es el vocablo<br />
ambiguo y su vector indica que <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto son d 2 y d 4 . La columna<br />
similitud, or<strong>de</strong>nada <strong>de</strong>sc<strong>en</strong><strong>de</strong>ntem<strong>en</strong>te, indica que el vocablo r 1 es más simi<strong>la</strong>r<br />
a w, que el vocablo r n .
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
Table 2. Vectores <strong>en</strong> un WSM<br />
d 1 d 2 d 3 d 4 d 5 d 6 … d n Similitud<br />
w 0 1 0 1 0 0 … 0<br />
r 1 1 2 6 5 2 2 … 0 0.99<br />
r 2 0 5 4 0 1 1 … 3 0.92<br />
r 3 4 4 3 3 1 1 … 0 0.83<br />
…<br />
…<br />
r n 0 4 0 5 2 2 … 4 0.68<br />
…<br />
Exist<strong>en</strong> varias maneras <strong>de</strong> computar <strong>la</strong> similitud <strong>de</strong> dos vectores y <strong>en</strong> nuestro<br />
método se <strong>de</strong>termina mediante el valor <strong>de</strong>l cos<strong>en</strong>o <strong>de</strong>l ángulo que forman expresado<br />
por el coci<strong>en</strong>te <strong>en</strong>tre el producto punto y el producto cruz (ver ecuación 8).<br />
…<br />
(8)<br />
.<br />
3.2.2 Tesauro <strong>de</strong> Mobby<br />
Una <strong>en</strong>trada o vocablo <strong>en</strong> el tesauro <strong>de</strong> Mobby es un conjunto <strong>de</strong> pa<strong>la</strong>bras listadas<br />
alfabéticam<strong>en</strong>te, que carec<strong>en</strong> <strong>de</strong> algún valor o peso <strong>de</strong> pon<strong>de</strong>ración que <strong>de</strong>termine el<br />
grado <strong>de</strong> similitud o re<strong>la</strong>ción semántica con dicha <strong>en</strong>trada. (ver sección 2.2). Para<br />
ello, se ha creado un método que tome <strong>en</strong> cu<strong>en</strong>ta el contexto <strong>en</strong> <strong>la</strong> selección <strong>de</strong><br />
términos re<strong>la</strong>cionados proporcionados por dicho tesauro, el cual se <strong>de</strong>tal<strong>la</strong> a<br />
continuación:<br />
1. Obt<strong>en</strong>er el contexto <strong>de</strong>l vocablo ambiguo repres<strong>en</strong>tado <strong>en</strong>: C(w) ={c 1 , c 2 ,…, c i },<br />
don<strong>de</strong> w es <strong>la</strong> instancia ambigua y c i es cada uno <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto.<br />
2. Obt<strong>en</strong>er el conjunto <strong>de</strong> pa<strong>la</strong>bras listadas alfabéticam<strong>en</strong>te para el vocablo<br />
ambiguo, que proporciona este tesauro, repres<strong>en</strong>tado <strong>en</strong>: S(w) ={sw 1 , sw 2 ,…,<br />
sw i }, don<strong>de</strong> w es el vocablo ambiguo y sw i , cada una <strong>de</strong> <strong>la</strong>s pa<strong>la</strong>bras que<br />
proporciona el tesauro.<br />
3. Discriminar <strong>los</strong> vocab<strong>los</strong> obt<strong>en</strong>idos <strong>en</strong> S(w) tomando <strong>en</strong> cu<strong>en</strong>ta C(w). Para ello,<br />
se construye un WSM (ver Tab<strong>la</strong> 3) don<strong>de</strong> cada columna es una pa<strong>la</strong>bra <strong>de</strong> C(w)<br />
y cada fi<strong>la</strong>, un miembro <strong>de</strong> S(w). Se incluye el vocablo ambiguo w como una fi<strong>la</strong><br />
más.<br />
Tab<strong>la</strong> 3. WSM usando tesauro <strong>de</strong> Mobby<br />
c 1 c 2 c 3 c i<br />
sw 1 (c 1, sw 1 ) (c 2, sw 1 ) (c 3, sw 1 ) (c i, sw 1 )
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
sw 2 (c 1, sw 2 ) (c 2, sw 2 ) (c 3, sw 2 ) (c i, sw 2 )<br />
sw 3 (c 1, sw 3 ) (c 2, sw 3 ) (c 3, sw 3 ) (c i, sw 3 )<br />
sw j (c 1, sw j ) (c 2, sw j ) (c 3, sw j ) (c i, sw j )<br />
w (c 1, w) (c 2, w) (c 3, w) (c i, w)<br />
Cada par or<strong>de</strong>nado repres<strong>en</strong>ta <strong>la</strong> máxima similitud semántica <strong>en</strong>tre c i y sw i o <strong>en</strong><br />
su caso, w. Este valor se computa comparando todos <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> c i con <strong>los</strong> <strong>de</strong><br />
sw i (ver figura 5) y se elige el más alto. La comparación <strong>de</strong> dos s<strong>en</strong>tidos se<br />
realiza mediante el paquete WordNet::Simi<strong>la</strong>rity usando <strong>la</strong> medida <strong>de</strong> similitud<br />
semántica ext<strong>en</strong><strong>de</strong>d g<strong>los</strong>s over<strong>la</strong>p (una adaptación <strong>de</strong> algoritmo <strong>de</strong> Lesk) [15]<br />
Fig. 5. Comparación <strong>de</strong> <strong>los</strong> s<strong>en</strong>tidos <strong>de</strong> dos vocab<strong>los</strong>.<br />
4. Finalm<strong>en</strong>te, se compara el vector <strong>de</strong> w, con cada uno <strong>de</strong> <strong>los</strong> vectores <strong>de</strong> sw i<br />
usando el cos<strong>en</strong>o <strong>de</strong> dos vectores obt<strong>en</strong>i<strong>en</strong>do <strong>de</strong> esta manera <strong>los</strong> vocab<strong>los</strong> más<br />
re<strong>la</strong>cionados.<br />
3.2.3 Tesauro <strong>de</strong> Lin<br />
A difer<strong>en</strong>cia <strong>de</strong>l tesauro <strong>de</strong> Mobby, el tesauro <strong>de</strong> Lin proporciona un valor que<br />
cuantifica <strong>la</strong> similitud semántica para cada pa<strong>la</strong>bra correspondi<strong>en</strong>te a una <strong>en</strong>trada.<br />
Este valor hace refer<strong>en</strong>cia a <strong>la</strong>s pa<strong>la</strong>bras que usualm<strong>en</strong>te se usan juntas. Por ejemplo,<br />
<strong>en</strong> <strong>la</strong> oración Las estrel<strong>la</strong>s <strong>de</strong>l firmam<strong>en</strong>to luc<strong>en</strong> más hermosas que nunca, al<br />
consultar este tesauro por <strong>la</strong>s pa<strong>la</strong>bras más re<strong>la</strong>cionadas con estrel<strong>la</strong>, obt<strong>en</strong>dríamos<br />
cantante, música, g<strong>la</strong>mour, mi<strong>en</strong>tras <strong>la</strong>s m<strong>en</strong>os re<strong>la</strong>cionadas serían p<strong>la</strong>neta, astro,<br />
universo.<br />
En el contexto <strong>en</strong> el que aparece firmam<strong>en</strong>to, <strong>los</strong> vocab<strong>los</strong> p<strong>la</strong>neta, astro, universo<br />
ti<strong>en</strong><strong>en</strong> mayor re<strong>la</strong>ción que cantante, música, g<strong>la</strong>mour. Por esto se pres<strong>en</strong>ta un método<br />
que usando este tesauro, obt<strong>en</strong>ga <strong>los</strong> vocab<strong>los</strong> más re<strong>la</strong>cionados a una instancia<br />
ambigua tomando <strong>en</strong> cu<strong>en</strong>ta su contexto. Dicho método se <strong>de</strong>tal<strong>la</strong> a continuación:<br />
1. Obt<strong>en</strong>er el contexto <strong>de</strong>l vocablo ambiguo repres<strong>en</strong>tado <strong>en</strong>: C(w) ={c 1 , c 2 ,…, c i },<br />
don<strong>de</strong> w es <strong>la</strong> instancia ambigua y c i es cada uno <strong>de</strong> <strong>los</strong> vocab<strong>los</strong> <strong>de</strong> su contexto.<br />
2. Obt<strong>en</strong>er el conjunto <strong>de</strong> pa<strong>la</strong>bras re<strong>la</strong>cionadas que proporciona este tesauro para <strong>la</strong><br />
instancia ambigua, repres<strong>en</strong>tado <strong>en</strong>: S(w) ={(sw 1, p 1 ), (sw 2, p 2 ),…, (sw i, p i )}, don<strong>de</strong>
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
w es el vocablo ambiguo, sw i cada vocablo simi<strong>la</strong>r que proporciona el tesauro <strong>de</strong><br />
Lin y p i es el peso que se le asigna a <strong>la</strong> re<strong>la</strong>ción semántica <strong>en</strong>tre sw i y w.<br />
3. Discriminar <strong>los</strong> vocab<strong>los</strong> obt<strong>en</strong>idos <strong>en</strong> S(w) tomando <strong>en</strong> cu<strong>en</strong>ta C(w). Las<br />
columnas repres<strong>en</strong>tan cada uno <strong>de</strong> <strong>los</strong> miembros <strong>de</strong>l contexto y <strong>la</strong>s fi<strong>la</strong>s <strong>los</strong><br />
vocab<strong>los</strong> simi<strong>la</strong>res. Asimismo, se incluye w como una fi<strong>la</strong> más <strong>de</strong>l WSM (ver<br />
Tab<strong>la</strong> 4), asignando <strong>la</strong> máxima similitud semántica <strong>en</strong>tre w y cada uno <strong>de</strong> <strong>los</strong><br />
miembros <strong>de</strong> su contexto. El peso que cuantifica <strong>la</strong> re<strong>la</strong>ción semántica <strong>en</strong>tre c i y<br />
sw i es el proporcionado por este tesauro.<br />
Tab<strong>la</strong> 4. WSM usando tesauro <strong>de</strong> Lin<br />
c 1 c 2 c 3 c i<br />
sw 1 (c 1, sw 1 ) (c 2, sw 1 ) (c 3, sw 1 ) (c i, sw 1 )<br />
sw 2 (c 1, sw 2 ) (c 2, sw 2 ) (c 3, sw 2 ) (c i, sw 2 )<br />
sw 3 (c 1, sw 3 ) (c 2, sw 3 ) (c 3, sw 3 ) (c i, sw 3 )<br />
sw j (c 1, sw j ) (c 2, sw j ) (c 3, sw j ) (c i, sw j )<br />
w (c 1, w) (c 2, w) (c 3, w) (c i, w)<br />
4. Finalm<strong>en</strong>te, se compara el vector <strong>de</strong> w, con cada uno <strong>de</strong> <strong>los</strong> vectores <strong>de</strong> sw i<br />
usando el cos<strong>en</strong>o <strong>de</strong> dos vectores obt<strong>en</strong>i<strong>en</strong>do <strong>de</strong> esta manera <strong>los</strong> vocab<strong>los</strong> más<br />
re<strong>la</strong>cionados.<br />
4 Experim<strong>en</strong>tos y Resultados<br />
El método <strong>de</strong> <strong>de</strong>sambiguación utilizado ya ha sido publicado <strong>en</strong> uno <strong>de</strong> nuestros<br />
artícu<strong>los</strong> anteriores [1]. Éste método superó <strong>los</strong> resultados obt<strong>en</strong>idos por el mejor<br />
método <strong>de</strong>sambiguación exist<strong>en</strong>te hasta el mom<strong>en</strong>to que fue publicado por Diana Mc.<br />
Carthy et. al. [2]. Dichos resultados se muestran <strong>en</strong> <strong>la</strong> Tab<strong>la</strong> 5.<br />
Tab<strong>la</strong> 5. Resultados <strong>de</strong> SENSEVAL-2<br />
Or<strong>de</strong>n Sistema Tipo Precision Recall Cobertura (%)<br />
1 SMUaw supervisado 0.69 0.69 100<br />
Mc.Carthy et al. no supervisado 0.64 0.63 100<br />
2 CNTS-Antwerp supervisado 0.636 0.636 100<br />
3 Sinequa-LIA - HMM supervisado 0.618 0.618 100<br />
WordNet most frequ<strong>en</strong>t<br />
– s<strong>en</strong>se supervisado 0.605 0.605 100<br />
4 UNED - AW-U2 no supervisado 0.575 0.569 98.9<br />
5 UNED - AW-U no supervisado 0.556 0.55 98.9<br />
6 UCLA - gchao2 supervisado 0.475 0.454 95.55<br />
7 UCLA - gchao3 supervisado 0.474 0.453 95.55
Número <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados<br />
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
9<br />
CL Research - DIMAP<br />
(R) no supervisado 0.451 0.451 100<br />
10 UCLA - gchao supervisado 0.5 0.449 89.72<br />
En <strong>los</strong> experim<strong>en</strong>tos realizados hemos usado como corpus <strong>de</strong> evaluación <strong>los</strong><br />
sustantivos <strong>de</strong> SENSEVAL-2. El Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras ha sido creado<br />
tomando British National Corpus (100 millones <strong>de</strong> pa<strong>la</strong>bras) como corpus <strong>de</strong><br />
<strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to.<br />
Tab<strong>la</strong> 6. Resultados <strong>de</strong> <strong>WSD</strong> usando difer<strong>en</strong>tes fu<strong>en</strong>tes <strong>de</strong> información<br />
WSM MOBBY LIN<br />
10 61.62 58.9 61.82<br />
20 63.46 56.04 60.47<br />
30 64 57.62 60.86<br />
40 64 60.16 61.59<br />
50 64 58.26 64.46<br />
60 66.43 57.62 63.95<br />
70 68.66 58.57 64.89<br />
100 67.22 57.62 65.05<br />
200 69.08 57.31 65.13<br />
500 70.55 58.26 63.97<br />
1000 65.12 55.09 59.92<br />
2000 62.1 53.8 63.66<br />
Promedio 65.52 57.44 62.98<br />
La Tab<strong>la</strong> 6 muestra <strong>los</strong> resultados obt<strong>en</strong>idos por el método <strong>de</strong> <strong>de</strong>sambiguación<br />
cuando el grupo <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados para una instancia ambigua son<br />
proporcionados por difer<strong>en</strong>tes fu<strong>en</strong>tes <strong>de</strong> información: WSM, Tesauro <strong>de</strong> Mobby y<br />
Tesauro <strong>de</strong> Lin. En dicha tab<strong>la</strong> se pue<strong>de</strong> observar que <strong>los</strong> mejores resultados se<br />
consigue con el WSM, seguido por el tesauro <strong>de</strong> Lin y luego el tesauro <strong>de</strong> Mobby.<br />
Asimismo se aprecia que <strong>los</strong> mejores resultados se obtuvieron con 40, 200 y 500<br />
vocab<strong>los</strong> re<strong>la</strong>cionados. Finalm<strong>en</strong>te <strong>en</strong> <strong>la</strong> fig. 6 se pue<strong>de</strong> ver con mayor c<strong>la</strong>ridad como<br />
<strong>los</strong> vocab<strong>los</strong> suministrador por el WSM ti<strong>en</strong><strong>en</strong> mejores resultados <strong>en</strong> el método <strong>de</strong><br />
<strong>WSD</strong>.
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
Fig. 6. Resultados <strong>de</strong> <strong>WSD</strong> usando difer<strong>en</strong>tes fu<strong>en</strong>tes <strong>de</strong> información<br />
5 Conclusiones y Trabajo Futuro<br />
Los resultados obt<strong>en</strong>idos nos permit<strong>en</strong> concluir que un grupo <strong>de</strong> vocab<strong>los</strong><br />
suministrados por <strong>recursos</strong> construidos automáticam<strong>en</strong>te ti<strong>en</strong><strong>en</strong> mejor r<strong>en</strong>dimi<strong>en</strong>to<br />
que aquel<strong>los</strong> que proporcionan <strong>recursos</strong> construidos manualm<strong>en</strong>te cuando son<br />
utilizados <strong>en</strong> el método <strong>de</strong> <strong>de</strong>sambiguación p<strong>la</strong>nteado. Los grupos <strong>de</strong> vocab<strong>los</strong><br />
re<strong>la</strong>cionados obt<strong>en</strong>idos <strong>de</strong>l Mo<strong>de</strong>lo <strong>de</strong> Espacio <strong>de</strong> Pa<strong>la</strong>bras y <strong>de</strong>l Tesauro <strong>de</strong> Lin<br />
obti<strong>en</strong><strong>en</strong> mejores resultados que <strong>los</strong> vocab<strong>los</strong> re<strong>la</strong>cionados obt<strong>en</strong>idos <strong>de</strong>l Tesauro <strong>de</strong><br />
Mobby. No po<strong>de</strong>mos afirmar que este comportami<strong>en</strong>to sea el mismo para cualquier<br />
aplicación <strong>de</strong>l l<strong>en</strong>guaje natural, sin embargo es un indicador importante a tomar <strong>en</strong><br />
cu<strong>en</strong>ta cuando se necesite elegir un conjunto <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados.<br />
Nosotros creemos que este comportami<strong>en</strong>to se <strong>de</strong>be a que cuando un proceso no<br />
supervisado construye un recurso léxico, como el WSM o el Tesauro <strong>de</strong> Lin, <strong>de</strong><br />
términos simi<strong>la</strong>res o re<strong>la</strong>cionados semánticam<strong>en</strong>te sólo toma <strong>en</strong> cu<strong>en</strong>ta <strong>la</strong> información<br />
exist<strong>en</strong>te <strong>de</strong>ntro <strong>de</strong>l texto que se procesa; sin embargo el grupo <strong>de</strong> lexicógrafos que<br />
crean un recurso manual posiblem<strong>en</strong>te se v<strong>en</strong> influ<strong>en</strong>ciados por un mundo pragmático<br />
que <strong>los</strong> métodos no supervisados no <strong>de</strong>tectan.<br />
Asimismo, otra razón que pue<strong>de</strong> explicar <strong>la</strong> preval<strong>en</strong>cia <strong>de</strong> <strong>los</strong> vocab<strong>los</strong><br />
re<strong>la</strong>cionados obt<strong>en</strong>ido <strong>de</strong> <strong>recursos</strong> <strong>automáticos</strong> sobre <strong>los</strong> <strong>manuales</strong>, es <strong>la</strong> dim<strong>en</strong>sión<br />
<strong>de</strong> <strong>los</strong> <strong>recursos</strong> <strong>de</strong> <strong>en</strong>tr<strong>en</strong>ami<strong>en</strong>to que se utilizan <strong>en</strong> <strong>los</strong> métodos no supervisados. Por<br />
ejemplo para <strong>la</strong> construcción <strong>de</strong>l WSM se ha utilizado un corpus <strong>de</strong> 100 millones <strong>de</strong><br />
pa<strong>la</strong>bras. Si se compara <strong>la</strong> cantidad <strong>de</strong> vocab<strong>los</strong> re<strong>la</strong>cionados que prove<strong>en</strong> <strong>los</strong> <strong>recursos</strong><br />
creados automáticam<strong>en</strong>te con aquel<strong>los</strong> que prove<strong>en</strong> <strong>los</strong> <strong>recursos</strong> <strong>manuales</strong>, <strong>la</strong><br />
difer<strong>en</strong>cia es muy notoria. Sea como fuere, creemos que <strong>la</strong> t<strong>en</strong><strong>de</strong>ncia <strong>en</strong> <strong>la</strong>s<br />
aplicaciones <strong>de</strong> l<strong>en</strong>guaje natural es utilizar métodos no supervisados para <strong>la</strong> creación<br />
<strong>de</strong> <strong>recursos</strong> <strong>léxicos</strong> cuyo objetivo sea proveer términos re<strong>la</strong>cionados semánticam<strong>en</strong>te.
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
6 Refer<strong>en</strong>cias<br />
1. Tejada, J., Gelbukh A., Calvo, H. An Innovative Two-Stage <strong>WSD</strong> Unsupervised<br />
Method. SEPLN Journal 40, March 2008.<br />
2. McCarthy, D. and R. Navigli (2009) The English Lexical Substitution Task, To<br />
appear in Language Resources and Evaluation 43 (2) Special Issue on Computational<br />
Semantic Analysis of Language: SemEval-2007 and Beyond, Agirre, E., Marquez, L.<br />
and Wic<strong>en</strong>towksi, R. (Eds). pp 139-159 Springer, 2009.<br />
3. Sahlgr<strong>en</strong>, Magnus. The Word-Space Mo<strong>de</strong>l Using distributional analysis to repres<strong>en</strong>t<br />
syntagmatic and paradigmatic re<strong>la</strong>tions betwe<strong>en</strong> words in high-dim<strong>en</strong>sional vector<br />
spaces, Ph.D. dissertation, Departm<strong>en</strong>t of Linguistics, Stockholm University, 2006.<br />
4. Schütze, Hinrich: Dim<strong>en</strong>sions of meaning. Proceedings of Supercomputing’92. IEEE<br />
Computer Society Press, Los A<strong>la</strong>mitos, California. 787-796 (1992)<br />
5. Landauer, T., & Dumais, S.: A solution to p<strong>la</strong>to's problem: The <strong>la</strong>t<strong>en</strong>t semantic<br />
analysis theory of acquisition, induction and repres<strong>en</strong>tation of knowledge.<br />
Psychological Review, 104 (2), 211{240 (1997)<br />
6. Lund, K., Burgess, C., & Atchley, R.: Semantic and associative priming in highdim<strong>en</strong>sional<br />
semantic space. In Proceedings of the 17th Annual Confer<strong>en</strong>ce of the<br />
Cognitive Sci<strong>en</strong>ce Society, CogSci'95 (pp. 660{665). Erlbaum (1995)<br />
7. Landauer, T., & Dumais, S. (1997). A solution to p<strong>la</strong>to's problem: The <strong>la</strong>t<strong>en</strong>t<br />
semantic analysis theory of acquisition, induction and repres<strong>en</strong>tation of<br />
knowledge. Psychological Review, 104 (2), 211{240.<br />
8. Lund, K., Burgess, C., & Atchley, R. (1995). Semantic and associative<br />
priming in high-dim<strong>en</strong>sional semantic space. In Proceedings of the 17th<br />
Annual Confer<strong>en</strong>ce of the Cognitive Sci<strong>en</strong>ce Society, CogSci'95 (pp.<br />
660{665). Erlbaum.<br />
9. Sahlgr<strong>en</strong>, M. (2005). An introduction to random in<strong>de</strong>xing. In H. Witschel<br />
(Ed.), Methods and Applications of Semantic In<strong>de</strong>xing Workshop at the 7th<br />
International Confer<strong>en</strong>ce on Terminology and Knowledge Engineering,<br />
TKE'05,Cop<strong>en</strong>hag<strong>en</strong>, D<strong>en</strong>mark, august 16, 2005 (Vol. 87).<br />
10. Pe<strong>de</strong>rs<strong>en</strong>, T.; Patwardhan, S. and Michelizzi (2004).WordNet::Simi<strong>la</strong>rity -<br />
Measuring the Re<strong>la</strong>tedness of Concepts. Appears in the Proceedings of Fifth<br />
Annual Meeting of the North American Chapter of the Association for<br />
Computational Linguistics (NAACL-04), May 3-5, 2004, Boston, MA<br />
(Demonstration System).<br />
11. Zipf, G.(1949). Human behavior and the principle of least-e_ort. Cambridge,<br />
MA: Addison-Wesley.<br />
12. Lin, D. (1998). Automatic retrieval and clustering of simi<strong>la</strong>r words.<br />
Proceedings of C I G C -. pp. 768-774. Montreal, Canada.<br />
13. Lin, D. (1997). Using syntactic <strong>de</strong>p<strong>en</strong><strong>de</strong>ncy as a local context to resolve<br />
word s<strong>en</strong>se ambiguity. In Proceedings of the 35th Annual Meeting of the<br />
Association for Computational Linguistics, pages 64–71, Madrid, July 1997.<br />
14. Pe<strong>de</strong>rs<strong>en</strong>, T.; Patwardhan, S. and Michelizzi (2004).WordNet::Simi<strong>la</strong>rity -<br />
Measuring the Re<strong>la</strong>tedness of Concepts. Appears in the Proceedings of Fifth<br />
Annual Meeting of the North American Chapter of the Association for<br />
Computational Linguistics (NAACL-04), May 3-5, 2004, Boston, MA<br />
(Demonstration System).
Javier Tejada Cárcamo, Hiram Calvo, Alexan<strong>de</strong>r Gelbukh, José Villegas<br />
15. Lesk, Michael (1986). Automated S<strong>en</strong>se Disambiguation Using Machinereadable<br />
Dictionaries: How to Tell a Pine one from an Ice Cream Cone.<br />
Proceedings of the 1986 SIGDOC Confer<strong>en</strong>ce, Toronto, Canada, June 1986,<br />
24-26.<br />
16. Jiang, J. and Conrath D. (1997). Semantic simi<strong>la</strong>rity based on corpus<br />
statistics and lexical taxonomy. In Proceedings on International Confer<strong>en</strong>ce<br />
on Research in Computational Linguistics, Taiwan, 1997.<br />
17. Resnik, Philip, Using information cont<strong>en</strong>t to evaluate semantic simi<strong>la</strong>rity in a<br />
taxonomy, Montreal. Proceedings of the 14th International Joint Confer<strong>en</strong>ce on<br />
Artificial Intellig<strong>en</strong>ce, 1995, pp. 448-453.<br />
18. Lin, D. (1998). Automatic retrieval and clustering of simi<strong>la</strong>r words.<br />
Proceedings of C I G C -. pp. 768-774. Montreal, Canada.<br />
19. Schütze, Hinrich (1993). Word space. In Hanson, Steph<strong>en</strong> J.; Cowan, Jack D.<br />
and Giles, C. Lee (Eds.) Advances in Neural Information Processing<br />
Systems 5, Morgan Kauffman, San Mateo, California, 5, 895-902.