Anne Jaigu
07-25-2004, 02:49 AM
Thèse présentée devant IFSIC
Thesis submitted to IFSIC
Vincent Claveau - 17 décembre 2003
Acquisition automatique de lexiques sémantiques pour la recherche
d'information
http://www.irisa.fr/bibli/publi/theses/2003/claveau/claveau.html
Résumé
De nombreuses applications du traitement automatique des langues
(recherche d'information, traduction automatique, etc.) requièrent des
ressources sémantiques spécifiques à leur tâche et à leur domaine. Pour
répondre à ces besoins spécifiques, nous avons développé ASARES, un
système d'acquisition d'informations sémantiques lexicales sur
corpus. Celui-ci répond à un triple objectif : il permet de fournir des
résultats de bonne qualité, ses résultats et le processus ayant conduit
à leur extraction sont interprétables, et enfin, il est assez générique
et automatique pour être aisément portable d'un corpus à un autre. Pour
ce faire, ASARES s'appuie sur une technique d'apprentissage artificiel
symbolique --- la programmation logique inductive --- qui lui permet
d'inférer des patrons d'extraction morphosyntaxiques et sémantiques à
partir d'exemples des éléments lexicaux sémantiques que l'on souhaite
acquérir. Ces patrons sont ensuite utilisés pour extraire du corpus de
nouveaux éléments. Nous montrons également qu'il est possible de
combiner cette approche symbolique avec des techniques d'acquisition
statistiques qui confèrent une plus grande automaticité à ASARES. Pour
évaluer la validité de notre méthode, nous l'avons appliquée à
l'extraction d'un type de relations sémantiques entre noms et verbes
définies au sein du Lexique génératif appelées relations qualia. Cette
tâche d'acquisition revêt deux intérêts principaux. D'une part, ces
relations ne sont définies que de manière théorique ; l'interprétabilité
linguistique des patrons inférés permet donc d'en préciser le
fonctionnement et les réalisations en contexte. D'autre part, plusieurs
auteurs ont noté l'intérêt de ce type de relations dans le domaine de la
recherche d'information pour donner accès à des reformulations
sémantiquement équivalentes d'une même idée. Grâce à une expérience
d'extension de requêtes, nous vérifions expérimentalement cette
affirmation : nous montrons que les résultats d'un système de recherche
exploitant ces relations qualia, acquises par ASARES, sont améliorés de
manière significative quoique localisée.
Abstract
Many applications in the field of Natural Language Processing
(information retrieval, machine translation, etc.) need semantic
resources that are specific to their tasks and domains. To satisfy this
need we have developed ASARES, a corpus-based lexical semantic
acquisition system. It fulfills three objectives: it has good extraction
results; these results and the whole acquisition process are
interpretable; and it is generic and automatic enough to be easily
portable from a corpus to another. To achieve these goals, ASARES uses a
machine learning method ---inductive logic programming--- which makes
possible to infer part-of-speech and semantic patterns from examples of
the semantic elements we want to acquire. These patterns are then used
to extract new elements from the corpus. We also show that it is
possible to combine this symbolic method with statistical acquisition
methods to make ASARES more automatic. To validate our system, we have
used it to acquire a kind of semantic relations between nouns and verbs
defined in the Generative Lexicon and called qualia relations. This task
has two main interests. On one hand, these relations are defined only in
a theoretical point of view; the linguistic interpretation of the
patterns thus allows to have a deeper understanding of their contextual
realizations. On the other hand, several authors have noticed that such
relations can be useful in information retrieval tasks because they make
semantically equivalent reformulations of ideas accessible. With the
help of a query expansion experiment using qualia relations extracted
with ASARES, we show that this assumption is true to a certain extend:
the performances of an information retrieval system are significantly
improved though localized.
Thesis submitted to IFSIC
Vincent Claveau - 17 décembre 2003
Acquisition automatique de lexiques sémantiques pour la recherche
d'information
http://www.irisa.fr/bibli/publi/theses/2003/claveau/claveau.html
Résumé
De nombreuses applications du traitement automatique des langues
(recherche d'information, traduction automatique, etc.) requièrent des
ressources sémantiques spécifiques à leur tâche et à leur domaine. Pour
répondre à ces besoins spécifiques, nous avons développé ASARES, un
système d'acquisition d'informations sémantiques lexicales sur
corpus. Celui-ci répond à un triple objectif : il permet de fournir des
résultats de bonne qualité, ses résultats et le processus ayant conduit
à leur extraction sont interprétables, et enfin, il est assez générique
et automatique pour être aisément portable d'un corpus à un autre. Pour
ce faire, ASARES s'appuie sur une technique d'apprentissage artificiel
symbolique --- la programmation logique inductive --- qui lui permet
d'inférer des patrons d'extraction morphosyntaxiques et sémantiques à
partir d'exemples des éléments lexicaux sémantiques que l'on souhaite
acquérir. Ces patrons sont ensuite utilisés pour extraire du corpus de
nouveaux éléments. Nous montrons également qu'il est possible de
combiner cette approche symbolique avec des techniques d'acquisition
statistiques qui confèrent une plus grande automaticité à ASARES. Pour
évaluer la validité de notre méthode, nous l'avons appliquée à
l'extraction d'un type de relations sémantiques entre noms et verbes
définies au sein du Lexique génératif appelées relations qualia. Cette
tâche d'acquisition revêt deux intérêts principaux. D'une part, ces
relations ne sont définies que de manière théorique ; l'interprétabilité
linguistique des patrons inférés permet donc d'en préciser le
fonctionnement et les réalisations en contexte. D'autre part, plusieurs
auteurs ont noté l'intérêt de ce type de relations dans le domaine de la
recherche d'information pour donner accès à des reformulations
sémantiquement équivalentes d'une même idée. Grâce à une expérience
d'extension de requêtes, nous vérifions expérimentalement cette
affirmation : nous montrons que les résultats d'un système de recherche
exploitant ces relations qualia, acquises par ASARES, sont améliorés de
manière significative quoique localisée.
Abstract
Many applications in the field of Natural Language Processing
(information retrieval, machine translation, etc.) need semantic
resources that are specific to their tasks and domains. To satisfy this
need we have developed ASARES, a corpus-based lexical semantic
acquisition system. It fulfills three objectives: it has good extraction
results; these results and the whole acquisition process are
interpretable; and it is generic and automatic enough to be easily
portable from a corpus to another. To achieve these goals, ASARES uses a
machine learning method ---inductive logic programming--- which makes
possible to infer part-of-speech and semantic patterns from examples of
the semantic elements we want to acquire. These patterns are then used
to extract new elements from the corpus. We also show that it is
possible to combine this symbolic method with statistical acquisition
methods to make ASARES more automatic. To validate our system, we have
used it to acquire a kind of semantic relations between nouns and verbs
defined in the Generative Lexicon and called qualia relations. This task
has two main interests. On one hand, these relations are defined only in
a theoretical point of view; the linguistic interpretation of the
patterns thus allows to have a deeper understanding of their contextual
realizations. On the other hand, several authors have noticed that such
relations can be useful in information retrieval tasks because they make
semantically equivalent reformulations of ideas accessible. With the
help of a query expansion experiment using qualia relations extracted
with ASARES, we show that this assumption is true to a certain extend:
the performances of an information retrieval system are significantly
improved though localized.