RIST

Revue d'Information Scientifique et Technique

Induction de sens des mots Arabes dans un espace vectoriel des mots.

Nous décrivons dans cet article, une nouvelle approche d’induction de sens des mots pour la langue Arabe dans un espace vectoriel des mots. Les modèles de représentation vectorielles suscitent un grand intérêt de la part de la
communauté de recherche TALN. Ces modèles sont fondés sur l’hypothèse distributionnelle qui prend en compte le « contexte » d’un mot cible. Ces modèles mappent tous les mots du vocabulaire à un espace vectoriel et fournissent ensuite une description sémantique des mots d’un corpus en tant que vecteurs numériques. Néanmoins, un problème bien connu de ces modèles est qu’ils ne peuvent pas gérer la polysémie. Nous présentons un nouveau modèle simple qui utilise les word embeddings que nous expérimentons pour la tâche non supervisée de l’induction de sens des mots arabes. Les
modèles sont développés à l’aide des outils GenSim pour SKIP-Gram et CBOW. Le modèle permet ensuite de créer un indexeur basé sur la similarité cosinus en utilisant l’indexeur Annoy, qui est plus rapide que la fonction de similarité de
GenSim. Un ego-network est utilisé pour étudier la structure des relations d’un individu et permet de construire un graphe de mots associés provenant des voisins locaux. Les différents sens des mots sont générés en utilisant du clustering de graphes. Nous avons travaillé avec deux corpus d’information: OSAC et AraCorpus ainsi qu’un modèle de Word Embeddings existant AraVec. Ensuite, nous avons expérimenté les différents modèles pour l’induction du sens des mots et nous avons obtenu des résultats prometteurs.

Auteurs : Djaidri Asma, Aliane Hassina, Azzoune Hamida

Téléchargement : PDF

Impact of Stemming Techniques on Topic Segmentation of Arabic Texts

In this paper, we propose a topic segmentation approach for Arabic texts, through which we have studied the effect of the application of two different stemming techniques, root-based and light stemming. The approach we propose is global,distributional, non-linear. It is global since it considers a comparison of all text segments and not only neighboring segments. It is non-linear in the sense that it can rank segments situated in different positions in text in same groups (subtopics). The approach is based on the calculation of lexical cohesion between segments basing on a combination of repetitive lexical semantic criteria. For terms weighting, we have used OKAPI (BM25) measure after an operation of stemming using both root-based stemming and light stemming. The semantic repetitions of terms are calculated using
Arabic WordNet lexical database. A similarity matrix is created where rows and columns are the text segments and the elements of the matrix are COSINE scores between pairs of segments. Subtopics are finally formed using a strict
clustering technique in order to eliminate redundancy in the segment groups. For experimentation, we tested our system on a collection of economic and web news articles using Recall, Precision, F-measure and WindowDiff. The obtained
results are very promising.

 

Auteurs : Belahcene Bahloul , Hassina Aliane , Mohamed Benmohammed

Téléchargement : PDF

Une Ontologie pour l’Indexation et la Recherche d’Information Multilingue

Nous proposons dans cet article une approche pour l’indexation et la recherche d’information pour un corpus trilingue : arabe, français et anglais. Le système proposé est fondé sur un formalisme de représentation de connaissances, plus précisément les graphes sémantiques [4] qui supportent une ontologie de domaine. Les documents et les requêtes sont aussi représentés dans ce formalisme. L’ontologie du domaine constitue le noyau du système et est utilisée aussi bien pour l’indexation que pour la recherche. Le système d’indexation utilise une méthode d’extraction qui est basée sur le calcul de segments répétés en utilisant des filtres linguistiques. Quant au système de recherche, il est fondé sur la comparaison de graphes de requêtes et de graphes de documents.

PDF