RIST

Revue d'Information Scientifique et Technique

Exploration de l’innovation chinoise à travers l’information brevet: hégémonie ou manipulation de la connaissance?

Nous proposons dans cet article d’analyser la puissance innovatrice de la Chine. Nous nous demandons si ce pays, qui est devenu en quelques années le premier demandeur de brevets dans le monde, relève d’un réel réservoir d’invention effectif ou d’une stratégie de manipulation de la connaissance à l’échelle mondiale. En d’autres termes, est-ce que la Chine, qualifiée jadis d’usine du monde, est devenue un véritable moteur de la R&D mondiale ? L’objectif de cet article est de comprendre comment l’information brevet est exploitée par les chercheurs et de savoir quelle est la proportion des innovations à valeur ajoutée dans l’explosion du nombre de brevets chinois.

Auteurs : Nour-Eddine Aissaoui

Téléchargement : PDF

Introduction au BIG DATA : Concepts et Technologies

Depuis quelques années, le terme Big Data s’est généralisé et les plus grandes entreprises et fournisseurs de données dans le monde y sont déjà passés.
Ce phénomène qui a changé le monde, a vu le jour suite à l’explosion des données numériques et l’incapacité des systèmes traditionnels à gérer ces énormes quantités des données. En fait, Google, Yahoo et d’autres entreprises du web ont été les premiers confrontés aux problèmes de passage à l’échelle de leurs systèmes, ce qui a motivé le développement des premiers projets Big Data. Ainsi, pour répondre aux exigences des données de plus en plus massives, plusieurs projets ont été développés par la suite. Cet article est une introduction au Big Data et à ses technologies récentes.

Auteurs : Faiza Deghmani

Téléchargement : PDF

Using Genetic Algorithms to Improve Information Retrieval

Finding the valuable relevant information continues to be the major challenges of Information Retrieval Systems owing to the explosive growth of online web information.
Among these challenges, we consider the XML Information Retrieval
challenges as XML has become a de facto standard over the Web. In this paper, we tackle the issue of content-based XML information retrieval. We formulate the retrieval issue as a combinatorial optimization problem in order to generate
the best set of relevant XML elements for a given keywords query.
In our proposal, we define a genetic algorithm which maximizes similarity between a set of XML elements and the user query. The results based on the precision measure are very promising.

Auteurs : F.Z. Bessai-Mechmache, Z. Alimazighi , K. Hammouche

Téléchargement : PDF

AraCovid19-SSD: Arabic Covid-19 Sentiment And Sarcasm Detection Dataset

Coronavirus disease (COVID-19) is an infectious respiratory disease that was first discovered in late December 2019, in Wuhan, China, and then spread worldwide causing a lot of panic and death. Users of social networking sites such as Facebook and Twitter have been focused on reading, publishing, and sharing novelties, tweets, and articles regarding the
newly emerging pandemic.
A lot of these users often employ sarcasm to convey their intended meaning in a humoristic,funny, and indirect way making it hard for computer-based applications to automatically understand and identify their goal and the harm level that they can convey.
Motivated by the emerging need for annotated datasets that tackle these
kinds of problems in the context of COVID-19, this paper builds and releases AraCOVID19-SSD, a manually annotated Arabic COVID-19 sarcasm and sentiment detection dataset containing 5,162 tweets.
To confirm the practical utility of the built dataset, it has been carefully analyzed and tested using several classification models.

Auteurs : Mohamed Seghir Hadj Ameur, Hassina Aliane

Téléchargement : PDF

A set of rhetorical relationships for educational multimedia document

In this paper, we propose a set of rhetorical relations to support applications such as automatic summary generation and content adaptation of a multimedia document. These relations have been proposed in the context of an educational
environment. These rhetorical relations are integrated and handled as part of the logical dimension of the multimedia document.
The proposal of these relations is motivated by the need to take into account the particularities inherent to:
(1) the composition, editing and presentation of a multimedia document and (2) the educational context.
Indeed,multimedia documents in an educational context are very different from textual documents, for which automatic analysis and generation have led to the proposal of a set of commonly used rhetorical relations, as described in the work of Mann and Thompson.
The study of this now more common context, allowed us to go beyond the body of existing work to develop a more appropriate set of rhetorical relationships related to educational multimedia documents.
Keywords: multimedia document; educational multimedia documents; RST; rhetorical relationships;

Auteurs : Azze-Eddine Maredj , Madjid Sadallah

Téléchargement : PDF

Volume 27 Numéro 01 Éditorial

Avec les difficultés rencontrées par la revue, notamment à partir de la
pandémie du Covid-19, ce numéro varia marque un nouveau départ pour la
revue.
Ce numéro comprend cinq articles traitant de divers thèmes allant de l’édition
de documents éducationnels multimédia à l’innovation-brevet en passant par
des thèmes aussi intéressants que l’analyse de sentiments, la recherche
d’information et le Big Data.
Avec l’évolution rapide des technologies numériques et un environnement
en mouvement continuel, la revue s’attache à traiter des thèmes d’actualité intéressant sa communauté.

Une cinquième dimension pour les documents multimédia: La dimension annotation

Un document multimédia intègre des entités de base de nature statique (texte, images, graphiques et tableaux) et de nature dynamique (vidéo, sons et animations), qui suivent une certaine organisation temporelle et spatiale. De nos jours, ces documents sont utilisés dans divers domaines d’application comme l’apprentissage à distance, la télémédecine, les visites virtuelles, la publicité, etc. Ces documents sont généralement modélisés par quatre dimensions: la dimension logique, la dimension temporelle, la dimension spatiale et la dimension hypermédia. Avec le temps, de nouveaux besoins sont
apparus dans l’utilisation des documents multimédia, nous citons, l’adaptation des documents multimédias (où le document multimédia est présenté selon un profil utilisateur), la composition de document multimédia (qui permet de concevoir un document suite à une requête utilisateur), la recomposition de document multimédia (qui permet à un auteur de reconcevoir son document suite à l’analyse des traces de lecture), la génération de résumé automatique, etc.
Les informations contenues dans ces quatre dimensions se révèlent insuffisantes pour répondre à ces besoins. D’autres informations sont donc nécessaires. Dans ce travail, nous proposons d’étendre ce modèle à cinq dimensions, en définissant une nouvelle dimension: la dimension annotation. Cette dernière comportera des informations sur le document, ses entités, son auteur et ses lecteurs, qui contribueront à la prise en charge des applications précitées.

 

Auteurs : Azze-Eddine Maredj , Madjid Sadallah , Lamia Hamouche

Téléchargement : PDF

Open Access: Etat de l’Art

Un des aspects importants auquel nous nous intéressons, est que l’information est de plus en plus demandée (en modegratuit), les archives ouvertes et les revues scientifiques en libre accès sont très visitées et utilisées par chercheurs et étudiants. Notre objectif étant d’accompagner les chercheurs dans l’adoption de nouvelles solutions et de proposer une nouvelle politique nationale pour la réalisation d’« un modèle de libre accès fédérateur aux résultats de la recherche,proprement algérien » qui répond le mieux d’une part, aux préoccupations des éditeurs et titulaires de droits, et d’autre part, aux divers besoins du plus large nombre d’utilisateurs en matière de publications scientifiques.
C’est dans ce contexte que s’inscrit le thème central de ce dossier où nous définissons, en premier lieu, les fondements du mouvement libre accès (Open Access), ses différentes variantes, son modèle économique ainsi que les aspects juridiques liés à l’OA notamment, les alternatives des licences libres de diffusion « Licences Créatives Commons (CC) » ainsi que les conditions d’utilisation sur lesquelles s’accordent bon nombre d’entreprises, de professionnels, et des titulaires des droits.

Auteurs : Nadia ALIOUALI , Rafik ADOUR, El Hadi LOUKEM

Téléchargement : PDF

Induction de sens des mots Arabes dans un espace vectoriel des mots.

Nous décrivons dans cet article, une nouvelle approche d’induction de sens des mots pour la langue Arabe dans un espace vectoriel des mots. Les modèles de représentation vectorielles suscitent un grand intérêt de la part de la
communauté de recherche TALN. Ces modèles sont fondés sur l’hypothèse distributionnelle qui prend en compte le « contexte » d’un mot cible. Ces modèles mappent tous les mots du vocabulaire à un espace vectoriel et fournissent ensuite une description sémantique des mots d’un corpus en tant que vecteurs numériques. Néanmoins, un problème bien connu de ces modèles est qu’ils ne peuvent pas gérer la polysémie. Nous présentons un nouveau modèle simple qui utilise les word embeddings que nous expérimentons pour la tâche non supervisée de l’induction de sens des mots arabes. Les
modèles sont développés à l’aide des outils GenSim pour SKIP-Gram et CBOW. Le modèle permet ensuite de créer un indexeur basé sur la similarité cosinus en utilisant l’indexeur Annoy, qui est plus rapide que la fonction de similarité de
GenSim. Un ego-network est utilisé pour étudier la structure des relations d’un individu et permet de construire un graphe de mots associés provenant des voisins locaux. Les différents sens des mots sont générés en utilisant du clustering de graphes. Nous avons travaillé avec deux corpus d’information: OSAC et AraCorpus ainsi qu’un modèle de Word Embeddings existant AraVec. Ensuite, nous avons expérimenté les différents modèles pour l’induction du sens des mots et nous avons obtenu des résultats prometteurs.

Auteurs : Djaidri Asma, Aliane Hassina, Azzoune Hamida

Téléchargement : PDF

Impact of Stemming Techniques on Topic Segmentation of Arabic Texts

In this paper, we propose a topic segmentation approach for Arabic texts, through which we have studied the effect of the application of two different stemming techniques, root-based and light stemming. The approach we propose is global,distributional, non-linear. It is global since it considers a comparison of all text segments and not only neighboring segments. It is non-linear in the sense that it can rank segments situated in different positions in text in same groups (subtopics). The approach is based on the calculation of lexical cohesion between segments basing on a combination of repetitive lexical semantic criteria. For terms weighting, we have used OKAPI (BM25) measure after an operation of stemming using both root-based stemming and light stemming. The semantic repetitions of terms are calculated using
Arabic WordNet lexical database. A similarity matrix is created where rows and columns are the text segments and the elements of the matrix are COSINE scores between pairs of segments. Subtopics are finally formed using a strict
clustering technique in order to eliminate redundancy in the segment groups. For experimentation, we tested our system on a collection of economic and web news articles using Recall, Precision, F-measure and WindowDiff. The obtained
results are very promising.

 

Auteurs : Belahcene Bahloul , Hassina Aliane , Mohamed Benmohammed

Téléchargement : PDF