INDEXER

 

 

Dans le domaine du traitement de l'information, l'indexation est le processus qui va permettre de retrouver facilement un document archivé. Soit une intervention humaine lui attribue des mots-clés, soit l'indexation se fait automatiquement en texte intégral.
Arkheos propose dans toutes ses solutions une fonctionnalité d’indexation en texte intégral, soutenue par l’un des outils de recherche les plus célèbres, Lucène. Ce moteur de recherche porté par la Fondation Apache et choisi par Arkheos se base sur le concept de l’indexation automatique. Il peut être intégré au sein d’applications Java mais aussi dans d’autres langages tels que le Ruby, le PERL, le PHP, etc.

 

 

L'indexation en texte intégral

Contrairement à une recherche dite « simple », la recherche en texte intégral est fondée sur un index de mots non-perturbateurs d’une entrée. Concrètement, tous les mots les plus communs sont exclus du champ de recherche et sont, soit réunis en liste interne du système, soit, pour les mots de moins de 3-4 lettres, non-indexés.
Les mots retenus sont quant à eux indexés dans le système, et chacun d’entre eux constitue une entrée correspondant à une liste de positions dans la base de données. Une valeur peut également leur être attribuée selon leur degré d’importance au sein de la page qui les accueille.
La recherche texte intégral commence donc directement par l’analyse de cet index de mots (non-perturbateurs) sans devoir passer en revue l’intégralité des contenus présents dans la base. La réponse est rapide même lorsque l’interrogation porte sur une lourde masse de données non structurées ; ce mode de recherche est d’une efficacité bien supérieure à la recherche classique.