Résumé de thèse

Télécharger ma thèse de doctorat en PDF


Résumé

Cette thèse s’inscrit dans les domaines de la recherche d’information, du contexte et du Web sémantique, et vise à apporter des contributions sur deux axes complémentaires : d’abord l’amélioration du processus de recherche, puis l’amélioration de l’évaluation des outils de recherche. En effet, le grand nombre de documents disponibles sur le web a soulevé l’attractivité des outils de recherche d’information. Les moteurs de recherche actuels (tels que Google, Yahoo et Bing) sont les plus utilisés pour parcourir le contenu du Web. Toutefois, Ce type d’outil ne permet pas d’atteindre une grande efficacité et les résultats qu’il retourne ne correspondent pas toujours aux besoins des utilisateurs. Pour cette raison, nous utilisons deux mécanismes dans nos propositions : d’une part, le contexte relatif aux différents acteurs autour du processus de recherche, et d’une autre part la sémantique portée par les termes de la requête et les mots des documents. Le but est d’augmenter la sélectivité des outils de recherche d’information et améliorer la manière dont ces outils sont évalués.

Afin d’améliorer le processus RI, nous proposons dans une première approche de reformuler la requête utilisateur en se basant sur des éléments issus de son profil, de ses historiques de recherche et de ses interactions avec le système. Cette approche est supportée par l’outil ‘‘PRESY’’ montrant son applicabilité à de vrais outils de recherche. Dans une deuxième approche nous proposons de prendre en compte la sémantique via les ontologies et cela durant les phases de reformulation de requêtes et d’indexation de documents. L’outil ‘‘AnimSe Finder’’ que nous avons développé dans ce contexte concrétise cette proposition.

Pour ce qui est de l’amélioration de l’évaluation des SRI, nous proposons une première approche basée sur trois niveaux du contexte complémentaires pour mesurer la qualité des réponses des moteurs de recherche. Nous exploitons à cet effet, les caractéristiques de l’outil de recherche, les jugements de l’utilisateur et l’adéquation entre la requête et les documents retournés pour calculer les scores de pertinences. Une deuxième proposition dans ce même contexte consiste à utiliser l’ontologie de domaine WordNet pour définir un classement sémantique des résultats retournés par les moteurs de recherche, puis comparer ce classement à ceux des trois moteur Google, Yahoo et Bing.

Ces propositions ont été expérimentée, et le gain en termes de pertinence des résultats retournés a été mesuré au moyen de trois moteurs de recherche (Google, Yahoo et Bing), les résultats montrent que la prise en compte du contexte et de la sémantique en recherche d’information augmente la pertinence des résultats retournés et réduit ainsi le bruit et le silence documentaire.

 Mots-clés: Recherche d’Information, Web sémantique, Ontologie, Reformulation de Requêtes, Indexation des Documents, Contexte Statique et Dynamique, Profils Utilisateur, Campagnes d’Evaluation, Jugements de Pertinence.


Abstract

This thesis takes place in the fields of Information Retrieval, Context and Semantic Web. It aims to make contributions on two complementary axes: first, the improvement the search process and then the improvement of the evaluation of search tools. In fact, the huge number of documents available on the web raised the attractiveness of Information Retrieval tools. The current search engines (such as Google, Bing and Yahoo) are the most used to browse the web content. However, this type of tool does not to achieve a high efficiency and the results that it returns does not always match the user’s needs. For this reason, we use two mechanisms in our proposals: on the one hand, the context of the different actors around the search process, and on the other hand the semantics represented by the query terms and the documents words. The goal is to increase the selectivity of search tools and to improve the manner in which these tools are evaluated.

To improve the IR process, we propose a first approach for reformulate the user’s query based on elements from his profile, his historical search and his interactions with the system. This approach is supported by the “PRESY” tool showing its applicability to real search tools. In a second approach we propose to take into account the semantics using ontology during the phases of query reformulation and documents indexing. The “AnimSe Finder” tools that we developed in this context concretize this proposal.

In terms of improving the evaluation of IRS, we propose a first approach based on three complementary levels of context to measure the responses quality of search engines. We exploit to this end, the search tool characteristics, the user’s judgments and the adequacy between the query and the returned documents to calculate the relevance scores. A second proposal in this context is to use the WordNet ontology to define a semantic classification of results returned by search engines and then compare this ranking with those of the three engines Google, Yahoo and Bing.

These proposals have been experimented, and the gain in terms of returned results relevance was measured using three search engines (Google, Yahoo and Bing), the results show that consideration of the context and semantics in information retrieval increases the returned results relevance and reduces the documentary silence and noise

Keywords: Information Retrieval, Web Search Engines, Semantic Web, Ontology, Query Reformulation, Documents Indexing, Dynamic and Static Context, User Profiles, Evaluation Campaigns, Relevance Judgments.


ملخـص

يعتبر العمل المنجز في هذه الرسالة ملتقى لثلاث مجالات بحث متكاملة هي  » استرجاع المعلومات » ، « استعمال السياق » و »الويب الدلالي »، ويهدف إلى تقديم مساهمات على محورين متكاملين : الأول، يتعلق بتحسين عملية البحث، و الثاني يهدف إلى تحسين تقييم أدوات البحث. في الواقع، قد أثار العدد الكبير من الوثائق المتاحة على شبكة الإنترنت جاذبية أدوات البحث عن المعلومات، فقد تزايد بشكل لافت استخدام محركات البحث (مثل ياهو وغوغل وبينغ) لتصفح محتوى الويب. ومع ذلك، فان هذا النوع من الأدوات لا يحقق كفاءة عالية والنتائج التي يرجعها لا تتطابق دائما مع احتياجات المستخدمين. هذه الأسباب جعلتنا نتجه نحو استخدام آليتين في مقترحاتنا: أولا، السياق المتعلق بمختلف العناصر الفاعلة في عملية البحث، وثانيا الدلالات التي تحملها مفردات استعلام المستعمل و كلمات الوثائق، والهدف هو زيادة الانتقائية في أدوات البحث عن المعلومات وتحسين طريقة تقييم هذه الأدوات.

فيما يخص تحسين عملية البحث عن المعلومات، يعمل مقترحنا الأول على إعادة صياغة استعلام المستخدم استنادا إلى عناصر مستقاة من بياناته الشخصية، محتوى عمليات البحث التي قام بها سابقا و من تفاعله مع محرك البحث. هذا المقترح مدعم بالنظام « PRESY » الذي قمنا بتطويره لتأكيد إمكانية تطبيق النهج المقترح على أدوات بحث حقيقية. أما المقترح الثاني فيهدف إلى أخذ دلالات المفردات بعين الاعتبار عن طريق استخدام انطولوجيا خلال مرحلتي إعادة صياغة الاستعلام وفهرسة الوثائق. وهنا أيضا قمنا بتطوير النظام « AnimSe Finder » لتجسيد هذا المقترح.

من حيث تحسين تقييم أدوات البحث عبر الويب، نقترح النهج الأول الذي يرتكز على أساس ثلاثة مستويات متكاملة من السياق لتقييم نوعية المحتويات التي يرجعها محرك البحث، نستغل لهذا الغرض : خصائص أداة البحث، الأحكام الصادرة عن المستخدم والمقاربة بين الاستعلام والوثائق المرجعة لأجل حساب درجة ملائمتها مع النتائج المرجوة. أما المقترح الثاني فيعتمد على استخدام الانطولوجيا « WordNet » لتحديد تصنيف دلالي للنتائج التي تم إرجاعها من قبل محركات البحث، ومقارنة هذا الترتيب مع ذلك المقترح من طرف محركات ثلاثة جوجل، ياهو وبنج.

وقد تم اختبار هذه المقترحات، حيث قمنا بقياس درجة التحسين في ملائمة النتائج التي تم إرجاعها باستخدام محركات البحث الثلاثة (جوجل وياهو وبنج) مع ما ينتظره المستخدم. وفقد بينت النتائج أن أخذ السياق من جهة و الدلالات من جهة أخري في الاعتبار خلال البحث عن المعلومات وتقييمها يزيد من أهمية النتائج التي تم إرجاعها، وبالتالي يقلل من نسبة ما يسمى بالضجيج والصمت الوثائقي.

الكلمات المفتاحية : استرجاع المعلومات، محركات البحث عبر الويب، الويب الدلالي، انطولوجيا، إعادة صياغة الاستعلام، فهرسة الوثائق، السياق الدينامكي، تعريف المستخدم، تقييم المعلومات، أحكام الملائمة.