II. Recherche sur le Web

Annuaires

  • présentation hiérarchique
  • curation manuelle
  • spécialisés ou généralistes
  • exemple : https://www.dmoz.org :

Moteurs de recherche

  • présentation linéaire
  • curation automatique ou semi-automatique

Méta-moteurs

  • agrégation de résultats

Moteurs de recherche

Principe de base

  1. parcours automatique du Web
  2. indexation des pages
  3. recherche dans l'index et classement des résultats
Fonctionnement d'un moteur de recherche

Moteurs de recherche

1. Exploration (crawl)

Moteurs de recherche

1. Web Profond



Partie du Web non indexée

  • 96% des données
  • sites payants (e.g. journaux en ligne)
  • communautés fermées (e.g. Facebook)
i.ytimg.com/vi/Zdjpuq_90mQ/maxresdefault.jpg

Moteurs de recherche

2. Indexation

  • index des pages : identifiant unique et méta-données de chaque page
  • index inverse : retrouve une page à partir de mot-clef
  • base des liens : quelle page pointe vers quelle page

Moteurs de recherche

2. Index inverse (1)

Moteurs de recherche

2. Index inverse (2)

Moteurs de recherche

2. Index inverse (3)

Moteurs de recherche

2. Index inverse (4)

Moteurs de recherche

2. Index inverse (5)

Construction de l'index inverse

Construction d'un index
                                         inverse
appleA/1 B/1 C/2,8
createA/4 B/3
designA/2 B/6
fruitB/5
laptopA/5
newB/5
treeC/9

+ informations contextuelles : mot dans le titre, dans un lien,...

transparents de Cristina Sirangelo

Moteurs de recherche

3. Classement

  • indice de pertinence de chaque page pour la requête
    • ↗ nombre d'occurrences de chaque mot clef
    • ↘ nombre de pages où apparaît chaque mot clef
    • ↗ proximité des mots clefs
    • ↗ ordre des mots clefs
    • ↗ importance dans la page : titre, lien, mise en forme, etc.
  • indice d'autorité indépendant de la requête

Moteurs de recherche

3. Indice d'autorité : PageRank (1)

  • Mesure de l'importance d'une page : liens entrants
  • Pondération des liens entrants par l'importance des pages d'origine
  • Calcul de point fixe (approximé !)

Moteurs de recherche

3. Indice d'autorité : PageRank (2)

Recherche avancée sous Google

Symbole Utilisation
+ Permet de rechercher des pages Google+ ou des groupes sanguins.
Exemples : +Chrome ou AB+
@ Permet de rechercher des tags de réseaux sociaux
Exemple : @agoogler
$ Permet de rechercher des prix.
Exemple : nikon $400
# Permet de rechercher des sujets tendance précédés d'un hashtag.
Exemple : #tbt
Pour exclure les résultats de recherche incluant un mot ou site précis, précédez ces derniers d'un tiret. Ce caractère est particulièrement utile pour des homonymes tels que "jaguar", qui peut faire référence à la marque de voiture ou à l'animal.
Exemples : vitesse jaguar -voiture ou pandas -site:wikipedia.org
". Si vous mettez des guillemets autour d'un mot ou d'une expression, les résultats n'incluent que les pages où ces mots s'affichent dans le même ordre. N'utilisez les guillemets que si vous souhaitez rechercher un mot ou une expression précise. Dans le cas contraire, vous risqueriez d'exclure des résultats de recherche utiles.
Exemple : "imagine all the people"
* Lorsque vous ne connaissez pas un terme ou que vous n'êtes pas sûr d'un terme dans votre requête, utilisez un astérisque comme substitut.
Exemple : "un * vaut mieux que deux *"
.. Utilisez deux points sans espace entre des nombres pour voir les résultats qui contiennent les nombres inclus dans cette plage de valeurs.
Exemple : appareil photo 50 €..100 €
site: Permet de restreindre vos recherches à certains sites ou domaines.
Exemples : jeux olympiques site:lemonde.fr et jeux olympiques site:gouv.fr
related: Permet de rechercher des sites similaires à une adresse Web spécifique.
Exemple : related:lemonde.fr
OR Permet de rechercher des pages qui ne contiennent qu'un terme parmi plusieurs.
Exemple : marathon OR course
info: Permet d'obtenir des informations sur une adresse Web, telles que la version en cache de la page, les pages similaires et les pages qui redirigent vers cette URL.
Exemple : info:google.fr
cache: Permet de consulter une page telle qu'elle s'affichait lors de la dernière exploration Google.
Exemple : cache:univ-paris1.fr
Aide recherche web de Google

Recherche à facettes

  • filtrage des résultats selon critères (facettes)
  • exemples :
    • types de documents (filetype: dans Google)
    • licences de réutilisation d'images
    • ... à tester !
  • extraction de méta-données : vers un Web sémantique

Crawlers spécialisés

Recherche personnalisée sous Google