Moteurs de recherche

Cette page concerne l'item du programme:

image

Première chose à noter, il existe des moteurs et des méta-moteurs: les principaux moteurs de recherche étant google, bing, yahoo et qwant. Certains ne se contentent pas d'être un simple moteur de recherche mais diffusent des contenus, pas de commentaire concernant Google. Qwant est quant à lui le seul moteur français.

Un méta-moteur utilise les résultats de plusieurs moteurs de recherche, un métamoteur comme Lilo finance aussi des projets sociaux et environnementaux.

Comparaison des résultats de quelques requètes sur différents moteurs de recherche:

Utilisez chacun des 4 moteurs avec les requètes suivantes:

  • Recherchez: SNT. Combien d'annonces publicitaires sur la première page? A quelle place le MOOC de l'INRIA figure-t-il?
  • Recherchez: mon pc plante. Combien d'annonces publicitaires sur la première page? Combien de forums sérieux? Combien de résultats avant le premier tutoriel?
  • Recherchez: thriller. A quelle place se trouve le premier résultat ne concernant pas Michael Jackson?

Pour des résultats commentés sans qwant: le site suisse libellule. Tout y est imprimable et les résultats des requètes sont consultables sans connexion.

Notez la possibilité, avec ces moteurs, de chercher plus spécifiquement des images en filtrant la recherche suivant les droits d'utilisation. Attention tout n'est pas autorisé à publication.Recherchez SNT puis cliquez sur images en utilisant chacun de ces moteurs ces moteurs et filtrez les images qui sont dans le domaine public.

image en utilisant qwant.

Fonctionnement d'un moteur de recherche.

En 2 minutes:

Revenons plus précisément sur l'indexation et le Page Rank (Ordre des réponses proposées par le moteur).

Indexation

Commencez par indexer (méthode simple) le début du "cancre" de Prévert dont les lignes sont numérotées

L1 Il dit non avec la tête
L2 mais il dit oui avec le coeur
L3 il dit oui à ce qu’il aime
L4 il dit non au professeur
L5 il est debout
L6 on le questionne
L7 et tous les problèmes sont posés

A quelles lignes apparaissent les mots oui, non, avec, ...?Si je dois retrouver le mot non, je sais maintenant qu'il se trouve aux lignes 1 et 4.

Les robots d'indexation des moteurs de recherche aussi appelés crawlers ou spiders recherchent des mots dans des pages web et mémorisent les URL des pages au lieu des numéros des lignes. Cependant, dans beaucoup de langues certains mots sont trop courant (le, la, les, des, etc.). . Dans ce poème, indexer il et le ne serait pas pertinent

Parfois, les moteurs de recherche vont également indexer d'autres choses que le web. Par exemple, Google est capable d'indexer les fichiers PDF, Word (.doc) ou PowerPoint (.ppt/.pps). Cela permet d'étendre les recherche au delà des seules pages html.

PageRank (version simple)

Considérons un sujet évoqué par seulement 4 sites. Le PageRank de chacune de ces pages est un score entre 0 (page non pertinente) et 1 (page très pertinente). L'affichage doit se faire par ordre décroissant. Larry Page et Sergey Brin ont créé un modèle tenant en 2 règles:

  • Le PageRank doit tenir compte des pages qui font référence dans le domaine.
  • Une référence venant d'une page multipliant les liens doit avoir peu de crédit.

Voici une série d'exercices proposés par Maxime Fourny (Académie de Franche-Comté), à faire en groupes, qui doivent amener à des questionnement concernant des modifications d'algorithmes. Le problème de l’attribution du score peut être représenté par un graphe orienté : les quatre pages sont représentées par les quatre sommets d’un graphe dont les arêtes orientées représentent les références (liens) pouvant exister entre ces différentes pages.

Exercice 1

image

Dans ce graphe, la flèche allant de 1 vers 2 signifie que la page 1 référence la page 2 et l’absence de flèche de 2 vers 4 signifie que la page 2 ne référence pas la page 4.

  1. Choisissez un site parmi les 4 qui sera votre point de départ pour tout l’exercice.
  2. Comment avec un dé pouvez-vous simuler le déplacement aléatoire d'un surfeur ?
  3. Simuler pendant un certain temps le surfeur aléatoire en n’oubliant pas de noter le nombre de fois où il est passé par site.
  4. Proposer un classement de ces 4 pages.
  5. Comparer votre classement avec celui des autres groupes.
  6. Est ce intéressant de comparer vos effectifs avec ceux des autres groupes ? Que peut-on faire pour remédier à ce problème ? Que remarque-t-on alors ?

Exercice 2

image

Estimer le PageRank des sites représentés par le graphe ci-dessous. Comparer vos scores avec les autre groupes. On effectuera 30 surfs aléatoires.

Exercice 3

image

  1. La technique du surfeur aléatoire ne fonctionne pas pour le graphe suivant. Pourquoi?
  2. Proposer une solution pour pallier ce problème.
  3. Faites alors une proposition de classement pour ce graphe après avoir calculé le PageRank.
  4. Comparer vos résultats avec les autres groupes.

Beaucoup de cas particuliers ne sont pas abordés par cette version qui est beaucoup plus simple que celle des moteurs de recherche.