1 of 70

La recherche experte avec

Trucs & astuces pour une recherche efficace !

Mathieu ANDRO, animateur du réseau de veille

2 of 70

Qui suis-je ?

Mathieu ANDRO : mathieu.andro@pm.gouv.fr �01 42 75 88 53 - Bureau 0.359

�Animateur du réseau de veille des SPM.

3 of 70

Le centre de doc des SPM

  • Une offre papier & numérique �encyclopédique (reco IP)

  • Des outils via un portail

  • Des services :�acquisitions & abonnements à la demande�recherche documentaire�ateliers & formations�boîte mail générique �documentation-renseignements@pm.gouv.fr

4 of 70

Accéder à un savoir universel et impérissable à tout instant ? �Vous en rêviez…

Google l'a (presque) fait, sa mission :

« organiser les informations à l'échelle mondiale �dans le but de les rendre accessibles et utiles à tous »*.

* Source : Du garage au Googleplex, site internet de Google, consulté le 25/06/2018.

5 of 70

Internet vs le web : �quelle différence ?

6 of 70

7 of 70

Comment fonctionne �un moteur de recherche ?

8 of 70

9 of 70

Fonctionnement d’un moteur de recherche

Les moteurs sont composés de 4 éléments fondamentaux :

  • un robot : parcourt le web de liens en liens en continu,

  • un parser ou analyseur syntaxique : extrait les contenus et les stocke dans…

  • un index : contient le texte des pages et leur url (data centers),

  • une interface web : formulaire pour rechercher dans ces pages via des algorithmes complexes.

10 of 70

Processus de la recherche

Saisir un ou plusieurs mots-clés dans le formulaire,

Requête lancée sur le texte des pages enregistrées par le moteur dans son index,

La page de résultats affiche la liste et les extraits des copies de pages contenant le mot-clé (à la date de l’indexation),

Un clic sur le titre affiche la page telle qu’elle existe aujourd’hui sur le web.

11 of 70

Fonctionnement d’un moteur de recherche

… Par conséquent :

  • aucun moteur n’a la même couverture du web (ni le même index),

  • la recherche se fait sur l’index du moteur : la copie des pages telles qu’elles étaient lorsqu’il les a copiées,

  • les moteurs appliquent des filtres/algorithmes et n’interrogent qu’une partie de leur index.

12 of 70

Les résultats varient en fonction…

Du contenu des pages, mais aussi…

  • De la popularité : nombre de visites et temps passé sur la page,
  • Du nombre de liens pointant vers la page (PageRank),
  • De l’ancienneté du site,
  • Du respect des préconisation Google (site responsive, protocole https, etc.),
  • De l’historique de recherche de l’internaute => bulle informationnelle,
  • De sa localisation géographique (personnalisation linguistique et géographique).

Ref. : Comment le Web a « avalé » Internet, William Audureau, Le Monde, 12/03/19. https://www.lemonde.fr/pixels/article/2019/03/12/comment-le-web-a-avale-internet_5434770_4408996.html, consultée le 13/03/2019.

13 of 70

Les pages en cache : une astuce !

Il est parfois possible de récupérer la version payante (édition abonnés) d’un article dans sa globalité … grâce aux pages en cache !

14 of 70

Internet Archive, l’archive du webn

15 of 70

16 of 70

Quelques chiffres…

    • Né en 1998 (Silicon valley ),

    • Montée en puissance, diversification des produits dans les années 2000,

    • Google indexe aujourd’hui plusieurs dizaines de milliards de pages web,

    • En 2017, 92% des français utilisent Google.

Sources :

https://www.blogdumoderateur.com/chiffres-google/, consultée le 25/06/2018.

https://www.webrankinfo.com/dossiers/google/chiffres-cles, consultée le 25/06/2018.

17 of 70

L’empire Google

En 2018, Google possède 93% des parts de marché dans le monde :

Source : https://www.webrankinfo.com/dossiers/etudes/parts-marche-moteurs, consultée le 25/06/2018.

18 of 70

Pourquoi GOOGLE ?

19 of 70

Pourquoi GOOGLE ?

  • C'est le terme mathématique anglais “googol”, “gogol” en français, qui a inspiré Larry Page et Sergey Brin, les deux fondateurs du moteur de recherche. Ce nom désigne le nombre 10 puissance 100. �L'anecdote raconte que E. Kasner – mathématicien - ne sachant comment nommer ce nombre représentant plus qu'il n'y a de particules dans tout l'univers, s'adressa à son neveu lui demandant quel nom il lui donnerait. Celui-ci répondit : “ un gogol ! ”. Pour Page et Brin, le nom Google, comme référence au “googol”, reflète la mission du moteur de recherche, à savoir : “organiser l'immense volume d'information sur le web”.

  • Il existe une similarité plutôt évidente entre Google et le mot anglais “goggles” qui signifie lunettes. Et les deux O de la marque rappellent effectivement la forme de lunettes… 

Source : https://www.01net.com/actualites/dou-vient-le-nom-google-506372.html , consultée le 04/03/2019.

20 of 70

Un concept révolutionnaire

      • mode de recherche (AND par défaut)

      • simplicité de l’interface (one box)

      • classement des résultats : algorithme tenu secret mêlant plusieurs éléments (ordre des mots dans la requête, fréquence et place des mots dans la page, etc.)

      • PageRank : notoriété d’une page grâce aux liens.

=> Pages connues et non les plus pertinentes dans les premiers résultats,

=> Pas de prise en compte des nouveaux sites pas encore populaires...

21 of 70

Google : l’ogre

22 of 70

Web sémantique et extraction de données

23 of 70

Google : Big brother

24 of 70

Google : couteau suisse

25 of 70

Google : moteur de recherche super puissant

26 of 70

1ère étape : préparer la recherche

27 of 70

1ère étape : préparer la recherche

Questions préalables : qu’est ce que je recherche exactement ?

�=> prendre du temps au départ pour en gagner par la suite !

  • Quoi (nature de l’information)?
  • Qui (profil du demandeur) ?
  • Pourquoi (objectifs)?
  • (limites géographiques)?
  • Quand (limites chronologiques)?
  • Comment (moyens : outils, méthodologie, stratégie & temps)?

28 of 70

Avec les bons ingrédients… voici la recette !

29 of 70

Attention : Google n’est pas exhaustif !

=> sources invisibles manquent aux résultats !

(non indexées : �BDD spécialisées, pages protégées par un mot de passe, etc.)

Résultats Google = web visible seulement

30 of 70

Visuel : nombre de résultats

Paramétrer 50 résultats par page lors d’une recherche :

  • scroll : évite de changer de page,
  • mieux cerner les résultats Google,
  • Ne pas s’arrêter aux 10 premiers résultats.

Procédure :�Dans paramètres > paramètre de la recherche :

31 of 70

Visuel : nombre de résultats affichés

Attention : écart entre le nombre de résultats annoncés et le nombre de résultats réel !

Sur la dernière page de résultats, Google indique :

« Afin d'afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux xx entrées actuelles.�Si vous le souhaitez, vous pouvez relancer la recherche �pour inclure les résultats omis. »  

  • pas d’accès à l’ensemble des résultats citant le mot-clé dans l’index de Google, MAIS sélection de résultats jugés pertinents par le moteur lui-même�… Google effectue sa propre sélection de résultats !

32 of 70

Nombre de résultats… trompeur !

Il y a infiniment plus de résultats que ce que l’on peut voir de prime abord et ces résultats sont choisis sur des critères qui ne sont pas les nôtres !

…d’où l’intérêt de préciser sa recherche : c’est tout l’enjeu des astuces suivantes !

33 of 70

Quelques bases

  • Les accents sont neutres (mais écrire de préférence avec accent !)

Ex : éducation = education

  • Les majuscules sont neutres (sauf si «  »)

Ex : François = françois

  • Les mots « vides » sont oubliés

Ex : de, à, le, dans, etc.

… et les fautes d’orthographe sont corrigées !

34 of 70

L’autocomplétion : guide la recherche

  • Gain de temps de frappe + correction orthographique

  • Requêtes populaires, géolocalisées ou très recherchées qui correspondent le mieux aux premières lettres déjà tapées

  • Certaines prédictions supprimées de fait : sexuellement explicites, haineuse, violents, …

  • Signaler une prédiction inappropriée : « En savoir plus » en bas du menu des prédictions > « suppression d'un contenu que vous considérez comme illégal »

35 of 70

Quelques bases

Les singulier/pluriel et masculin/féminin sont gérés

Ex : une recherche maison ramène maison, maisons

une recherche cheval ramène cheval, chevaux

une recherche instituteur ramène instituteur, institutrice.

… mais l’inverse n’est pas vrai !

une recherche maisons ne ramène que maisons.

=> Il vaut donc mieux utiliser une forme au singulier masculin dans la mesure du possible !

36 of 70

Quelques bases

L’ordre des mots a une importance

=> pondération + importante pour le 1er mot de la requête .

Ex : « premier ministre »  « gilets jaunes »

« gilets jaunes » « premier ministre »

Le classement des résultats est différent �…et le nombre de résultats diffère également !

37 of 70

Les recherches associées

  • Placées en fin de page de résultats

Ex : recherche sur le mot « noël » :

  • Alternative au clic sur la 2ème page des résultats => trouver + rapidement la réponse à sa question, recherches complémentaires ou plus précises.
  • 4 éléments principaux pour les générer :

a. Requêtes populaires associées à la requête tapée par l’internaute,

b. Personnalisation si l’on est connecté à son compte Google,

c. Tient compte de l’emplacement géographique (si cette donnée est disponible),

d. Ajout de termes en plus à la requête pour affiner le niveau de détail de la requête.

*Source : https://www.leptidigital.fr/webmarketing/seo/recherches-associees-google-14770/, consulté le 27/12/2019.

38 of 70

La recherche avancée

39 of 70

Opérateurs booléens

Les opérateurs booléens permettent de créer une requête avec des mots clés et d’affiner une recherche.

Les plus utilisés :

Le AND (implicite) traduit un ET entre les termes

Ex : président macron

Le OR traduit un OU entre les termes

Ex : président OR macron

ou président|macron

Le -SAUF exclue un terme

Ex : avocat –droit

ou « réseaux sociaux » -facebook

40 of 70

Utilisation des guillemets

Google cherche automatiquement les variantes d’un mot depuis sa racine

Ex : embauche > embaucher

Les guillemets forcent la recherche sur le mot ou l’expression exacte => cela permet de réduire le bruit

Ex : marché => marche + marché

= > « marché » : + pertinent.

Ex : « marché nordique »  => marche + marché

=> « "marché" nordique »  : + pertinent.

41 of 70

Affiner la recherche

  • Par type de résultats :

onglets sous la barre de recherche : images, maps, actualités, livres, vidéos, etc.

  • Sur un type de fichier :

avec l’attribut Filetype

Ex : filetype:pdf «e-administration »

42 of 70

Affiner la recherche

intitle : limite à la recherche dans le titre �Ex : intitle:« droit à l’oubli »

Intext : limite la recherche au corps de la page

Ex : intext:fonctionnaire salaire

site : limite la source des résultats aux pages d’un nom de domaine ou d’un site�Ex: « grand paris » site:gouv.fr

site:.gouvernement.fr gouvernance

(ou site:insee.fr pour des stat. par ex)

Google est souvent plus efficace que le moteur de recherche propre au site !

43 of 70

Affiner la recherche

inurl : effectue une recherche sur un type de sources Ex : administration inurl:liens (si l’on recherche une liste de liens)

=> identifie une liste de ressources concernant l’administration.

related : demande à Google d’élargir la recherche en proposant des sites similaires à un site pertinent.

Ex : related:archivistesqc.wordpress.com

44 of 70

Affiner la recherche

Classer les résultats de l’onglet actualités par date : outils > choisir un filtre > puis « tri par date ».

Possibilité de délimiter une période d’édition des pages proposées en résultats : onglet outils > date indifférente > période personnalisée.

Opérateurs before / after.

Ex : before:AAAA/MM/JJ � before:AAAA

45 of 70

Combiner les critères de recherche

Ex : identifier rapidement quelques documents publiés sur les sites gouv.fr ayant pour sujet la politique territoriale.

Equation de recherche

Nombre de résultats

politique territoriale

35 000 000

"politique territoriale"

96 200

"politique territoriale" site:gouv.fr

4 450

"politique territoriale" site:gouv.fr filetype:doc OR filetype:pdf

2 120 

intitle:"politique territoriale" site:gouv.fr filetype:doc OR filetype:pdf

6

intitle:"politique territoriale" site:gouv.fr filetype:doc OR filetype:pdf after:2000

3

46 of 70

Documents vraiment confidentiels ?

47 of 70

Pour aller plus loin…

Paramètres > langues : choisir la langue des résultats obtenus.

(voir aussi dans la recherche avancée)

Désactiver la personnalisation basée sur les recherches précédentes : paramètres > historique.

Ajoutez &pws=0 à la fin de l’url de résultats d’une recherche : désactive la fonctionnalité « recherche personnalisée » => Google ne tient alors plus compte de votre historique de recherche et de navigation.

48 of 70

Pour aller plus loin…

Paramètres > recherche avancée > « région » : permet de rechercher des pages publiées dans une région précise.

Le lieu géographique de publication de la page devient alors un critère de recherche.

On peut ainsi limiter les résultats à un pays, la France par exemple : attention, recherche dans les sites français… et non francophones !

Astuce : outil « I search from… » trompe Google !

49 of 70

Pour aller plus loin…

Pas de Troncature dans Google, le signe * fait office d’opérateur de proximité : remplace un mot ou groupe de mots/lettres

Ex : « bibliothèque * numérique »  �=> recherche bib scientifique num, bib virtuelle num, bib mondiale num, etc.

… ou utiliser AROUND(xx)

Ex : bibliothèque AROUND(3) numérique �=> recherche bib distant de 3 mots de num.

50 of 70

Pourquoi les opérateurs de recherche Google sont-ils si peu connus ?

51 of 70

… va à l’encontre du modèle économique de Google !

  • Google se fait beaucoup d’argent grâce au CPC sur les liens des annonceurs.

Principes des liens sponsorisés : placés en tête de liste grâce à l’achat préalable de mots-clés (enchères : permet à l’annonceur le plus offrant de figurer en tête !). Liens commerciaux qui fonctionnent au coût par clic (cost per clic) : facturation par Google à l’annonceur lorsqu’un internaute clique sur un de ses liens !

  • Chiffre d’affaire > 110 milliards de dollars / an* … grâce à nous !!!�

*Source : https://www.blogdumoderateur.com/chiffres-google/, consulté le 25/06/2018.

52 of 70

J’ai de la chance…

=> Ce bouton renvoie sur la page correspondant �au premier résultat de la recherche.��

53 of 70

Persévérer !

« A trop utiliser d’opérateurs, Google nous considère vite comme un robot et nous demande sans cesse de prouver le contraire. �Preuve en est que pour Google, la recherche d’information pratiquée par des experts et les requêtes sophistiquées ont tout de suite quelque chose de suspect… »*

*Cf. article FLA Consultant – Bibliographie.

54 of 70

Crowdsourcing implicite

On travaille sans savoir pour Google

55 of 70

Google : un florilège de ressources

Google à plusieurs cartes dans son jeu…

  • Google Images
  • Google News
  • Google Books
  • Google Scholar
  • Google Drive
  • Google Trends

56 of 70

Google images

Possibilité d’identifier, pour une image donnée, d’autres photos ou dessins « d’apparence similaire » par leurs formes ou leurs couleurs.

�Cliquer sur : coller une url ou importer une image�

Voir aussi la recherche avancée d’images (outils > droits d’usages, par ex).

57 of 70

Google News

Google actualités est un moteur de recherche d’actualités.

N’indexe que des contenus provenant de sites de presse, site d’actualités et quelques blogs de référence.

=> Pas très performant, utiliser plutôt le moteur généraliste de Google puis sélectionner ensuite l’onglet « Actualités »*.

*Source : https://www.fla-consultants.com/fr/blog-actualites/recherche-information-efficace-google-news, Consultée le 05/03/2019.

58 of 70

Google Scholar

Google Scholar :

Outil de recherche d'articles scientifiques.

Indexe des articles - approuvés ou non par des comités de lecture - des thèses, des citations et des livres scientifiques.

Attention, corpus opaque & fonctionnalités de recherches simplistes, nous avons intérêt à utiliser des requêtes courtes !

59 of 70

Google Books

Google livres

Outil de recherche, consultation de livres en ligne ou sur appareil mobile, constitution de collections personnelles, téléchargement d'ouvrages libres de droits.

Corpus qui compte plus de 40 millions de livres, notamment alimenté par les éditeurs qui souhaitent inclure leurs ouvrages dans la base de données de Google, mais aussi des partenariats avec les bibliothèques.

Attention : Google Books indexe beaucoup plus d’ouvrages en anglais.

60 of 70

Google Drive

Ecriture collaborative :

Travailler en temps réel à plusieurs sur le même document accessible de partout sur le web

61 of 70

Google trends

Accès aux statistiques de recherche dans Google :

62 of 70

Google & la veille

Les Google alertes (gmail / récupération d’un flux RSS) �… pour pérenniser la recherche !

63 of 70

Pour conclure…

L’interrogation de Google est un excellent point de départ pour démarrer une recherche,� à la condition toutefois de bien formuler sa requête �et de tirer parti des fonctions avancées du moteur… �tout en gardant un esprit critique !

Stratégie de Google aujourd'hui = « moteur de réponses »

A l’heure du mobile first : fonctionnalités de Google �dégradées sur l’application mobile.

N’oubliez pas que ce n’est pas parce qu’on ne trouve pas une information sur Google… qu’elle n’existe pas !

=> Voir formation sur les outils du centre de Doc des SPM

64 of 70

Google & la question des données personnelles

  • Au sujet du respect de la vie privée : « Google est intrusif et carnassier », il sait presque tout de vous… Parano ? Non, factuel.

Pour Vinton Cerf, chef évangéliste chez Google : « la vie privée peut être considérée comme une anomalie ».

Google vit de la pub ciblée et collecte énormément de données personnelles.

  • Sanctionné par la CNIL (21/01/2019) à une amende de 50 millions d’euros.

1ère instance en Europe à sanctionner via le RGPD pour : « manque de transparence, information satisfaisante et absence de consentement valable pour la personnalisation de la publicité ».

65 of 70

Quelques alternatives à Google…

Google à aujourd’hui un monopole

… et tous les monopoles sont dangereux :

  • Enfermement intellectuel,

  • Manipulation,

  • Souveraineté informationnelle.

Le danger du monopole de Google, Jérôme Bondu - Vidéo YouTube.

66 of 70

Quelques alternatives à Google…

  • DuckDuckGo : « le moteur de recherche qui ne vous espionne pas »…mais ses performances sont limitées sur les pages web en langue française.

  • Qwant : « Le moteur de recherche qui respecte votre vie privée ». Moteur franco-allemand, il garantit que les informations �personnelles des utilisateurs ne sont pas stockées �et utilisées à des fins commerciales, aucun cookie ne trace l’internaute, la liste des résultats n’est pas personnalisée. �Mêmes opérateurs que Google.

67 of 70

A propos de Qwant, une remarque…

« Il me semble qu’analyser Qwant sous un angle uniquement opérationnel et conclure que l’outil est à mettre à la poubelle témoigne d’un manque d’analyse stratégique patent. Une prise en compte globale des enjeux liés à l’utilisation des moteurs de recherche incite plutôt à multiplier les outils pour �éviter une situation monopolistique. �Et quitte à promouvoir un autre outil, autant qu’il soit européen. » �(J. BONDU)

 

*Source : https://www.archimag.com/veille-documentation/2017/02/16/google-qwant-combat-strategique, consultée le 16/02/2017.

68 of 70

Quelques alternatives à Google…

  • Framabee : métamoteur. Regroupe les résultats d'autres moteurs mais sans conserver d'informations sur les utilisateurs.

  • StartPage (ex-Ixquick) : métamoteur. Protège vos données personnelles. Utilise Google pour afficher les résultats mais agit comme un intermédiaire : pas de de données stockées et réutilisées.

  • Million Short : un moteur qui permet d’exclure les 100, 1000, 10 000... sites les plus populaires.

  • Ecosia : métamoteur allemand. Reverse 80% de ses bénéfices pour replanter des arbres.

  • Carrot2 : moteur. Regroupe automatiquement les résultats par catégories, donne une autre vision de l’information et des résultats.

69 of 70

SOS recherche !

Avant Google, on posait nos questions bizarres aux bibliothécaires*

documentation-renseignements@pm.gouv.fr

Tel : 01 86 69 55 10

*Source : https://www.actualitte.com/article/zone-51/avant-google-on-posait-nos-questions-bizarres-aux-bibliothecaires/93464, consultée le 05/03/2019.

70 of 70

Bibliographie – sitographie