Récits tout court [Archives]: Recherche éveillée #1

Avec l’arrivée de la désormais fameuse “vague de froid”, on est confronté à des phénomènes assez surprenants…comme, chez nous, la glace sur le rebord (interne ! Surpris Glaciale ) de la fenêtre.

Dans ces conditions, sortir n’est vraiment pas une bonne idée (d’autant plus qu’il y a un vent assez impressionnant), donc je profite de ces conditions météo difficiles pour partager avec vous quelques trouvailles intéressantes à propos de la recherche éveillée sur internet. En effet, j’ai (enfin! Clignement d'œil …je vais bientôt le rendre, promis) lu le manuel:

Foenix-Riou, Béatrice (2011) Recherche éveillée sur Internet: mode d’emploi. Outils et méthodes pour explorer le web. Paris: Lavoisier.

…dont voici un “court” résumé en deux parties, contenant les infos les plus intéressantes. Dans ce premier épisode, on va parler des moteurs de recherche généralistes, de quelques moteurs spécialisés et des fonctions avancées de recherche. Dans le prochain épisode, on parlera des annuaires généralistes et spécialisés, des réseaux sociaux et des autres éléments du “web 2.0 – web²”.

Le livre se compose de trois sections: la première sur les outils de la recherche (moteurs, annuaires etc.), la deuxième sur les méthodes de recherche et la troisième sur des outils spécifiques tels Google Scholar, Exalead etc. Chacune des sections est divisée en plusieurs chapitres, identifiés par un code couleur différent, ce qui rend la lecture plus agréable.

Importance de la recherche éveillée

Tout d’abord, l’auteure décrit l’utilité de se former à une recherche éveillée (chapitre 1). En premier lieu, les résultats d’une “simple” recherche sur internet, changent en fonction de comment on la formule, mais aussi de l’outil qu’on emploie. Par exemple, en formulant la même requête sur Google et sur Yahoo(Bing), on obtient des liens tout à fait différents. Pour en avoir la preuve, on peut faire un test avec Tumbshots Ranking, qui met en parallèle les deux moteurs; voici le résultat de la recherche du mot “rideau”:

Pour éviter ce problème de discordance des réponses, on peut utiliser des métamoteurs, soit des “moteurs de moteurs”. L’auteure (pp.103-106) nous conseille: Twingine.no, qui permet de visualiser les résultats sur Yahoo et sur Bing en même temps, à droite et à gauche de l’écran (j’ai pas réussi à visualiser Yahoo vs. Google, mais il doit bien y avoir une manière de le faire); Harvester42, qui permet de visualiser les résultats de plusieurs moteurs (parmi lesquels Google Scholar, Google Books, Delicious, Exalead…) un à la suite de l’autre en vertical; Spezify.com, qui a une visualisation particulièrement novatrice (post-it) et moins ennuyeuse que les métamoteurs classiques et qui reprend sélectivement certaines des données produites par les autres moteurs. Bien évidemment, leur usage dépend non seulement des préférences de l’utilisateur, mais aussi du but de la recherche. Pour se faire une idée rapide sur un sujet, Spezify est selon moi le meilleur outil; au contraire, pour une recherche très approfondie, Harvester42 est sans doute les meilleurs de ces trois métamoteurs.

En plus des différences entre moteurs, il faut rappeler que celui que l’on consulte d’habitude n’est que le “web visible”; à ceci s’ajoute un immense “web invisible” (soit non indexé par les moteurs) qui peut contenir, par exemple, des immenses bases de données dont seulement la page d’accueil sera indexée. Le web invisible se compose de l’“opaque web” (qui pourrait être indexé, mais ne n’est pas, par exemple parce qu’une page a été créée suite au passage du robot sur un site), du “private web” (dont l’indexation a été interdite par le créateur), du “proprietary web” (accès restreint, par exemple par un mot de passe) et du “truly invisible web” (accès impossible pour des raisons techniques; c’est très fréquent dans le cas des bases de données).

Utilisation des moteurs de recherche généralistes

Heureusement, le web invisible devient de plus en plus accessible. En effet, plusieurs moteurs (notamment Google) indexent désormais non seulement les pages en html, mais aussi des documents en différents formats (.doc, .pdf, .xls, .ppt…). Ceci est très utile, surtout quand on cherche des publications sur un argument très précis, par exemple des brochures. Pour définir le format du document que le moteur va chercher, on peut le définir à l’aide de la commande spécifique (filetype:*). Ainsi, par exemple, si je recherche le recueil de poèmes “Les fleurs du mal” pour le lire, la solution sera de chercher non simplement le titre, ce qui donnerait ce résultat

mais de préciser aussi que je cherche un fichier du type .pdf …ce qui me mènera directement vers le lien au document lui-même:

Ceci nous mène vers le chapitre 2 de l’ouvrage de Foenix-Riou, dédié aux moteurs de recherche. C’est un des chapitres centraux du livre, avec des nombreux trucs et astuces pour interroger Google, Yahoo ou Exalead de manière performante. En effet, à part le fait de saisir une requête pertinente en choisissant les bons mots, il est utile de les écrire en profitant des outils avancés proposés par les moteurs.

Un certain nombre de ces syntaxes sont liées à la présence des mots dans le texte des pages indexées. Ce tableau résume les principaux cas de figure (basé essentiellement sur Google):

Je cherche…

Je tape…

les deux mots Black Dahlia	black dahlia (l’opérateur AND, qui indique la recherche d’un mot ET de l’autre, est sous-entendu)
des pages contenant le mot Black, le mot Dahlia, mais pas les deux	black OR dahlia
des pages contenant les deux mots Black Dahlia, mais pas les mots movie et film	black dahlia –movie –film
des pages contenant exactement le mot colle, mais pas le mot collé (accent)	+colle (sinon,Google ne fait pas la différence entre les deux)
des pages contenant exactement le nom Mylène Farmer	“Mylène Farmer” (ceci empêche au moteur de trouver des pages où il y aurait écrit, par exemple, “Mylène cosmétique…….bla bla bla…Simon Farmer”; quand on utilise cette syntaxe pour chercher des personnes, comme c’est le cas ici, il faut penser aussi à chercher dans l’ordre opposé, notamment “Farmer Mylène”)

des pages contenant les mots Association et football, séparés par plusieurs autres mots (par exemple, Association Suisse de Football)	association * football (cette syntaxe, qui fonctionne seulement sur Google, ne spécifie pas combien de mots il y a entre les deux; on tombe par exemple sur “Association Suisse de Football”, et aussi sur “Association cantonale vaudoise de football”…mais le moteur exclut “Association Football Club”). association NEAR:3 football (cette syntaxe, propre à Bing/Yahoo, permet de trouver les mots association et football séparés par au maximum trois mots; cela va donc trouver aussi bien l’“Association Egyptienne de Football” que la “Ghana Football Association”)
des pages contenant les mots Titanic movie, plus un chiffe compris entre 1975 et 1980 des pages contenant le mot caviar, plus une valeur comprise entre 150 et 200 dollars	titanic movie 1975..1980 (cette syntaxe – numrange -, propre à Google, permet de définir une fourchette de valeurs recherchée; sur le plan logique, elle équivaut à la syntaxe titanic movie 1975 OR 1976 OR 1977 OR 1978 OR 1979 OR 1980….mais le résultats ne sont toutefois pas les mêmes!) caviar $150..200 (toujours sur Google, on va trouver des boites de caviar à un prix entre 150 et 200 dollars…dommage que cela semble fonctionner seulement avec l’indicateur $, et pas avec £, € etc.)
des pages similaires à www.unil.ch des recherches associées avec Unil des contenus similaires à Lausanne	related:www.unil.ch (cette syntaxe, propre à Google, fera apparaitre des pages comme unige.ch, unine.ch etc.) Sur Google, on parcourt la barre verticale à gauche (plus d’outils) et on choisit recherches associées; cela fait apparaitre les plus fréquentes des recherches effectuées par rapport à l’Unil, comme “unil formation continue” ou “unil ssp”. Une alternative est d’utiliser AdWords de Google, qui élabore des statistiques sur les co-occurrences des mots insérés dans les recherches sur le moteur. Sur Exalead, la barre verticale gauche propose des termes associés, comme “canton de Vaud” ou “Lac Léman” Le site Touchgraph.com (p.137) propose aussi une recherche de contenus similaires et liés; par exemple, voici le résultat de la requête “Lausanne”:

Deux autres syntaxes intéressantes sont spellslike:… et soundslike:… sur Exalead, qui devraient permettre d’identifier des mots sur la base d’une prononciation ou d’une orthographe approximative. L’idée est bonne, mais les tests que j’ai fait ne se sont pas révélés probants.

Des autres syntaxes sont liées à la présence de certains critères (par exemple mots-clés) dans une partie de la page (par exemple, l’url). Voici les principaux cas de figure (principalement sur Google):

Je cherche…	Je tape…
des pages contenant dans le titre le mot rêve des pages ayant pour titre “signification des rêves”	intitle:rêve allintitle: signification des rêves
des pages contenant dans leur url le mot rêve des pages contenant dans leur url les mots rêve et signification	inurl:rêve ou inurl:reve (les tests sans accent se montrent plus probants) allinurl:reve signification
des pages contenant les mots rêve et signification et faisant partie d’un site particulier, par exemple celui de l’Unil	rêve signification site:unil.ch
des pages contenant les mots Barack Obama et publiées entre 2005 et 2006	Barack Obama, puis sur Google dérouler la barre gauche (période personnalisée) et insérer les dates 2005 et 2006 Si l’on souhaite avoir une vision globale du trafic sur Google à propos de Barack Obama, on peut utiliser Google Trends, qui fournit un graphique et met en exergue les moments avec le plus de trafic sur le sujet.

des pages contenant des liens vers une page en particulier, par exemple toutes les pages avec un lien vers la page d’accueil du site de l’Unil

des pages contenant des liens vers tout un domaine, par exemple vers toutes les pages du site www.unil.ch

link:www.unil.ch
(cette syntaxe fonctionne sur Yahoo(Bing) )

Il existait la fonction linkdomain, mais cela a été intégré d’abord dans Site Explorer et puis dans Bing Webmaster Tools (désavantage: seul l’administrateur du domaine a accès aux données!). Une alternative est fournie par Ahrefs, mais il faut s’enregistrer pour avoir accès à tous les données.

Souvent, surtout si on recherche une information venant de l’étranger, il vaut mieux élargir la recherche aux pages en une langue différente de la notre. Les fonctions de recherche avancée de Google sont très performantes de ce point de vue. Il suffit en effet de choisir “pages en langue étrangère traduites” dans la bande verticale à gauche pour voir apparaitre en haut de la fenêtre une nouvelle interface, où nous pouvons choisir les langues-cible. Ainsi, par exemple, si l’on tape le nom du groupe musical “Janas” dans une recherche “simple” sur google.ch…

…on observe que les résultats seront très différents (et plus pertinents) si on concentre la recherche sur des sites italiens traduits:

Dans ce deuxième chapitre on trouve aussi des notions sur l’histoire des moteurs de recherche, dont on ne va pas donner de détails ici. Pour les nostalgiques: si cela vous intéresse, le site WayBackMachine propose des captures d’écran des sites internet, réalisées depuis 1996.

Les moteurs de recherche spécialisés

Pour compléter, l’introduction aux moteurs, le cinquième chapitre propose une introduction aux moteurs spécialisés (p. 160 et suivantes). L’intérêt des moteurs spécialisés est qu’ils indexent seulement une petite partie du web, celle pertinente à leur domaine. Ainsi, les informations non-pertinentes ne polluent pas les résultats de la recherche…et celles pertinentes sont sans doute indexées et ne sont pas noyées dans le reste.

Les moteurs spécialisés proposés par le livre ne sont pas intéressants en soi; cependant, en effectuant une recherche ciblée sur des annuaires de moteurs de recherche (par exemple: Les Annuaires), il est facile de trouver des moteurs spécialisés dans l’argument qui nous intéresse. Ainsi, pour ce qui est de l’éducation, on signalera les français Spinoo et PEclic (intéressants mais, il faut le dire, encore pas au top et avec une fréquence de balayage du moteur encore insatisfaisante – beaucoup de liens “morts”), l’anglais EEP (bon pour des liens “variés”), l’américain ERIC (bon pour des recherches bibliographiques) et, spécialement pour les géographes, l’anglais GeoSearchEngine.

Pour vous faire une idée de la différence des résultats selon le moteur utilisé, voici les captures d’écran d’une recherche sur le mot “gentrification” effectuée avec les trois derniers moteurs mentionnés et avec Google.

Comme on peut lire sur la page d’accueil de GeoSearchEngine, ce site fonctionne grâce à une personnalisation du moteur de recherche Google. En effet, à travers la fonction Google Custom Search Engine, il est possible de créer son propre moteur de recherche: il suffit de “dire” à Google sur quels sites il faut chercher, et c’est plutôt simple (interface “Google recherche personnalisée”, pp.171-174). Un autre site qui permet de créer des moteurs personnalisés est Rollyo; l’avantage est qu’ici les moteurs thématiques peuvent être partagés…et en les consultant on peut découvrir des nouvelles sources intéressantes.

Des autres moteurs spécialisés sont ceux dédiés à l’information scientifique. Le livre mentionne Google Scholar (p.177), sur lequel je ne vais pas m’arrêter. Une belle découverte est Scirus (p.175), moteur créé par Elsevier, qui offre une interface plus intuitive par rapport à Google Scholar et qui permet de affiner ses recherches beaucoup plus simplement que Scholar. En effet sa barre verticale gauche propose des filtres par rapport à la source (journal, site, type de fichier) et à des mots-clé additionnels.

Finalement, des moteurs spécialisés se concentrent sur la recherche de certains types de documents. Ainsi, il y a les moteurs pour images (notamment, le livre mentionne Flickr (bonne recherche avancée, qui permet entre autre de choisir le type de licence des images trouvés), Picsearch (indexe de manière indépendante 3 milliards d’images, mais les fonctions de recherche ne sont pas super pointues), Pixolu (permette de faire une recherche parallèle sur deux images, affichant les images similaires aux deux en même temps).

Il existe aussi des moteurs de recherche de vidéos. Parmi ceux là, le plus impressionnant est sans aucun doute Voxalead. Ce moteur, développé par Exalead et Vecsys et spécialisé dans l’information, permet de rechercher à l’intérieur des bandes sonores transcrites de nombreuses vidéos et émissions de radio, parmi lesquelles des journaux télévisés indexés très rapidement (compter quand même un jour de décalage par rapport à l’actualité). L’outil est très pratique: une vision standard des résultats est complétée par une bande horizontale qui illustre les occurrences du mot recherché au fil du temps; une autre bande verticale, à droite, présente les chaines d’où sont tirées les infos, les termes liés, les personnages publics en cause…

Cette visualisation peut-être substituée par une “carte des infos” ou par des statistiques sur les co-occurrences.

A présent, on a plus ou moins fait le tour des moteurs de recherche, en attendant de voir les annuaires et le reste dans le 2ème épisode. Puisqu’on les a mentionnés plus haut, quittons nous avec une chanson des sardes Janas, Biskisende (En souriant). Bonne route!

Janas, Biskisende - 2002

Récits tout court [Archives]

samedi 4 février 2012

Recherche éveillée #1

9 commentaires: