Le Web Scraping est-il légal ? Les Bests Practices ? Éthique ?

< Revenir à la Catégorie
Le Web Scraping n'est pas illégal, il n'est pas légal non plus quand il est mal réalisé et qu'aucune éthique n'est prise en compte dans sa réalisation

Résumé des points clés de cet article

Rappel de ce qu'est le Web Scraping ? le Web Crawling ?

Le Web Scraping désigne l'extraction de données d'un site web.

Scraper signifie collecter et exporter les données d'un site web dans un format plus utile pour l'utilisateur.

Le Web Crawling désigne l'automatisation d'un robot qui parcourt des sites web pour lister et stocker l'ensemble des URL (et le maillage entre les pages)

Plus d'informations si vous le souhaiter dans cet article : Qu'est ce que le Web Scraping ?

Le Web Scraping est-il légal ? 

Le Web Scraping est-il légal ? Oui et Non.

La véritable question est de savoir comment vous comptez utiliser les données que vous avez extraites d'un site web (manuellement ou à l'aide d'un logiciel). En effet, les données affichées par la plupart des sites web sont destinées à la consommation publique. Il est tout à fait légal de copier ces informations dans un fichier de votre ordinateur. Mais c'est sur la manière dont vous comptez utiliser ces données que vous devez faire attention. Si les données sont téléchargées pour votre usage personnel et votre analyse, alors c'est tout à fait éthique. Mais si vous envisagez de les utiliser comme les vôtres, sur votre site web, d'une manière qui va totalement à l'encontre des intérêts du propriétaire des ces données, sans l'identifier, alors c'est contraire à l'éthique et c'est illégal.

De plus, les web scrapers peuvent lire et extraire des données de pages web plus rapidement que les humains, il convient de veiller à ce que le processus n'affecte en aucune manière les performances/la bande passante du serveur web. La plupart des serveurs web bloqueront votre IP, empêchant ainsi tout accès ultérieur à ses pages, au cas où cela se produirait.

Les sites web ont leur propre Conditions d'Utilisation et des détails sur les droits d'auteur dont les liens peuvent être facilement trouvés dans la page d'accueil du site web lui-même. Les processus de web scraping doivent respecter les conditions d'utilisation et les déclarations de copyright des sites web cibles. Celles-ci concernent principalement l'utilisation de leurs données et l'accès à leur site.

Voyons maintenant tout cela plus en détails. 

Le Web Scraping est-il légal ?

Qu’est-ce qu’une donnée personnelle ?

C'est la toute première et la plus évidente question que vous devriez vous poser lorsque vous lancez un projet de Web Scraping.

Le règlement général sur la protection des données, ou RGPD comme il est plus communément appelé, ne s'applique qu'aux données personnelles. Il s'agit de toute information personnelle identifiable (IPI) qui pourrait être utilisée pour identifier directement ou indirectement une personne physique. Mais qu’entend-t-on par données à caractère personnel ?

Pour des personnes physiques, voici un aperçu de ce que relate la CNIL* (France) :  

  • nom, prénom, pseudonyme, date de naissance;
  • photos, enregistrements sonores de voix;
  • numéro de téléphone fixe ou portable, adresse postale, adresse email;
  • adresse IP, identifiant de connexion informatique ou identifiant de cookie;
  • empreinte digitale, empreinte rétinienne, etc..
  • numéro de plaque d'immatriculation, de sécurité sociale ou de pièce d'identité;
  • données d'usage d'une application, des commentaires, etc...

L’identification n’est pas toujours possible à partir d’une seule de ces données personnelles mais peut être réalisée par un croisement de ces dernières.

* Commission nationale de l'informatique et des libertés

Web Scraping de Données Personnelles

La légalité du Web Scraping est restée longtemps dans une zone grise, mais elle est maintenant plus claire. Les réglementations relatives à la protection des données personnelles, telles que la RGPD de l'UE et la CCPA de Californie, ne s'opposent pas au scraping du web tant que :

  • Les données scrapées sont accessibles et publics sur le web
  • Les données personnelles sont stockées de manière sécurisée et conformément aux meilleures pratiques.
  • Les données ne sont pas vendues ou partagées avec des tiers, sauf si cela a été convenu avec la personne concernée.

Notez que la RGPD couvre en fait l'Espace Économique Européen (EEE), qui comprend tous les pays de l'UE, plus l'Islande, le Liechtenstein et la Norvège, cette réglementation est en fait un petit peu plus large que la seule UE.

Objectif principaux du RGPD
Objectifs de la RGPD

Si vous scraper les informations personnelles des résidents d'autres pays , vous devrez vous conformer aux lois sur la protection des données de la juridiction « locale » dont vous collectez les données personnelles.

Web Scraping de Données Non-Personnelles

La frontière reste flou : le cas LinkedIn

Le scraping des données fait partie intégrante de l'écosystème Internet moderne. Il n'est pas près de disparaître.

Des entreprises comme LinkedIn (Procès contre la société HiQ) ont été déboutées par la Cour d'appel des États-Unis.

Il fut en effet décidé que le Web Scraping automatisé était réalisé sur des données accessibles au public et ne violait pas la loi américaine (CFAA – loi Américain sur la fraude et les abus informatiques).

Web scraping Linkedin HIQ
LinkedIn VS HiQ

L'intérêt de LinkedIn pour poursuivre HiQ est sûrement davantage lié à la concurrence qu'ils se livrent pour fournir les mêmes services qu'à des préoccupations légitimes en matière de sécurité ou de protection de la vie privée.

Mais cette affaire touche à l'un des problèmes les plus importants de notre époque en matière de données et de vie privée. Qui est réellement propriétaire des données ?

Le procès a semblé affirmer que c'est nous – individus et entreprises – qui le sommes.

Ainsi toutes les plateformes avec lesquelles nous partageons ces données sont simplement autorisées à les utiliser, elles ne les possèdent pas directement. Mais dans la réalité, est-ce réellement le cas ?

Prévenir avant de guérir

Avec la prise de conscience accrue ces dernières années concernant la confidentialité des données et Web Scraping, il est désormais indispensable de s'assurer que votre projet est conforme à la législation. Sinon, vous risquez de vous attirer de nombreux ennuis, pour vous et votre entreprise.

D'autre part, il existe des cas de collecte et de suppression de données privées qui relèvent d'un tout autre domaine de légalité.

Tout d'abord, lorsque vous réfléchirez à la légalité du Web Scraping, vous voudrez décrire clairement l'accessibilité des données à votre équipe juridique.

Par exemple, le Web Scraping sur Internet à travers des sites web (publics) par opposition aux données B2B obtenues à partir d'un compte connecté à partir de LinkedIn (données privées/personnelles).

Liste des bonnes pratiques d’un Web Scraping éthique

La nécessité de disposer de sources de données augmente avec le temps et de nombreux sites web ne disposent pas de leurs propres API pour que les développeurs puissent accéder aux données qu'ils souhaitent. Cela signifie seulement que les pratiques de scraping du web ne feront que croître avec le temps et il est important que les développeurs sachent comment s'y prendre.

Techniques anti-scraping
Techniques Communes pour bloquer les Crawlers

Voici quelques bonnes pratiques pour un Web Scraping éthique :

Les API sont souvent la meilleure solution

Certains sites web disposent de leurs propres API conçues spécialement pour vous permettre de recueillir des données sans avoir à les gratter. Cela signifie que vous le feriez conformément à leurs règles ; vous avez été autorisé à obtenir les informations. Donc, s'il y a des API, utilisez-les pour éviter d'avoir à mettre en place des solutions de Web Scraping.

Respecter les fichiers Robots.txt

Également connu sous le nom de Robots Exclusion Standard, le fichier robots.txt est ce qui indique au logiciel de navigation sur le web où il est autorisé (ou non autorisé) dans le site web. Il fait partie du protocole d'exclusion des robots (Robots Exclusion Protocol, REP) qui est un groupe de normes web créé pour réglementer la façon dont les robots parcourent le web.

Lire les conditions Générales

C'est la principale façon dont le responsable du site web vous explique les règles. Oui, il est plus facile de cliquer sur "J'accepte" ou " Je suis d'accord" et espérer que tout va bien. N'oubliez pas qu'ils ont généralement écrit ces règles pour une raison.

Ne soyez pas abusif

Le processus de scraping peut être assez brutal pour le serveur, et un scraping agressif peut parfois conduire à des problèmes de fonctionnalité, générant une mauvaise expérience pour les internautes. Prenez donc l'habitude d'effectuer le scraping en dehors des heures de pointe. Et n'oubliez pas de répartir les requêtes de manière à ce que le responsable du site ne confonde pas votre Web Scraping avec l’attaque d’un hacker.

S’identifier

L'administrateur du site web peut remarquer un trafic inhabituel. Les bonnes manières passent avant tout, alors faites-leur savoir qui vous êtes, vos intentions et comment vous contacter pour toute question supplémentaire. Vous pouvez le faire en ajoutant simplement une chaîne User-Agent à vos informations, afin qu'ils puissent les voir. C'est très simple.

Demander la permission

Une certaine courtoisie humaine élémentaire est toujours appréciée. Ils ont quelque chose que vous voulez, soyez courtois et demandez avant de supposer que l'information est disponible gratuitement pour vous. N'oubliez pas : les données ne vous appartiennent pas.

Ne pas copier, Donner plus de valeur

Vous ne devez prendre que le type de contenu dont vous avez besoin. Et il faut toujours avoir une bonne raison de le faire avant toute chose. L'objectif de la collecte de données est de créer plus de valeur, et non pas de la dupliquer.

Respecter les données

Si vous avez obtenu la permission de collecter les données, cela ne signifie pas que vous pouvez maintenant accorder cette permission à d'autres.

Donner la pareille quand vous le pouvez

Mentionnez quand vous le pouvez la propriétaire du site web dans un article ou sur les réseaux sociaux pour ramener un bon trafic vers son site web et le remercier de la qualité de son travail.

Le Web Scraping est utilisé par les petits comme les gros

Lorsque vous vous interrogez sur la légalité du scraping, n'oubliez pas non plus que tous les résultats que vous voyez sur les moteurs de recherche ont été scrapés par les moteurs de recherche.

De plus, certains fonds spéculatifs dépensent des millions en Web Scraping pour prendre de meilleures décisions d'investissement afin de détecter des opportunités ou des signaux faibles sur les marchés.  

Le scraping n'est donc pas une pratique louche, uniquement utilisée par les petites entreprises.

Pourquoi les responsables de sites web veulent-ils empêcher le Web Scraping ?

Répartition du traffic web mondial
Répartition du trafic Web mondial
  • Les requêtes massives peuvent nuire aux performances du site.  (Certains hackers utilisent ce type de méthode pour faire planter des sites : DoS attacks)
  • Les robots, à l'exclusion de ceux des moteurs de recherche, représentent plus de 26 % du trafic sur le web
  • Les concurrents peuvent explorer leurs pages à la recherche d'informations : cela leur permet notamment d'être informés de leurs nouveaux clients, partenariats, évolutions de leurs produits ou services
  • Leurs données non publiques peuvent également être grattées par les concurrents qui créent des alternatives ou des services concurrents, ce qui réduit la demande pour leurs propres services
  • Leur contenu protégé par le droit d'auteur peut être copié et cité sans références, ce qui entraîne une perte de revenus pour le créateur de contenu

Quels sont les challenges du Web Scraping ?

Structures complexes des sites web

La plupart des pages web sont basées sur le langage HTML et les structures des pages web sont très divergentes. Par conséquent, lorsque vous devez scraper plusieurs sites web, vous devez construire un scraper pour chaque site.

La maintenance des scrapers peut être coûteuse

les sites web changent constamment la conception de la page. Si l'emplacement des données qui devaient être supprimées change, les crawlers doivent être programmés à nouveau.

Outils anti-scraping

Les outils anti-scraping permettent aux développeurs web de manipuler le contenu montré aux robots et aux humains et empêchent les robots de scraper le site web. Parmi les méthodes anti-Scraping, citons :

  • le blocage de l'adresse IP (contournement via l’utilisation d’IP tournantes / rotatives, de Proxies, etc...)
  • le CAPTCHA (qui peut se contourner via des bibliothèques disponibles sous Python)
  • et les Honeypots (cf Lien vers article).

Connexion obligatoire

Certaines informations que vous souhaitez extraire du web peuvent nécessiter que vous vous connectiez d'abord. Ainsi, lorsque le site web exige une connexion, le scraper doit s'assurer de sauvegarder les cookies qui ont été envoyés avec les demandes, afin que le site web reconnaisse que le crawler est la même personne que celle qui s'est connectée précédemment.

Vitesse de chargement lente/instable

Lorsque les sites web chargent le contenu lentement ou ne répondent plus, le rafraîchissement de la page est généralement nécessaire. Malheureusement il n’est pas toujours simple de configurer son Web Scraper à ce type de situation.

Quelles sont les best practices pour le Web Scraping ?

Les best practices les plus courantes pour le Web Scraping sont les suivantes :

Utiliser des proxys

De nombreux sites web utilisent des outils anti-bot qui doivent être contournés pour explorer un grand nombre de pages HTML. L'utilisation de serveurs proxy et l'envoi de requêtes via différentes adresses IP peuvent aider à surmonter ces obstacles.

Utiliser une IP Dynamique

Changer votre IP statique par une IP dynamique peut également être utile pour éviter d'être détecté comme un crawler et d'être bloqué.

Configurer le Crawler « lentement »

Vous devez limiter la fréquence des requêtes envoyées sur un seul et même site web pour deux raisons :

  • Il est plus facile de détecter les crawlers s'ils font des requêtes plus rapidement que les internautes
  • Le serveur d'un site web peut ne plus répondre s'il reçoit trop de requêtes simultanément. La planification et la configuration des périodes de crawling en dehors des heures de pointe contribuent à éviter ce problème.

Attention aux Conditions Générales et à la Réglementation

Si vous voulez extraire des données d'un site web qui nécessite une identification, vous devez accepter les conditions d'inscription. Certaines conditions générales stipulent explicitement que vous n'êtes pas autorisé à collecter les données de leurs sites web.

Cependant, même si les conditions générales de Linkedin interdisent clairement le scraping, comme mentionné ci-dessus, le scraping de Linkedin s'est avéré être une activité légale jusqu'à présent.

Vous devez également vous plier à la réglementation locale en vigueur comme nous l’avons vu précédemment dans cet article pour être sûr d’effectuer vos activités ou projets de Web Scraping en toute conformité.

Que nous réserve l'avenir du Web Scraping?

Le Web Scraping est devenu un jeu du chat et de la souris entre les propriétaires de contenu et les Web Scrapers. Les deux parties dépensent du temps et de l’argent pour surmonter les obstacles mis en place par l’un ou l’autre.

L'open source joue également un rôle de  plus en plus important dans le développement de solutions de Web Scraping toujours plus avancées.

La popularité du langage Python est croissante, ainsi que l’utilisation de bibliothèques telles que Selenium, Scrapy et Beautiful utilisées pour Web Scraper les contenus.

De plus, l'intelligence artificielle (IA) rend l'avenir du Web Scraping très intéressant car les systèmes d'IA dépendent des données, et l'automatisation de la collecte peut faciliter leurs applications et leurs apprentissages.

Pour aller un peu plus loin dans le Web Scraping, lisez les articles suivants :

  1. Les Outils de Web Scraping
  2. Qu'est-ce que le Web Scraping ?
  3. Comment collecter des emails
A Propos de l'Auteur ✍🏻

Je suis le fondateur de sales-hacking.com. 
Depuis de nombreuses années, j'aide les dirigeants d'entreprise, responsable marketing et commerciaux à dépasser leurs objectifs. 
Dans ce blog je vous explique en quoi ce que sont les dernières techniques et stratégies de croissance
Suivez-moi pendant que j'explore et expose les stratégies et tactiques de croissance méconnues qui changeront votre façon de penser le business dans votre entreprise. 

signature
Lancez votre entreprise sans risques et (presque) sans argent 🚀

Ne perdez plus de temps ni d'argent. La voie rapide pour obtenir vos premiers clients.

validation icon

21 jours vers le succès

validation icon

5 blocs de validation

validation icon

41 étapes guidées pas à pas

validation icon

+45 ressources inédites

VOICI la méthode guidée
Sommaire
LES MÉDIAS
NOUS CITENT
trends logo
digimedia logo
techcrunch logo
Jon logo
growth hackers logo
medium logo
trends logo
trends logo

Envie d'aller un peu plus loin ? 

icon growth meeting

Lancez votre business sans risque

Méthode guidée pas-à-pas pour tester votre  idée d'entreprise et obtenir vos premiers clients.

Découvrir le KIT
icon growth blog

Formez-vous sans tarder grâce au Blog

La transformation commerciale et marketing n'aura bientôt plus de secrets pour vous. Elle est essentielle pour votre business.

PARCOURIR LES ARTICLES