Comment fonctionnent les CAPTCHAs et pourquoi sont-ils si difficiles?

Added 2019-11-29

Vous essayez d’acheter un article ou de vous connecter à un compte. Vous entrez vos identifiants, mais avant de poursuivre, vous devez prouver que vous êtes un être humain. Cochez la case "Je ne suis pas un robot". Vous pouvez voir une image floue avec des chiffres asymétriques que vous devez déchiffrer. Ce sont des CAPTCHA, et même s’ils peuvent être une nuisance, ils sont nécessaires.

Droite?

Que sont les CAPTCHA et comment fonctionnent-ils? Comment sont-ils différents des reCAPTCHAs? Et pourquoi beaucoup d’entre eux sont-ils si difficiles?

Qu'est-ce que CAPTCHA?

CAPTCHA signifie Test de Turing public complètement automatisé pour différencier les ordinateurs et les humains. Ils prennent leur nom d'Alan Turing, le générique cryptanalysis qui a créé le test de Turing. C’est une manière d’examiner la pensée d’une machine, de vérifier si son comportement est identique à celui de l’être humain.

CAPTCHA v3 protection spambot

Un test de Turing standard implique une personne réelle juger les sujets. Les CAPTCHA ne le font pas: ils sont généralement administrés par un ordinateur. En tant que tels, certains les appellent le «test de Turing inversé», tandis que d'autres les connaissent sous le nom de Human Interaction Proof (HIP).

Les CAPTCHAs ont été créés pour empêcher les robots de spammer des sites Web. N'importe quel technicien expérimenté peut créer un programme qui ouvre automatiquement jusqu'à plusieurs millions de comptes. Les CAPTCHA sont conçus pour empêcher cela.

C’est parce que les ordinateurs ont du mal à déchiffrer le texte déformé - ou du moins plus difficile que l’humain. La plupart des CAPTCHA sont associées à différents dégradés de couleurs en arrière-plan, afin de masquer davantage le message.

Il existe un débat sur la personne qui a créé CAPTCHAs, bien que le terme ait été inventé par l’Université Carnegie Mellon de Pittsburgh en 2003.

Comment fonctionnent les CAPTCHAs?

Le texte peut être vraiment obscurci, mais vous pouvez toujours comprendre ce que cela signifie. Plus les symboles sont asymétriques, plus le CAPTCHA est efficace. C’est parce que les humains présentent la paréidolie, un phénomène dans lequel notre cerveau tente de comprendre le hasard. C’est votre esprit qui essaie de mettre de l’ordre dans le chaos.

Christ, je déteste ces fichus problèmes de sécurité captcha - je ne peux pas voir les images sanglantes la plupart du temps. Terrible.pic.twitter.com/T65tMeKs4U

- Jamie Sefton (@ Seffers007)24 novembre 2018

Pareidolia est la raison pour laquelle vous induisez les visages là où ils ne devraient pas être: nuages, bâtiments, falaises, arbres, boissons, fleurs, etc.

Les exemples les plus célèbres de cette bizarrerie psychologique concernent généralement la religion (avec des personnes prétendant voir Jésus dans leur nourriture) et l'astronomie. Vous connaissez Barnard 33 par son expression familière, la nébuleuse de Horsehead, en raison de ses qualités équines; d'autres voient un lapin gravé dans les cratères de la lune.

C’est aussi la raison pour laquelle vous pouvez distinguer les mots dans les CAPTCHA même quand ils sont rayés et déformés. Notre cerveau établit des liens que les programmes informatiques ne peuvent généralement pas.

Pourquoi les CAPTCHA sont-ils si difficiles?

Luis von Ahn, anciennement de l’équipe CAPTCHA de l’Université Carnegie Mellon, explique qu’il faut en moyenne neuf secondes à la résolution d’un CAPTCHA. 92% réussissent. Cela peut vous rendre stupide d’avoir saisi la mauvaise combinaison, mais cela ne devrait pas. Tout le monde fait partie des 8% restants de temps en temps.

En fait, les taux d'échec passent de 8% à près de 30% si la CAPTCHA est sensible à la casse.

Le problème avec l'information inférentielle est que nous pouvons facilement déduire lafaux information. Un «je» peut devenir un «1». C’est encore plus difficile lorsque le CAPTCHA n’est pas composé de mots mais de lettres aléatoires.

Heureusement, les services savent que les humains sont faillibles et ne peuvent pas toujours lire des textes flous. La plupart des CAPTCHA vous offrent la possibilité d’en générer un nouveau. Si vous avez des difficultés, actualisez-le.

Captcha’s sont la fin de la terrible, horrible, très mauvais#ux. Quelqu'un peut-il réellement lire ceci?!?!pic.twitter.com/vW4E19vvCc

- Sarah Doody (@sarahdoody)22 février 2015

La principale raison pour laquelle les CAPTCHA peuvent être si difficiles est la nécessité. Comme les CAPTCHA ont évolué, les attaquants ont eux aussi évolué. L'intelligence artificielle (IA) peut lire même les textes particulièrement déformés avec une précision estimée à 99%. Les CAPTCHA ont dû améliorer leur jeu.

Notamment, Google a considérablement avancé la technologie, mais nous y reviendrons.

Comment les programmes vainquent-ils CAPTCHA? Ils sont fissurés en utilisant des algorithmes qui recherchent des formes particulières. Celles-ci convertissent généralement la zone de texte en niveaux de gris, éliminant ainsi la distorsion offerte par les artefacts de couleur. Ils se concentrent ensuite sur les modèles et les comparent avec des lettres et des chiffres standard.

L'algorithme prend, de manière efficace, des suppositions éclairées lorsqu'il s'agit de tout chiffre non identifié.

CAPTCHA: Qu'est-ce qui pourrait mal se passer?

Les CAPTCHA posent de nombreux problèmes, en particulier pour les personnes handicapées. C’est particulièrement vrai pour les personnes ayant une mauvaise vision ou souffrant de dyslexie.

Oui, les CAPTCHA se sont développés pour lutter plus efficacement contre les robots et devenir plus facile pour les humains. Dans certains cas. C’est fait de plusieurs manières importantes. Le premier est à travers la variation de la vérification. Un exemple couramment utilisé consiste à remplacer du texte par des photos.

Vous pourriez être présenté avec des images dans une grille et devez cliquer sur chaque case affichant des panneaux de signalisation. Cela fonctionne tellement bien parce que les programmes souffrent de la vision par ordinateur, c’est-à-dire d’une difficulté à comprendre le contenu des images numériques.

Les images fonctionnent également bien pour les utilisateurs de smartphones et de tablettes: il est beaucoup plus facile de toucher et de sélectionner les bons carrés. C'est-à-dire, tant que ces photos se chargent correctement!

Une autre adaptation est audio CAPTCHA, qui lit le texte pour ceux qui ont du mal à déchiffrer les chiffres. Ceux-ci sont souvent accompagnés par un fond sonore. Cela peut causer des problèmes supplémentaires aux spammeurs utilisant un logiciel de reconnaissance vocale.

chère@ CalFTB: Le vôtre est un très mauvais captcha.pic.twitter.com/wHkJUUcpZF

- Mark Frauenfelder (@Frauenfelder)23 juillet 2019

Les CAPTCHA ont également évolué via l'intégration à Google et l'introduction de reCAPTCHAs. Et non, ce n’est pas tout à fait la même chose…

CAPTCHA et reCAPTCHA: Quelle est la différence?

La plupart des CAPTCHA que vous voyez sont en réalité des reCAPTCHAs. Ce dernier fait le même travail que le premier, mais le dépasse en favorisant également l'apprentissage automatique.

De plus, les reCAPTCHAs sont utilisés pour la numérisation de livres.

Ils ont été développés par la même équipe de l'Université Carnegie Mellon qui nous a donné le terme «CAPTCHA». Le logiciel à code source ouvert visait à «préserver la littérature en déchiffrant un mot qui n'était pas lisible par un ordinateur». En effet, chaque fois que vous déchiffrez un mot trouvé dans un reCAPTCHA, il est utilisé pour l’apprentissage automatique. Vous aidez le programme à comprendre les différentes formes et modèles de symboles.

CAPTCHA est une combinaison aléatoire. reCAPTCHA est composé de mots ciblés que les bots n’ont pas encore analysés.

Il a été publié en 2007 et acquis par Google en 2009. Beaucoup considèrent Google comme un conglomérat massif auquel on ne peut pas faire confiance, mais les reCAPTCHAs ont fait beaucoup de bien. Deux ans seulement après l’acquisition, la technologie avait entièrement numérisé les archives de Google Books et du New York Times. Les deux sont de précieux référentiels d'informations.

Il est ironique de constater que la technologie peut désormais comprendre le texte de manière efficace, rendant les reCAPTCHAs redondants. C’est pourquoi Google a poussé l’idée plus loin.

Vous êtes-vous déjà demandé ce qui se passe lorsque vous cliquez sur «Je ne suis pas un robot» et que vous procédez tout de suite, sans rien déchiffrer? Le nouveau reCAPCTHA de Google analyse votre activité sur l’ensemble du site, puis vous attribue secrètement un score de probabilité pour déterminer si vous êtes un humain ou un bot.

Essentiellement, il a été déterminé si vos interactions avec le service sont plus représentatives d’une personne réelle ou d’un programme.

Facile sur les humains, dur sur les bots?

À mesure que les robots deviennent plus intelligents, les systèmes de sécurité doivent également progresser. ReCAPTCHA est une idée assez solide. Pour l'instant.