Close
  • Français
  • English

Les progrès dans l’identification et l’attribution des cyberattaques [par Cyril Nalpas, CEIS]

09/09/2014

Si une prise en compte grandissante des risques par les différents acteurs et la multiplication des outils défensifs contribuent à réduire les conséquences des cyberattaques, l’augmentation continue de ces dernières indique tout de même qu’une approche purement défensive ne dissuade pas les cyberattaquants de sévir. Il apparait ainsi impératif d’être en mesure d’identifier les auteurs des attaques afin de permettre l’enclenchementde réponses cybernétiques, politiques ou juridiques.

Pour autant, est-il judicieux pour une organisation de faire savoir qu’elle possède des capacités en terme d’identification et d’attribution ? Celle-ci court alors le risque de voir son efficacité s’amoindrir.

En octobre 2012, un officiel du DoD (Departement of Defense) indiquait que malgré la croyance communément partagée dans le cyberespace qu’il serait impossible d’attribuer une attaque à un individu ou à un Etat spécifique, son département a investi considérablement dans le développement de cette capacité et celle-ci s’est considérablement améliorée. Leon Panetta, alors ministre de la Défense des Etats-Unis, ajoutait que l’U.S. Army possédait dorénavant les capacités de déterminer les origines des cyberattaques[1].

Si ces annonces prennent tout leur sens suite aux révélations d’Edward Snowden, on peut se douter que ces « progrès » reposent en grande partie sur les capacités sans précédent de l’USCYBERCOM (United States Cyber Command) et de la NSA. Il convient alors de  souligner les difficultés rencontrées dans l’attribution des cyberattaques mais aussi les méthodes qui pourraient permettre de surmonter ces difficultés.

Pourquoi est-il difficile de tracer la source d’une attaque ?

Contrairement au réseau téléphonique traditionnel, qui possède un système efficace d’identification et de localisation des utilisateurslié au besoin de facturer l’utilisation du service pour chaque appel, le réseau Internet n’a pas été conçu dans l’optique d’identifier les échanges et leur attribution autrement que dans un but purement logistique : il s’agissait à l’origine d’un réseau gratuit à l’utilisation. De plus, étant adressé à une communauté collaborative de chercheurs, les besoins de sécurité n’ont pas été anticipés lors de la phase de spécifications d’ARPANET. Il ne s’agissait pas de protéger le réseau contre des cyberattaques internes, mais contre des attaques physique externes: c’est ainsi la robustesse qui a été privilégiée au détriment de la sécurité.

[box style=’info’]Protocole TCP-IP, usurpation d’adresse IP (IP spoofing) et attaques DDoS

Le protocole TCP-IP permet le transport des flux de données, en segmentant ces derniers sous la forme de paquets comprenant entre autres : adresse source, adresse de destination et les données. Il n’opère pas de vérification de l’adresse source, ce qui rend aisée l’usurpation de l’adresse d’un autre ordinateur.

L’usurpation d’adresse IP possède cependant un inconvénient : l’émetteur réel ne peut pas recevoir de réponse de son destinataire au cours de cette communication à sens unique.

Cette technique est employée notamment dans les attaques par déni de service (DoS), afin de cacher l’émetteur des paquets (l’attaquant) ou en se faisant passer pour la cible réelle de l’attaque  (DRDoS): il s’agit de faire envoyer des requêtes par un grand nombre d’ordinateurs (un botnet) qui usurpent l’adresse IP de la victime. La victime recevra alors les réponses à des requêtes qu’elle n’a pas réellement émises, au risque intentionnel d’être surchargée et de ne plus être opérationnelle.[/box]

 Une première réponse technique : le Single PacketBacktracing

Si l’idée de tracer individuellement les paquets IP dans l’optique de contrer l’usurpation d’IP et de remonter au plus proche de la source est ancienne, plusieurs propositions plus concrètes sont apparues à partir du début des années 2000.L’idée originelle était de faire stocker par les routeurs les paquets IP en transit, afin de permettre d’être en mesure de remonter facilement et rapidement au point d’entrée sur le réseau. Cette première approche se confrontait à plusieurs infaisabilités, à la fois techniques (capacité de stockage et vitesse d’enregistrement) et juridiques (protection de la vie privée).

En 2001, une première approche appelée Hash-Based IP Traceback[2] propose de stocker uniquement des Hashs – c’est-à-dire des empreintes – des paquets IP transitant par les routeurs. Cette technique est au cœur du Source Path Isolation Engine[3] (SPIE), qui permet de répondre à l’obstacle technique de capacité de stockage et à celui juridique de préservation de la confidentialité des données.

Cette approche, nécessitant d’apporter des évolutions aux routeurs, permettrait une identification quasi-instantanée, au mieux de l’attaquant, sinon du point d’entrée sur le réseau d’une cyberattaque.

Elle pourrait s’inscrire dans une démarche nationale voire transnationale au sein d’un espace de coopération, mais on imagine plus difficilement une application au niveau mondial : si tous les Etats pourraient s’entendre sur la nécessité de lutter contre la cybercriminalité, il est moins sûr qu’ils soient prêts à financer une amélioration coûteuse deleurs infrastructures suivant une norme commune, ce qui réduirait leur capacité offensive.

Cependant, quand bien même serait identifié le poste d’origine de l’attaque (ce qui est rendu difficile par l’utilisation de proxy), la technologie seule ne permettrait pas de connaître l’identité de la personne physique contrôlant l’ordinateur qui dirige l’attaque. Par exemple, si l’utilisation d’un botnet est à première vue un élément rendant particulièrement difficile l’identification d’un attaquant, un examen du code pourrait néanmoins mettre en évidence qu’il s’agit d’un botnet peu répandu et ainsi réduire considérablement le champ des possibles dans l’attribution de l’attaque. Ceci implique des analyses déductives, a priori, mais a priori seulement, réalisées par des analystes.

La méthode InCA[4]

Une équipe internationale de chercheurs a développé un nouvel algorithme baptisé InCA (Intelligent Cyber Attribution) afin d’attribuer l’origine d’une opération, algorithme censé en outre être capable d’expliquer à l’analyse les raisons de cette attribution. Ce système opère la combinaison de modélisations probabilistes, qui constituent le modèle environnemental (EM), et de raisonnements argumentés se basant sur des travaux en matière d’intelligence artificielle, soit le modèle analytique (AM).

Modèle EMModèle AM
« Le malware W et le malware X utilisent le même style de programmation. »« Le malware W et le malware X sont liés. »
« Le pays Y et le pays Z sont en guerre. »« Le pays Y a des raisons de lancer une cyberattaque contre le pays Z. »
« Le pays Y a investi significativement dans l’éducation en matière mathématique et scientifique. »« Le pays Y has la capacité de lancer une cyberattaque. »

Exemples d’observations – EM vs AM

Les données contenues au sein du modèle EM se doivent d’être cohérentes, alors que le modèle AM permet l’emploi d’informations contradictoires. Au sein de ce second modèle, un processus dialectique s’enclenche entre les arguments contradictoires, aboutissant à l’invalidation de l’un d’eux sur la base d’un critère de comparaison. Ceci permet en outre d’outrepasser aisément les fausses pistes laissées par les cyberattaquants dans le but d’induire en erreur les analystes. Les informations contenues dans le modèle EM constituent un ensemble de « mondes » dans lesquels seront testés les arguments validés du modèle AM à l’aide d’une fonction d’annotation. Cette dernière permet, du fait de la nature probabiliste du modèle EM, d’attribuer des probabilités à différents scénarios afin d’aboutir à une attribution argumentée de l’origine d’une cyberattaque.

Cette méthode se veut être la première à associer la programmation logique défaisable (Defeasible Logic Programming[5], un système qui permet de tirer des conclusions argumentées à partir d’informations incomplètes ou contradictoires) à des informations probabilistes. Elle nécessite évidemment d’être alimentée par des données les plus exhaustives possible. Ainsi, les axes de développement déterminés par les auteurs de ce modèle sont les suivants :

[list style=’square’]
[list_item] Permettre l’alimentation automatique des modèles EM et AM à partir des données collectées ; [/list_item]
[list_item] Permettre l’attribution des cyberattaques en temps réel ; [/list_item]
[list_item] Identifier les preuves supplémentaires qui doivent être collectées afin d’améliorer une requête spécifique d’attribution ; [/list_item]
[list_item] Permettre à l’algorithme d’être en mesure de traiter un grand volume de jeux de données. [/list_item][/list]

Le développement de solutions similaires à la méthode InCA semble incontournable, tant les cyberattaques peuvent allier célérité et pouvoir de nuisance, voire de destruction. Ceci appelle bien à la création de systèmes capables de détecter les cyberattaques et d’identifier leurs auteurs pratiquement en temps réel. Un système tel que le Source Path Isolation Engine pourrait permettre en outre de nourrir en informations une solution de type InCA, dans le périmètre dans lequel le premier serait appliqué.