Big Data : 1234567

Les grandes données dépassent les limites du modèle économique traditionnel lorsqu’il s’agit de la gestion des installations physiques. C’est pourquoi les entreprises sous-traitent des tâches de traitement de données à des fournisseurs de cloud computing. Les fournisseurs d’infonuagique tels qu’Amazon Web Services ont des économies de masse par rapport à leurs clients. La plupart des serveurs dans l’environnement d’entreprise exécutant une ou deux applications n’atteignent qu’une utilisation de 10 à 15 %, en raison de la nécessité de réserver de la capacité pour fonctionner pendant les heures de pointe. Amazon parvient à une plus grande utilisation en exploitant la soi-disante loi des grands nombres : alors que les fluctuations de la demande sont en quelque sorte indépendantes, leur somme est proportionnellement moins volatile. Ainsi, Netflix peut offrir ses films à partir des installations d’Amazon parce que ses heures de pointe – la nuit – ne coïncident pas avec celles de la plupart des autres entreprises clientes d’Amazon, c’est-à-dire les heures de bureau.

[En lien avec ce sujet]
De plus, et cela est important, la gestion de ces installations exige des compétences spécialisées, une certaine compétence de base qui peut manquer à l’entreprise moyenne. Les spécialistes sont capables de gérer les temps d’exploitation, les sauvegardes, la reprise après interruption de service, les mises à niveau et les correctifs beaucoup plus avancés que la plupart des utilisateurs finaux. Ils peuvent réagir plus rapidement aux menaces à la sécurité. Le fournisseur d’infonuagique peut ainsi se concentrer sur les vertus classiques de l’infrastructure globale : fiabilité, ubiquité et efficacité. Les clients économisent de l’argent, mais surtout, gagnent en flexibilité. Ils sont capables de mobiliser des ressources, d’intensifier les processus et même de développer de nouvelles entreprises en quelques heures plutôt qu’en quelques semaines. Flexibilité et adaptation à moindre coût sont possibles grâce à la décomposition d’une chaîne de valeur en ses différentes composantes et à la gestion des parties où l’échelle influence une organisation séparée.

Mais cette possibilité ne se limite pas aux installations, elle s’applique aussi aux données elles-mêmes. L’essor des données ouvrant la voie à des ensembles de données beaucoup plus vastes et à des analyses beaucoup plus poussées, de nouvelles possibilités d’avantages concurrentiels s’ouvrent ainsi.

En 1994, Tesco, le détaillant alimentaire britannique, a émis une nouvelle carte de fidélité appelée Clubcard. L’entreprise a engagé une équipe composée d’un couple marié, Clive Humby et Edwina Dunn, tous deux mathématiciens, pour faire quelque chose de révolutionnaire : déduire le comportement des clients en utilisant ce que nous appellerions maintenant le Big Data. Clubcard a alors fourni à Tesco des données de transaction granulaires triées par code à barres, point de vente, client et voyage au point de vente. Dunn et Humby ont cartographié la gamme de produits Tesco dans cinquante dimensions abstraites : taille, gammes de prix, couleur, sucré-salé, etc. Ils ont ensuite examiné les paniers de produits achetés par les familles pour établir des corrélations entre ces dimensions. L’achat de « produits du marché » a révélé des variables de segmentation jusqu’alors invisibles, telles que les préoccupations budgétaires familiales, l’anxiété du statut et le végétarisme. Il y a aussi d’autres variables de segmentation que personne n’a été capable d’expliquer, et qui n’avaient pas besoin d’être expliquées non plus, puisque dans le grand monde des données il suffit qu’il y ait une corrélation. Tesco a ensuite utilisé ces corrélations pour identifier les préférences non évidentes des clients, déterminer les paires de produits interchangeables ou complémentaires et déterminer les catégories de produits croisées.

Les résultats ont été spectaculaires. Le taux d’échange des coupons promotionnels a atteint 20 % (comparativement à 1 % pour l’ensemble de l’industrie). Tesco a économisé environ 350 millions de dollars en réorientant ses promotions plus efficacement. Et, grâce en grande partie à l’élan donné par Clubcard, il a dépassé Sainsbury’s et est devenu la première chaîne alimentaire du Royaume-Uni.

[En lien avec ce sujet]
Pendant quelques années, Sainsbury’s a lutté pour trouver une stratégie qui lui permettrait de trouver une parade à cette situation. La supériorité d’échelle et l’expérience accumulée par Tesco semblaient imbattables. Finalement, Sainsbury’s a opté pour une tactique audacieuse : déloger Tesco en mettant sur pied sa propre carte de fidélité, Nectar, à d’autres détaillants. Nectar a été lancé en partenariat avec les magasins Debenhams, le géant pétrolier BP et la société de cartes de crédit Barclaycard et géré par un agent neutre, une société appelée Loyalty Management Group. Depuis, d’autres entreprises l’ont rejoint. Les utilisateurs de Nectar gagnent ainsi des points pour leurs dépenses chez d’autres détaillants et Nectar gagne en échelle et en gamme pour sa base de données d’utilisateurs. Une gamme étendue peut compenser le désavantage initial en termes d’échelle et d’expérience. Mais le principe critique est le suivant : à l’ère des grandes données, les économies de masse peuvent se développer au-delà des limites du concept traditionnel de l’entreprise. De cette façon, la valeur et l’avantage peuvent être créés par de nouvelles institutions, celles en charge de la collecte des données.

Il faut espérer que cette même logique pourra être appliquée à une plus grande échelle en médecine génomique. De grandes techniques d’analyse de données seront utilisées pour identifier des modèles minimaux dans l’information génomique individuelle, les dossiers médicaux, les symptômes, les protocoles, les résultats, les données en temps réel fournies par les capteurs corporels, et les données environnementales. La médecine progressera en décodant d’immenses ensembles de données interdépendantes, peu coûteuses et inexactes, plutôt que de petites données cloisonnées, coûteuses, précises et exclusives produites par les rapports médicaux, les essais cliniques et les expériences en laboratoire. En accédant à ces bases de données, les médecins, et même les patients, peuvent ainsi devenir des chercheurs, et les meilleures pratiques fondées sur des données probantes peuvent être étendues à toutes les communautés médicales.

Mais une question se pose : comment toutes ces données peuvent-elles être rassemblées si les fournisseurs, les assureurs, les fabricants d’appareils, les sociétés pharmaceutiques, Google, les patients et les gouvernements, possèdent non seulement différentes parties de l’ensemble des données, mais les protègent jalousement et se font concurrence en fonction de l’avantage qu’elles apportent ? Lorsqu’il est logique de fusionner des ensembles de données, comment la vie privée et les droits des patients seront-ils protégés ? La technologie seule ne peut pas résoudre ces problèmes. La réponse, et la seule possible, se trouve dans l’architecture. Nous avons besoin d’une infrastructure d’entrepôt de données fiable et neutre.

Ces changements sont déjà en cours. Les organismes sans but lucratif se positionnent comme des plateformes pour l’anonymisation, la protection et la protection des bases de données génomiques. Le projet du génome de trois millions de personnes est déjà en marche à Beijing. Les dossiers gérés par les universités et les associations médicales deviennent des fichiers dynamiques dans lesquels les données médicales fondées sur les faits sont partagées. Les nouvelles technologies de l’anonymisation et du cryptage des données rendront la nécessité scientifique de divulguer compatible avec le droit à la vie privée. La mise en place d’une infrastructure de données partagée sera l’un des défis stratégiques de la prochaine décennie dans le secteur de la santé et pour les législateurs.

Big Data : 1234567
Prospective|Société, 2019