Big Data : 1234567

Comment cette logique affecte-t-elle « les données » ? La réponse immédiate est que la numérisation – qui est un processus largement achevé – permet la déconstruction et nous ajoutons à cela que nous entrons dans une phase de polarisation. Les économies de masse (d’échelle et d’expérience) se polarisent en faveur du Big Data. Mais ils le font aussi au bénéfice des très petits, car les équipes et les individus deviennent des véhicules capables d’extraire de « grandes idées ».

Les données, jusq’à date, étaient un sous-produit d’autres activités. Il s’agissait de quelque chose d’analogue et de courte durée, produit et consommé sur place ou transmis par les chaînes de valeur, d’une manière similaire – ou plutôt égale – aux cartes kanban sur une chaîne de montage Toyota. Ils ont ensuite été pour la plupart rejetés ou, s’ils étaient conservés, filtrés et formatés dans des schémas rigides tels que la comptabilité, avec des objectifs limités et préétablis.

Les données, comme toutes les informations, ont des coûts fixes de création ou de collecte, de sorte que même avant la numérisation, leur rapport coût-efficacité pour les économies d’échelle était fonction de l’amortissement de ces coûts fixes. Et la logique de l’inférence statistique a toujours dicté que plus de données fournissent plus d’information, peut-être en raison du nombre de tendances ou de discriminations qui peuvent être déduites à un niveau de confiance donné, ou de la confiance avec laquelle une conclusion donnée peut être tirée. Mais jusqu’à récemment, ces économies d’échelle et d’expérience n’ont pas prédominé en raison des restrictions imposées à la collecte, au stockage, à la transmission, au traitement et à l’analyse des données. Nous avons travaillé avec des ensembles de données plus petits parce que nous ne pouvions pas tous les recueillir, les trier tous et sortir les factures sans encourir de grosses dépenses. Les économies d’échelle et d’expérience inhérentes aux données ont donc été piégées dans les processus, les lieux et les chaînes de valeur.

[En lien avec ce sujet]
Cependant, la numérisation a réduit à zéro les coûts de réplication des données, la communication a élargi la portée de cette réplication à l’échelle universelle et les coûts de stockage sont divisés par mille à chaque décennie qui passe. L’ »internet des objets » est ce qui nous permet de recueillir des données ; la mobilité omniprésente est l’une des nombreuses façons dont nous la produisons, la transférons et la consommons ; et le cloud est l’architecture pour son stockage et son calcul. Les économies de « masse » s’étendent : celles d’échelle le font en tirant parti des flux de données et celles d’expérience en exploitant l’accumulation des banques de données. « Les données veulent être grandes » et, enfin, la technologie l’a rendu possible.

Par conséquent, l’échelle minimale d’efficacité des données et des installations qui les hébergent s’accroît, dépassant d’abord la capacité des unités d’affaires individuelles au sein d’une entreprise et, en fin de compte, dans bien des cas, la capacité de l’entreprise elle-même. D’où l’émergence du cloud computing et des centres de données distants, d’abord au sein des entreprises, puis externalisés auprès de fournisseurs tels qu’Amazon, qui réalisent des économies d’échelle encore plus importantes. Au fur et à mesure que les données croissent, il devient logique de les traiter comme une infrastructure : à vocation générale, à forte intensité de capital et soutenant une multiplicité d’activités. Il devient durable, mais fluide en même temps.

Toutefois, la collecte de données en soi n’a qu’une valeur très limitée. Ce qui est précieux, ce sont les informations qui peuvent en être tirées. Cette  » grande information  » exige que le processus d’analyse croisse parallèlement aux grandes données qu’elle utilise. Comme la complexité de l’analyse l’emporte souvent sur le nombre de points de données utilisés, notre capacité d’analyser de grands ensembles de données n’est pas garantie par les progrès des grandes exponentielles mentionnées ci-dessus. Un supercalculateur Cray exécutant des méthodes d’analyse traditionnelles à une vitesse incroyable n’est pas la solution au problème de l’analyse d’énormes ensembles de données. A un certain moment, la machine s’arrête tout simplement de fonctionner. Au lieu de cela, les statisticiens et les ingénieurs informaticiens ont élaboré deux stratégies pour accroître l’échelle de l’information qui peut être extraite des données.

La première stratégie est l’itération : ne pas chercher une solution formelle et totale à un problème analytique, mais construire des algorithmes de calcul plus simples qui prévoient les réponses avec une précision croissante. Tout calcul, en fait la valeur logique d’un point de données, n’est que provisoire et peut faire l’objet de modifications et de corrections à mesure que de nouvelles données sont recueillies. Essentiellement, l’inférence devient un processus « bayésien » d’examen des calculs de probabilité à mesure que de nouveaux renseignements sont intégrés. Et l’inférence devient un processus plutôt qu’un acte. Au lieu de résoudre un problème une seule fois, on les rend continus et à propos.

[En lien avec ce sujet]
La deuxième stratégie est la décomposition : résoudre un problème majeur en le divisant en petites parties qui peuvent être calculées en parallèle. Il s’agit d’une branche de la statistique qui évolue rapidement et qui s’efforce de trouver de nouvelles façons de résoudre en parallèle des problèmes qui étaient traditionnellement résolus de façon séquentielle. Ces solutions peuvent être calculées, non pas avec un superordinateur, mais avec des batteries de serveur de base bon marché et peu performantes. C’est ainsi que les centres de données, qui possèdent des centaines de milliers de ces serveurs, deviennent des dépôts non seulement de grandes données, mais aussi de grandes informations calculables. Les données ne vont pas à la requête, la requête doit aller aux données.

L’itération et la décomposition augmentent ensemble l’échelle de l’extraction des connaissances. L’exemple par excellence est le moteur de recherche Google. Le problème sous-jacent est de savoir comment calculer la « centralité » de chaque page du World Wide Web, définie par le nombre de pages pointant vers elle, mais pesant chaque page selon son propre degré de centralité. En termes mathématiques, elle consiste à calculer ce qu’on appelle la  » centralité vectorielle propre « , une simple opération d’algèbre linéaire. Le problème est que le nombre d’opérations arithmétiques nécessaires pour le résoudre est proportionnel à la taille du cube du World Wide Web, et avec 4,5 milliards de pages Web, il n’est pas possible. Le génie de Larry Page était de développer un algorithme qui se rapprochait suffisamment de la résolution de ce problème pour des raisons pratiques. Ça s’appelle le PageRank. Pour appliquer l’algorithme, Google utilise un crawler, un logiciel qui recherche continuellement de nouvelles pages et des liens sur Internet. Le contenu et l’emplacement des pages sont continuellement réindexés et stockés sur des millions de serveurs. Chaque serveur peut inclure, par exemple, une liste d’adresses et de PageRanks de toutes les pages Web qui contiennent un mot particulier. Lorsque nous effectuons une recherche Google, le travail est effectué par un programme appelé Map/Reduce, qui décompose notre requête en ses mots constitutifs, les envoie aux serveurs d’indexation concernés et recompose ensuite les résultats pour offrir les pages qui répondent le mieux à la requête. Le programme Map/Reduce n’a pas besoin de savoir où se trouve un index spécifique ; il y a plutôt une couche de logiciel de « virtualisation » appelée Big Table qui s’interpose entre les programmes Map/Reduce et les serveurs en charge de l’indexation. Big Table ajoute des serveurs, fait des sauvegardes, réaffecte les données d’un serveur à l’autre et contourne les machines qui tombent en panne, le tout sans que le logiciel Map/Reduce ait besoin de le savoir.

Les trois principes – données telles que l’infrastructure, l’itération et la décomposition – travaillent ensemble dans le moteur de recherche de Google pour résoudre des problèmes qui seraient insolubles avec les méthodes conventionnelles, et ils le font à l’échelle mondiale. Et dans un quart de seconde. Cela peut sembler étrange et exotique, mais en réalité, cela se résume à trois principes applicables à tout environnement d’entreprise.

[En lien avec ce sujet]
La recherche Google a une autre conséquence complémentaire importante : elle élimine les économies d’échelle et d’expérience traditionnelles du processus de recherche. Il n’est pas nécessaire que le consultant soit un bibliothécaire professionnel ou qu’il soit physiquement présent dans un établissement de recherche. Tout ce dont vous avez besoin est une connexion Internet et un moteur de recherche. Ainsi, ce qui était une profession, ou du moins une activité à temps plein, devient une activité informelle à la portée de tous. Dans l’architecture de Google, la même chose se produit. Pour un coût très faible, Google peut ajouter de nouveaux algorithmes tels que Spellcheck et Google Translate, qui sont placés au-dessus de Big Table et accèdent exactement aux mêmes données et infrastructure informatique. De petites équipes d’ingénieurs autogérées peuvent expérimenter de nouveaux produits et services en s’appuyant sur des serveurs d’indexation et Big Table pour effectuer tous les travaux lourds et à grande échelle.

Google met son infrastructure à la disposition des autres. Il a publié environ soixante-dix API ou interfaces de programmation d’applications qui permettent à toute personne possédant un site Web et des notions de base en programmation d’accéder aux ressources de Google. C’est ainsi que le restaurant du coin utilise un widget Google Maps sur son site Web pour donner des indications. Au total, quelque 12 000 API de différentes entreprises ont été publiées. En outre, il existe toute une industrie familiale qui a produit quelque 6 000 applications appelées mashups en combinant ces API pour créer de nouveaux services à petite échelle. Ces services peuvent être de petites entreprises, des activités de loisirs, des modes, etc., cela ne fait aucune différence ; précisément parce que les ressources nécessaires sont si petites, les coûts d’expérimentation et d’échec sont presque négligeables. Les très petites fleurs soutenues par les très grandes.

C’est ainsi que naissent les grandes données, non seulement comme un nouvel ensemble de techniques, mais comme une architecture différente pour les entreprises et les industries. Des interfaces interopérables telles que IPA et Big Table permettent aux différentes fonctions d’évoluer en fonction de leurs économies respectives. Ils déconstruisent la chaîne de valeur traditionnelle de l’inférence linéaire. Une fois ces interfaces en place, les actifs à grande échelle (en particulier les données et les centres de données) et les activités à grande échelle (principalement les calculs volumineux et décomposés) peuvent être centralisés et gérés en termes d’efficacité, de capacité, d’utilisation, de sécurité et de fiabilité. En fait, les performances d’analyse à grande échelle peuvent – et, de plus en plus, doivent – être transférées dans des centres de données, avec les données elles-mêmes. Mais inversement, des activités telles que la modification d’algorithmes, la combinaison et la recombinaison de différentes ressources d’information pour répondre à des besoins spécifiques ou l’expérimentation ont cessé d’être à grande échelle. Maintenant, n’importe qui peut les faire n’importe où. Les coûts de l’erreur d’essai, de la réplication et de la redondance deviennent négligeables. L’ »écosystème » dans son ensemble exploite la symbiose entre ces deux types d’activités : les infrastructures gérées efficacement et les communautés auto-organisées pour l’innovation, la personnalisation et l’adaptabilité. L’équilibre classique entre efficacité et innovation a été radicalement affiné.

Ainsi, les communautés, les artisans, les équipes auto-organisées, les amateurs et les travailleurs au noir qui ont prospéré grâce aux immenses plateformes créées par Google et d’autres entreprises similaires peuvent aujourd’hui concurrencer les professionnels des organisations traditionnelles. L’entreprise type est donc menacée sur deux fronts. D’une part, par des essaims d’individus et de petits groupes ayant la capacité d’innover, de s’adapter et d’expérimenter à moindre coût. Dans un autre, par des organisations qui ont une échelle et un niveau d’expérience qui les surpassent. Il est possible qu’une entreprise typique soit à la fois trop grande et trop petite.

Big Data : 1234567
Prospective|Société, 2019