Analyse de données

Envie de pouvoir dialoguer avec vos données où et quand vous le voulez ? Découvrez l’API Conversational Analytics de Google

Tue, 23 Dec 2025 07:00:00 +0000

Décideurs, collaborateurs, clients… tout le monde veut trouver ses réponses dans son environnement de travail. Autrement dit, directement dans les applications utilisées chaque jour. Ces dernières années, l’essor de la BI augmentée par l’IA a changé notre rapport aux données, en permettant de poser des questions en langage naturel et d’obtenir des réponses instantanément. Mais il y a une limite : les insights restent confinés à l’outil de BI. Pour y accéder, il faut passer par cette interface. Dit autrement, ces insights ne suivent pas l’utilisateur dans ses autres applications. Et chez Google Cloud, nous voulons changer ça.

Lors de Google Cloud Next 25, nous avons présenté l’API Conversational Analytics. Elle permet aux développeurs d’intégrer des fonctionnalités de requêtage en langage naturel au cœur même de leurs applications, outils internes ou workflows, tout en s’appuyant sur des bases solides : un accès aux données sécurisé et fiable, ainsi qu’une modélisation évolutive et robuste.
Cette technologie est déjà utilisée par Google Cloud pour ses propres fonctionnalités conversationnelles, notamment dans Looker et BigQuery Data Canvas.

Nous sommes ravis d’annoncer que l’API Conversational Analytics est désormais disponible en aperçu public (public preview) pour tous les développeurs : donnez libre cours à votre créativité en l’intégrant dans vos projets. Une documentation complète est également à votre disposition pour bien démarrer.

Avec l’API Conversational Analytics, vous pouvez imagine une infinité de cas d’usage nécessitant d’interagir avec vos données. Les réponses peuvent prendre la forme de chiffres, de graphiques ou encore de texte. Pour garantir la précision des résultats, vous pouvez vous appuyer sur le modèle sémantique éprouvé de Looker, ou fournir aux agents BigQuery le contexte métier et data dont ils ont besoin. Ces fonctionnalités peuvent être intégrées directement dans vos applications afin d’offrir aux utilisateurs des expériences intuitives, leur donner accès à des analyses complexes en langage naturel, et même orchestrer des agents conversationnels d’analyse, chacun jouant le rôle d’un « outil » spécialisé, au service d’un agent orchestrateur, grâce à Agent Development Kit.

Découvrir l’API Conversational Analytics

L’API Conversational Analytics vous permet d’interagir avec vos données dans BigQuery ou Looker via une fenêtre de chat, où que vous soyez. Vous pouvez, par exemple, ajouter une fenêtre de conversation à coté de vos tableaux de bord Looker, invoquer des agents dans des applications de messagerie comme Slack, personnaliser les applications web de votre entreprise ou encore construire des systèmes multi-agents.

Avec cette API, vos équipes accèdent aux bonnes réponses, au bon moment, directement à partir de leurs outils de travail habituels. Pour ce faire, l’API combine la puissance des modèles IA avancés et les capacités d’orchestration d’agents de Google, avec la couche sémantique de Looker et les services de contextualisation de BigQuery. Résultat : des échanges en langage naturel, faciles à partager à l’échelle de l’entreprise et qui rendent l’accès aux informations clés aussi fluide que possible dans les applications couramment utilisées.

La pile Analytics et IA de Google apporte de solides atouts pour garantir la précision des réponses :

Une IA de pointe conçue pour l’analytique des données
Une architecture à base d’agents, capable de comprendre son environnement et d’agir en conséquence
La puissance de la couche sémantique de Looker, gage de fiabilité des réponses
Des outils très performants pour créer et faire évoluer vos agents (fonctions logicielles, graphiques, API), développés et maintenus par des équipes dédiées.
Un interpréteur Python intégré, pour réaliser des analyses avancées
La possibilité d’affiner vos agents grâce à du contexte structuré et des prompts adaptés

Avec API Conversational Analytics, vous disposez d’une flexibilité totale pour concevoir des applications vraiment adaptées à vos besoins. Cette flexibilité permet de :

Créer, mettre à jour et partager des agents permettant à vos utilisateurs d’échanger en langage naturel avec les données de BigQuery ou de Looker
Réduire la charge de maintenance grâce à des API stateful dédiées à la gestion des agents et des conversations
Garder la maîtrise de l’expérience utilisateur via notre API de chat stateless
Développer des architectures multi-agents en encapsulant les API avec l’ADK et MCP
Aider les agents IA à mieux comprendre votre métier et vos données grâce à l’ingénierie de contexte assistée par l’IA
Assurer un contrôle de version sur vos agents, en mettant à jour les prompts sans perturber l’usage en production

Et bien entendu, vous bénéficiez aussi des contrôles et de la sécurité (adaptés aux usages professionnels) de Google Cloud Platform, permettant :

D’encadrer l’utilisation des agents grâce à des contrôles d’accès basés sur les rôles (RBAC)
De protéger vos données avec, par défaut, des contrôles d’accès au niveau des lignes et des colonnes
De se prémunir contre les requêtes coûteuses grâce à des limitations intégrées des requêtes

Associée à Looker, l’API Conversational Analytics bénéficie de sa couche sémantique qui réduit jusqu’à deux tiers les erreurs dans les requêtes en langage naturel générées par l’IA. Les résultats reposent ainsi sur la donnée de référence définie par l’entreprise, garantissant des réponses fiables et cohérentes plutôt que des interprétations approximatives.

Un workflow agentique, boosté par la puissance des modèles IA de Google

L’API Conversational Analytics s’appuie sur des modèles spécialement conçus pour interroger et analyser les données afin de fournir des réponses précises. Elle expose un workflow agentique flexible, permettant de décider quelles briques - analyse SQL, génération de graphiques, exécution de code, etc. - l’agent conversationnel utilisera pour répondre aux questions des utilisateurs.

En tant que développeur, vous pouvez concevoir des agents dopés à l’IA à l’aide des outils suivants :

Text-to-SQL, solution éprouvée adoptée par les clients qui utilisent Gemini dans BigQuery
Récupération de contexte, personnalisée selon l’utilisateur et alignée sur l’usage de l’entreprise
NL-to-Looker Query Engine de Looker, pour tirer parti de la couche sémantique préparée par les analystes
Code Interpreter, pour des analyses avancées comme les prévisions ou l’analyse de causes profondes
Charting, pour créer des visualisations percutantes et donner vie à vos données
Insights, pour expliquer les réponses en langage clair

Ces outils de génération par l’IA s’appuient sur les derniers modèles Gemini de Google et sont ajustés pour des tâches spécifiques d’analyse de données, afin d’offrir un haut niveau de précision. On peut encore compléter cette panoplie d’outils avec Code Interpreter for Conversational Analytics, solution qui permet d’effectuer des calculs allant de l’analyse de cohortes aux comparaisons entre périodes. Actuellement en mode preview, Code Interpreter vous permet d’agir comme un véritable data scientist, sans avoir besoin de maîtriser le code avancé ni les méthodes statistiques. Vous pouvez dès à présent vous inscrire - ici - pour obtenir un accès anticipé.

Récupération et génération de contexte

Un bon analyste de données n’est pas seulement compétent : il connaît aussi en profondeur l’activité de son entreprise et ses données. Pour délivrer des résultats comparables, une expérience de type « chat avec vos données » doit disposer du même niveau de connaissance sur l’entreprise et ses données. C’est pourquoi l’API Conversational Analytics accorde la priorité à la collecte de contexte autour de vos données et de vos requêtes.

Grâce au RAG (retrieval augmented generation), nos agents Conversational Analytics connaissent suffisamment bien vos données pour comprendre que lorsque vous demandez les ventes à « New York » ou « NYC », il s’agit de « New York City ». L’API interprète le sens de votre question afin de la faire correspondre aux champs les plus pertinents à interroger, et apprend aussi des usages de votre organisation : par exemple, elle reconnaît que « revenue_final_calc » est plus souvent sollicité que « revenue_intermediate » dans votre projet BigQuery, et adapte ses choix en conséquence. Enfin, l’API apprend également de vos interactions passées : elle se souvient que vous avez interrogé la valeur « customer lifetime value » dans BigQuery Studio mardi, lorsque vous reposez la même question le vendredi.

Toutes les bases de données ne disposent pas du contexte nécessaire permettant à l’agent de réaliser ce travail. Les descriptions de colonnes, les glossaires métiers et les associations question-requête peuvent améliorer sa précision, mais leur création manuelle est fastidieuse, surtout quand votre entreprise gère 1 000 tables comportant chacune 500 champs. Pour accélérer l’apprentissage de votre agent, nous avons ajouté la fonctionnalité AI-assisted context : Gemini suggère automatiquement des métadonnées utiles à l’agent, tout en vous laissant la possibilité d’approuver ou de rejeter ses propositions.

Une maintenance réduite au minimum

L’API Conversational Analytics vous donne accès aux derniers outils d’agents pour données de Google Cloud, afin que vous puissiez vous concentrer sur le développement de votre activité plutôt que sur la création de nouveaux agents. Vous bénéficiez en outre des avancées continues de Google en matière d’IA générative pour le code et l’analyse de données.

Lorsque vous créez un agent, vos données sont protégées par la sécurité de Google, ses meilleures pratiques et ses contrôles d’accès basés sur les rôles. Une fois votre agent Looker ou BigQuery partagé, il peut être utilisé par l’ensemble des solutions Google Cloud — comme Agent Development Kit — ainsi que dans vos propres applications.

Des échanges en langage naturel, partout où vous en avez besoin grâce à l’API

Grâce à des agents accessibles via API, vous pouvez mettre les informations clés à disposition partout où les décideurs en ont besoin, que ce soit lors d’un échange avec un client lors d’un appel au support, sur une tablette utilisée par vos équipes sur le terrain, ou directement au sein de vos applications de messagerie.

L’API Conversational Analytics a été conçue pour apporter de la valeur à tous les utilisateurs : qu’il s’agisse de profils métiers, d’analystes de données qui construisent des agents, ou de développeurs logiciels. Avec les agents conversationnels, lorsqu’un utilisateur pose une question, la réponse est fournie rapidement, accompagnée du raisonnement de l’agent. L’utilisateur peut ainsi vérifier que les résultats reposent sur la démarche d’analyse appropriée. Des contrôles granulaires permettent aux développeurs de définir ce qui est visible par l’utilisateur — comme les réponses et les graphiques — et ce qui est journalisé pour un audit ultérieur par les analystes — comme le code SQL ou Python.

Pour bien débuter avec notre API Conversational Analytics, n’hésitez pas à consulter notre documentation et les références techniques de l’API, que ce soit en REST ou via SDK. Vous pouvez également vous appuyer sur des exemples de code disponibles dans des notebooks Colab, une application Streamlit sur GitHub ou encore une application de référence en TypeScript.

Redéfinir les données d’entreprise grâce aux agents et aux fondations IA-natives

Tue, 09 Dec 2025 07:00:00 +0000

Le monde ne se contente pas de changer : il se reconstruit, se réinvente, sous nos yeux, propulsé par la donnée et l’intelligence artificielle. Notre rapport aux données se métamorphose. Nous entrons dans une nouvelle ère, l’ère agentique, où l’analyse n’est plus le seul fruit de l’expertise humaine mais repose sur une synergie collaborative avec des agents IA capables d’agir, d’apprendre et de coopérer entre eux et avec l’humain pour libérer des insights à une vitesse et une ampleur inédite.
Depuis le début, chez Google Cloud, nous ne voulons pas rester spectateurs de cette transformation : à l’inverse nous bâtissons les fondations de l’IA, les modèles, les écosystèmes interconnectés et les plateformes de données « IA natives » qui l’alimentent.

Pour rendre cette réalité agentique possible, il faut un autre type de plateforme de données : non pas une collection d’outils en silos, mais un cloud unique, unifié et natif de l’IA. C’est justement ce qu’est Google Data Cloud.
Au cœur de cette plateforme, nos moteurs analytiques et opérationnels unifiés effacent la fracture historique entre données transactionnelles métiers et analyses stratégiques. Google Data Cloud offre ainsi aux agents une compréhension complète et en temps réel de l’entreprise, transformant celle-ci d’un ensemble de processus en une organisation auto-analytique, auto-optimisée et fiable.

Pour donner corps à cette vision, nous lançons trois innovations majeures :

* Une collection d’agents de données nouvelle génération : des agents d’IA spécialisés, conçus pour agir comme partenaires experts auprès de tous les utilisateurs de données, qu’il s’agisse de data-scientists, d’ingénieurs ou d’analystes métier.

* Un réseau interconnecté pour la collaboration entre agents : un ensemble d’API, d’outils et de protocoles permettant aux développeurs d’intégrer les agents Google à leurs propres agents et projets IA, créant ainsi un écosystème intelligent unifié.

* Une fondation unifiée et IA native : une plateforme qui rend possible l’action d’agents intelligents en unifiant les données, en offrant une mémoire persistante et en intégrant un raisonnement piloté par l’IA.

Des agents de données experts à vos côtés

Bienvenue dans l’ère agentique : une nouvelle force de travail vous assiste, composée d’agents IA spécialisés, conçus pour comprendre vos intentions et les transformer instantanément en actions concrètes grâce à une interface pensée IA dès le départ.

* Pour les data engineers : nous lançons un Data Engineering Agent dans BigQuery afin de simplifier et automatiser les pipelines de données complexes. Il est désormais possible d’utiliser des requêtes en langage naturel pour fluidifier l’ensemble du workflow, depuis l’ingestion des données issues de sources comme Google Cloud Storage jusqu’aux transformations et au contrôle de la qualité des données. Il suffit de décrire ce dont vous avez besoin. Par exemple, il suffit de demander « Crée un pipeline pour charger un fichier CSV, nettoyer ces colonnes et le joindre à une autre table » et l’agent génère et orchestre automatiquement l’ensemble du processus.

Fig. 1 – Data Engineering Agent en action pour l’automatisation de pipelines de données complexes

* Pour les data scientists : nous repensons l’expérience Colab Enterprise Notebook avec une logique IA-native, intégrée à BigQuery et Vertex AI. Au cœur de cette évolution : le Data Science Agent, propulsé par Gemini, prend en charge des workflows entiers, de l’analyse exploratoire au nettoyage, de la création de features aux prédictions ML. Il planifie, code, interprète les résultats et restitue ses insights, tout en restant interactif : vous pouvez corriger, commenter et collaborer en temps réel avec lui.

Fig. 2 – Data science agent métamorphose chaque étape des tâches de science des données

* Pour les utilisateurs métiers et les analystes : l’an dernier, nous avions lancé le Conversational Analytics Agent, permettant d’interroger ses données en langage naturel. Place désormais à Code Interpreter, pensé pour répondre aux questions stratégiques qu’une requête SQL simple ne suffit pas à résoudre. Par exemple : « Réaliser une analyse de segmentation client pour regrouper les clients en cohortes distinctes ». Grâce au raisonnement avancé de Gemini 2.5 et au savoir-faire de DeepMind, l’agent Code Interpreter traduit des questions en langage naturel en code Python exécutable, explique clairement chaque étape et génère des visualisations interactives. out ça, directement dans l’environnement gouverné et sécurisé de Google Data Cloud.

Fig. 3 – Exemple de BI conversationnelle avec Code Interpreter pour des analyses avancées

Construire un écosystème d'agents IA interconnectés

Imaginez un monde où les agents intelligents ne travaillent pas en vase clos, mais se connectent, s’enrichissent mutuellement et s’intègrent à vos propres outils. Google Cloud propose une plateforme ouverte où les développeurs ne se contentent pas d’utiliser ce qui existe, mais créent des liens, ajoutent leurs briques et bâtissent un réseau plus vaste et puissant d’agents collaborants.

Nos agents propriétaires offrent des fonctionnalités puissantes, prêtes à l’emploi, ainsi que des éléments fondamentaux — API, outils et protocoles — permettant de créer des agents personnalisés, d’intégrer l’intelligence conversationnelle dans des applications existantes et d’orchestrer des flux de travail complexes, multi-agents, capables de résoudre des problématiques métier uniques.

Et pour concrétiser cette vision, nous lançons les Gemini Data Agents APIs, dont la première est la nouvelle Conversational Analytics API. Cette API fournit les briques nécessaires pour intégrer directement dans vos applications, produits et workflows, les puissantes capacités de traitement du langage naturel de Looker ainsi que celles de l’agent Code Interpreter. Elle permet ainsi de créer des expériences data uniques, taillées pour vos besoins métiers spécifiques.

Il est temps d’aller plus loin que les simples expériences conversationnelles : place à la création d’agents sur mesure, bâtis de toutes pièces. Avec la Data Agents API et l’ADK (Agent Development Kit), les entreprises peuvent façonner des agents spécialisés qui épousent leurs propres processus métier. Le tout repose sur un socle de confiance solide et sécurisé : le Model Context Protocol (MCP), renforcé par notre boîte à outils MCP Toolbox for Databases et par notre nouveau Looker MCP Server.

Une base de données unifiée et native à l’IA

Les agents intelligents, ainsi que les réseaux qu’ils forment, ne peuvent se contenter d’une infrastructure de données traditionnelle. Ils ont besoin d’un socle “cognitif” qui rassemble toutes les données de l’entreprise, offre de nouvelles capacités pour comprendre le sens et procure une mémoire persistante sur laquelle raisonner.

Pour que cette base « native IA » tienne toutes ses promesses, elle doit réconcilier données transactionnelles temps réel et données analytiques historiques et donc combiner systèmes OLTP et OLAP. Nous avons ouvert la voie avec un moteur en colonnes pour AlloyDB, qui a boosté l’analytique des workloads PostgreSQL.
Aujourd’hui nous franchissons un nouveau cap de performances : avec notre nouveau moteur colonnaire pour Spanner (le Spanner Columnar Engine), notre base de données à très grande échelle, certaines requêtes analytiques s’exécutent jusqu’à 200 fois plus vite (que sur le stockage en ligne classique) directement sur vos données transactionnelles.
Dans le cadre de notre Data Cloud unifié, cette innovation profite aussi directement à notre moteur analytique Data Boost dans BigQuery, qui exploite le moteur colonnaire de Spanner pour réduire l’écart entre charges transactionnelles et analytiques et accélérer l’analyse des données opérationnelles en temps réel.

Un tel plan de données unifié en place, un autre enjeu clé demeure : doter les agents IA d’une mémoire solide, enracinée dans les faits de l’entreprise. Pour être fiables et éviter les hallucinations, ces derniers doivent s’appuyer sur le RAG (Retrieval-Augmented Generation). Son efficacité dépend d’une recherche vectorielle capable de naviguer aussi bien dans les données opérationnelles en temps réel que dans les archives analytiques profondes. C’est pourquoi nous avons intégré ces capacités de recherche et de génération directement au cœur de nos fondations data : vos agents peuvent ainsi puiser, en un instant, dans toute la mémoire transactionnelle et analytique de l’entreprise.

Optimiser la recherche vectorielle est un vrai casse-tête : son usage implique souvent de douloureux compromis entre vitesse, précision et complexité opérationnelle. Dans AlloyDB AI, de nouvelles fonctionnalités, comme le filtrage adaptatif (Preview) résolvent ce défi pour la mémoire transactionnelle, en maintenant automatiquement les index vectoriels et en optimisant les requêtes rapides sur les données opérationnelles en temps réel.
Parallèlement, pour offrir une mémoire analytique plus profonde, nous introduisons des vector embeddings autonomes et la génération dans BigQuery. Désormais, BigQuery peut automatiquement préparer et indexer des données multimodales pour la recherche vectorielle, une étape essentielle pour construire une mémoire sémantique riche et durable pour vos agents IA.

Enfin, par‑dessus ces données unifiées et accessibles, nous intégrons directement des capacités de raisonnement de l’IA dans nos moteurs de requêtes. Avec le nouveau AI Query Engine dans BigQuery (Preview), tous les professionnels de la donnée peuvent exécuter des calculs enrichis par l’IA, aussi bien sur des données structurées que non structurées, directement au sein de BigQuery. Ils obtiennent ainsi rapidement et simplement des réponses à des questions subjectives et complexes, comme : « Parmi ces avis clients, lesquels semblent exprimer le plus de frustration ? »

AI Query Engine apporte la puissance des LLM (Large Language Models) directement dans SQL.

L’avenir est agentique

Toutes ces annonces — des agents spécialisés pour chaque utilisateur jusqu’à la fondation native IA qui les alimente — représentent bien plus qu’une simple feuille de route. Elles constituent les briques essentielles d’une nouvelle entreprise « agentique ». Désormais, toute une main-d’œuvre d’agents intelligents peut collaborer dans un réseau ouvert, interconnecté et s’appuyer sur un cloud unifié qui gomme la frontière entre données opérationnelles et analytiques. Vous disposez ainsi d’une plateforme qui vous met en position d’innovateur, pas seulement d’intégrateur.
C’est une rupture majeure : l’analyse des données ne repose plus sur les seuls efforts humains, mais sur un puissant partenariat entre vos équipes et des agents IA.

L’ère agentique est là. Nous avons hâte de voir ce que vous en ferez — et vous invitons à embarquer dans ce passionnant voyage dès aujourd’hui pour redéfinir les possibles de la donnée.

Cloud Composer 3 : découvrez la nouvelle génération d’orchestration des pipelines de données

Mon, 30 Jun 2025 07:00:00 +0000

N’importe quelle équipe data vous le dira : la gestion d'Apache Airflow est souvent un véritable casse-tête, nécessitant d'innombrables heures consacrées aux problèmes de fiabilité, de sécurité et d'optimisation des ressources. Ce temps précieux pourrait être mieux investi dans l'analyse de données et la création de valeur pour l'entreprise.

Désormais officiellement disponible, Cloud Composer 3 change la donne. Cette nouvelle version de notre service Apache Airflow entièrement managé, dédié à l’orchestration des workflows de données, simplifie non seulement la mise en œuvre des pipelines mais réduit aussi la charge opérationnelle tout en accélérant la création de valeur.

Cloud Composer : la solution Airflow managée la plus avancée

Cloud Composer 3 permet aux équipes data de créer, d'exécuter et de gérer des pipelines de données avec une efficacité et un contrôle accrus. Son interface utilisateur simplifiée, ses performances améliorées et ses fonctionnalités de sécurité robustes en font la plateforme idéale pour accélérer tous vos projets data.

Adopté par de nombreuses entreprises, Cloud Composer s’est imposé comme la solution de référence dans le domaine de l’analytique pour automatiser les workflows data. Aujourd’hui, elle joue également un rôle clé dans l’orchestration des workflows IA/ML, simplifiant ainsi la mise en œuvre des pratiques MLOps, essentielles à la réussite des projets IA.

Principales nouveautés apportées par Cloud Composer 3

La nouvelle version de Cloud Composer propose de nombreuses nouvelles fonctionnalités puissantes ainsi que nombre d’améliorations conçues pour simplifier la gestion des pipelines de données et gagner en efficacité :

Configuration réseau simplifiée : configurez facilement vos paramètres réseau grâce à des options prêtes à l’emploi et plus intuitives, réduisant la complexité et la charge opérationnelle.
Versioning en continu (evergreen) : vous bénéficiez automatiquement des dernières versions de Cloud Composer : nouvelles fonctionnalités, correctifs de sécurité et améliorations de performance.
Fin des problématiques d’infrastructure : concentrez-vous sur vos pipelines de données, pas sur l’infrastructure. Cloud Composer 3 prend en charge la couche sous-jacente pour vous permettre de vous focaliser sur la conception et l’exécution de vos DAGs (Directed Acyclic Graph).
Performances et fiabilité renforcées : gagnez en performances et en stabilité grâce à une infrastructure optimisée et une gestion étendue des ressources.
Gestion fine des ressources CPU et mémoire: ajustez précisément l’allocation CPU et mémoire pour chaque tâche, afin d’optimiser les performances tout en maîtrisant les coûts.
Renforcement de la sécurité : en s’appuyant sur l’infrastructure sous-jacente de Google, Cloud Composer 3 bénéficie automatiquement des meilleures pratiques en matière de sécurité.
… et bien d’autres améliorations encore.

Bénéfices pour les équipes data

Cloud Composer 3 apporte des avantages concrets aux ingénieurs data, data scientists et architectes de données :

Une productivité accrue : grâce à des workflows optimisés et une gestion simplifiée, les équipes data libèrent un temps précieux qu’elles peuvent consacrer à des tâches à plus forte valeur ajoutée.
Une charge opérationnelle réduite : la gestion automatisée de l'infrastructure et le versioning « evergreen » (qui garantit que les utilisateurs ont toujours accès aux versions les plus récentes du service) allègent la charge opérationnelle, laissant ainsi plus de temps aux équipes pour innover.
Un ROI plus rapide : l’amélioration des performances et de la scalabilité favorise une mise en œuvre plus rapide. Les entreprises peuvent ainsi obtenir des insights plus vite, réduire les délais de mise en production de leurs projets data, et en tirer plus rapidement de la valeur.

Passez à Cloud Composer 3 dès aujourd'hui

Prêt à découvrir la nouvelle génération d'orchestration de pipelines de données ? Consultez notre documentation pour obtenir des instructions détaillées et rejoignez les nombreuses entreprises qui utilisent déjà Cloud Composer.

La nouvelle tour de Babel ? Exemple d’utilisation des embeddings multilingues et de la recherche vectorielle dans BigQuery

Mon, 10 Feb 2025 06:00:00 +0000

Dans un marché aujourd’hui mondialisé, trouver et comprendre des avis exprimés dans la multitude des langues humaines constitue un véritable défi pour n’importe quelle entreprise. BigQuery est conçu pour gérer et analyser de grands ensembles de données, y compris bien sûr des avis d’internautes dans toutes les langues.

Dans cet article, nous présentons une solution qui utilise les « embeddings multilingues », l'indexation vectorielle et la recherche vectorielle de BigQuery, pour permettre aux clients de rechercher des avis sur des produits ou des entreprises dans leur langue préférée et de recevoir des résultats dans cette même langue. Combinées, ces technologies convertissent les données textuelles en vecteurs numériques, débloquant ainsi des capacités de recherche avancées qui s’affranchissent des barrières linguistiques et dépassent la traditionnelle correspondance par mots-clés, tout en améliorant la précision et la pertinence des résultats de recherche.

Pour améliorer l’accessibilité des résultats de recherche et introduire un niveau supplémentaire de raffinement, notre solution va également s’appuyer sur l'API de Traduction de Google. Intégrée de manière transparente dans BigQuery, elle va nous permettre de traduire les avis exprimés dans diverses langues vers la langue de l'utilisateur.

Comme le démontre l’exemple ci-dessous, en combinant les capacités vectorielles et l’API de traduction au cœur de BigQuery, les entreprises peuvent non seulement facilement analyser des avis rédigés dans différentes langues mais également permettre à leurs clients d’accéder et comprendre les avis exprimés en les affichant automatiquement dans leur langue de prédilection.

Le diagramme d'architecture ci-dessous donne la représentation visuelle d’une telle solution.

Pour illustrer notre propos par la pratique, nous avons extrait des données d'avis Google Local (incluant les notes, le texte, etc.) et des métadonnées d'entreprises (comme l'adresse, la catégorie, etc.) pour les entreprises du Texas jusqu'en septembre 2021. Cet ensemble de données comprend des avis rédigés dans diverses langues. Pour les clients qui préfèrent lire les avis dans leur propre langue, notre solution leur permet de poser des questions dans leur langue maternelle et de recevoir les avis les plus pertinents dans leur langue préférée, même si ces avis ont été initialement rédigés dans une langue différente.

Par exemple, pour explorer les boulangeries du Texas, nous avons posé la question "Où puis-je trouver d'authentiques tartelettes aux œufs et des brioches de style cantonais à Houston ?"
Ces deux produits de boulangerie sont très populaires en Asie, mais moins courants à Houston, ce qui rend difficile la localisation d'avis pertinents parmi des milliers de profils d'entreprises.
Notre solution permet ainsi aux touristes de poser leurs questions en chinois et d'obtenir les réponses les plus pertinentes dans cette langue, même si les avis ont été initialement écrits en anglais, japonais ou dans d'autres langues.
Quelle que soit la langue d'origine des commentaires, notre système rassemble les informations les plus utiles et les traduit dans celle de l'utilisateur. Cela améliore considérablement la capacité des internautes à tirer parti des avis rédigés par des personnes parlant différentes langues.

Après traduction dans BigQuery :

Dans la démo présentée sous forme de GIF un peu plus bas, nous montrons notre fonctionnalité de recherche en trois langues : chinois, anglais, espagnol.

Les principales fonctions intégrées de BigQuery utilisées par notre solution sont listées ci-après sous forme de requêtes SQL :

code_block: <ListValue: [StructValue([('code', 'Generate Embeddings for Source data:\r\n\r\nCREATE OR REPLACE TABLE `xxxxxxx.reviews.multilingual_texas_reviews_Bakery_embedding` AS\r\n(SELECT *\r\nFROM ML.GENERATE_EMBEDDING(\r\n MODEL `xxxxxxx.reviews.multilingual_embedding`,\r\n (SELECT CONCAT(extracted_text,\',\',rating,\',\',category) AS content\r\n FROM `xxxxxxx.reviews.multilingual_texas_reviews` )\r\n)\r\n);\r\n\r\n\r\nCreate Vector Index for Vector Search:\r\nCREATE OR REPLACE VECTOR INDEX multilingual_review_index\r\nON `xxxxxxx.reviews.multilingual_texas_reviews_Bakery_embedding`(ml_generate_embedding_result)\r\nOPTIONS(index_type = \'IVF\',\r\n distance_type = \'COSINE\',\r\n ivf_options = \'{"num_lists":500}\')\r\n\r\n\r\nCheck information schema that vector indexes are created\r\nSELECT table_name, index_name, index_status,\r\ncoverage_percentage, last_refresh_time, disable_reason\r\nFROM `xxxxxxx.reviews.INFORMATION_SCHEMA.VECTOR_INDEXES`\r\n\r\n\r\nVector Search for your question \r\nSELECT query.query, base.content, base.rating, base.category\r\nFROM VECTOR_SEARCH(\r\nTABLE `xxxxxxx.reviews.multilingual_texas_reviews_Bakery_embedding`, \'ml_generate_embedding_result\',\r\n(\r\nSELECT ml_generate_embedding_result, content AS query\r\nFROM ML.GENERATE_EMBEDDING(\r\nMODEL `xxxxxxx.reviews.multilingual_embedding`,\r\n(SELECT "休士頓哪裡有正宗的葡式蛋撻和港式麵包？" AS content))\r\n),\r\ntop_k => 10, options => \'{"fraction_lists_to_search": 0.08}\')\r\n\r\n\r\nTranslation API to detect source language:\r\nSELECT\r\n ml_translate_result.languages[0].language_code AS target_language_code\r\n FROM\r\n ML.TRANSLATE(MODEL `xxxxxxx.reviews.model_cloud_translate`, (\r\n SELECT "休士頓哪裡有正宗的葡式蛋撻和港式麵包？" AS text_content),\r\n STRUCT("detect_language" AS translate_mode))\r\n\r\n\r\nTranslation API to translate reviews:\r\nSELECT\r\n text_content AS `Original Text`,\r\n "zh-CN" AS `Destination Language`,\r\n STRING(ml_translate_result.translations[0].translated_text) AS Translation\r\n FROM ML.TRANSLATE(\r\n MODEL `xxxxxxx.reviews.model_cloud_translate`,\r\n (select \'{txt_}\' as text_content),\r\n STRUCT(\'translate_text\' AS translate_mode, \'{lang_}\' AS target_language_code))'), ('language', 'lang-sql'), ('caption', <wagtail.rich_text.RichText object at 0x7fbf8e403340>)])]>

Démonstration de la solution

Chose promise, chose due… Voici ci-dessous un GIF présentant notre solution en fonctionnement :

Dans cette application exemple, les clients peuvent rechercher et lire des avis dans leur langue de prédilection sans barrières linguistiques. Vous pourriez ensuite enrichir cette solution avec Gemini pour résumer ou classer les avis recherchés par exemple.

Vous pouvez également adapter cette solution pour implémenter dans vos propres applications une fonction de recherche multilingue sur des produits, commentaires et autres ensembles de données multilingues, afin de permettre à vos utilisateurs d'obtenir des réponses à leurs questions dans la langue de leur choix.

À votre tour d’imaginer comment aller plus loin et développer d'autres outils précieux de données et d'IA en explorant le potentiel de BigQuery et ses fonctionnalités avancées ! N’hésitez pas à nous en parler !

Références :

L'atout stratégique du marketeur moderne : les « data clean rooms » alimentées par l'IA

Tue, 28 Jan 2025 07:00:00 +0000

Toutes les entreprises, quel que soit leur secteur, cherchent à obtenir toujours plus de données pour mieux comprendre leurs clients et stimuler leurs ventes. Prenons l'exemple d'une marque de produits de consommation courante qui vend principalement via un distributeur. Elle pourrait obtenir des informations précieuses sur ses clients en analysant les actifs de valeur (HVAs) et les actions clés que ces derniers communiquent ou effectuent sur le site du distributeur avant d’effectuer un achat. Sauf que les distributeurs se montrent généralement très réticents à partager ces données clients sensibles, ce qui complique la collaboration, combien même un tel partage a commercialement du sens.

Les conseils d'administration, PDG et directeurs financiers se tournent vers les directeurs marketing (et leurs équipes) pour obtenir des réponses. Ce qui nous amène directement à la question clé : « Qu’est-ce que les marketeurs modernes recherchent vraiment dans les données ? » :

Obtenir des insights précis : analyser en toute sécurité des données de sources variées sans compromettre la confidentialité ;
Exploiter ces insights pour des décisions plus éclairées : utiliser des outils d'IA puissants afin de détecter des tendances et des opportunités cachées ;
Booster la performance de l'entreprise : stimuler la croissance grâce à un marketing ciblé et des expériences client personnalisées.

La solution commune à ces trois enjeux tient en un concept : la « data clean room ». Cet environnement sécurisé et conforme aux règles de confidentialité permet aux marketeurs modernes de déverrouiller des informations précieuses grâce à l'analyse collaborative des données émanant de différents secteurs, favorisant ainsi la prise de décisions stratégiques et la croissance des entreprises.

Google BigQuery Data Clean Room : la solution sécurisée

Lancées en 2023, les « BigQuery Data Clean Rooms » offrent un environnement sécurisé pour partager, collaborer et analyser des données sensibles, tout en profitant des avantages de l'écosystème BigQuery.

Pour rappel, une « Data Clean Room » (ou DCR) est un environnement sécurisé et isolé où plusieurs entreprises peuvent partager et analyser des données de manière anonyme et sécurisée. C’est un espace de travail virtuel où les données de différentes entreprises sont combinées et analysées sans révéler d’informations personnellement identifiables. Les données sont anonymisées et les accès sont strictement contrôlés pour garantir la confidentialité et la sécurité.

Fonctionnement et architecture

BigQuery data clean rooms est une application spécialisée d'Analytics Hub, la plateforme intégrée à BigQuery pour le partage et l'échange sécurisé de données. Analytics Hub permet aux organisations de créer un écosystème où les jeux de données sont partagés sur place, donnant ainsi aux fournisseurs le contrôle et la visibilité sur l'utilisation de leurs données.

En s'appuyant sur Analytics Hub et l'architecture serverless de BigQuery, nos data clean rooms créent un environnement sécurisé pour la collaboration multipartite. Les données restent à leur emplacement d'origine, permettant aux participants d'exécuter des requêtes et de partager des résultats agrégés, tout en garantissant la confidentialité des données.

Focus sur l’architecture sous-jacente

Socle de la solution, BigQuery sert de plateforme de données où contributeurs et abonnés stockent leurs jeux d’information. Pour rappel, Google Cloud BigQuery est un entrepôt de données serverless entièrement managé, capable de monter en charge facilement et qui permet de réaliser des analyses sur de grosses volumétries à moindre coût. La solution se démarque par son architecture découplée, séparant calcul et stockage, qui permet une mise à l'échelle indépendante pour une performance et une efficacité économique optimales.

Big Query tire parti du concept de jeux de données partagés de l'Analytics Hub, afin d’offrir au propriétaire de la « salle blanche » (la Clean Room) d’apporter son jeu de données en spécifiant ses règles spécifiques d’utilisation et d'analyse.

Pour une compréhension détaillée de l'architecture, consultez la documentation Google Cloud.

Cas d’usage par secteur

Les data clean rooms transforment les activités des entreprises dans tous les secteurs. Voici quelques exemples de cas d'usage :

Cas d'usage 1 : mesurer l'acquisition de nouveaux clients via la publicité digitale

Une entreprise lance une campagne publicitaire digitale sur diverses plateformes pour attirer de nouveaux clients ou susciter le réengagement de clients inactifs. À la fin de la campagne, les données des plateformes publicitaires (impressions, clics, etc.) sont intégrées dans une data clean room.

Au sein de cet environnement sécurisé, l'entreprise peut combiner les données de la campagne publicitaire avec ses propres données clients internes. Cela permet de lier les interactions publicitaires (comme les clics) aux conversions réelles des clients. La clean room garantit que les informations sensibles des clients restent confidentielles et ne sont utilisées que pour des analyses agrégées (autrement dit des analyses globales). L'entreprise peut ainsi obtenir des indicateurs clés, comme le nombre de nouveaux clients acquis grâce à la campagne, le coût par acquisition et le retour global sur les dépenses publicitaires. Ces insights aident à évaluer le succès de la campagne et à prendre des décisions éclairées pour les futures stratégies publicitaires.

Cas d'usage 2 : Collaboration entre distributeurs et marques de grande consommation

Lorsque les réseaux des distributeurs travaillent avec leurs partenaires de l'industrie des produits de grande consommation (PGC), les BigQuery data clean rooms peuvent fournir de nouvelles informations précieuses. Grâce à cette collaboration, une entreprise de PGC peut évaluer l'efficacité de ses campagnes publicitaires sur la plateforme du distributeur, notamment auprès des audiences communes aux deux entreprises. Cela permet à l'entreprise de PGC de mieux comprendre l'impact de ses campagnes et de prendre des décisions plus éclairées pour optimiser ses stratégies marketing.

Données PGC : l'entreprise PGC fournit des données sur son audience existante (1p).
Données du distributeur : le distributeur possède des données indiquant quels clients ont effectué des achats.
Data clean room : Un environnement sécurisé et respectueux de la vie privée, la data clean room, permet à l'entreprise PGC et au distributeur de faire correspondre les « hash » des identifiants des clients. Cela leur permet de déterminer si les clients ciblés ont fini par acheter les produits mis en avant par la campagne publicitaire.

Les acteurs PGC peuvent évaluer l'efficacité de leurs publicités et améliorer leurs campagnes. Parallèlement, le distributeur peut démontrer la valeur de sa plateforme publicitaire à ses partenaires PGC.

Cas d'usage 3 : collaboration entre distributeur et éditeur

Un distributeur peut collaborer avec un éditeur, tel un service de streaming. Le distributeur apporte ses données de fidélité et ses données mobiles, tandis que le service de streaming contribue avec ses données d'engagement. La data clean room agit comme un environnement neutre et sécurisé où ces jeux de données peuvent être combinés et analysés sans qu'aucune partie n'accède directement aux données brutes de l'autre.

Le distributeur peut comprendre les habitudes de visionnage (consommation des contenus streamés) des membres de son programme de fidélité et repérer de nouveaux clients potentiels. De son côté, le service de streaming peut mieux cerner les comportements d'achat des abonnés et personnaliser ses recommandations. Les deux tirent profit de l'analyse conjointe des données, obtenant ainsi des informations sur la concurrence tout en identifiant les tendances du marché et les comportements des clients sur les différentes plateformes.

Cas d'utilisation 4 : collaboration entre distributeur et fabricant

Un distributeur peut collaborer avec un fabricant dans une data clean room en partageant ses données de ventes et de stocks, tandis que le fabricant partage ses données de produit.

L'analyse de leurs données combinées leur permet de dégager des tendances et de formuler des recommandations concrètes. Elle peut aussi favoriser une optimisation des gammes de produits ainsi que la mise en place d’une tarification stratégique et de campagnes marketing ciblées.

Au-delà du marketing : collaborer de manière sécurisée en interne

Les atouts des Data Clean Rooms ne se limitent pas au seul domaine du marketing : elles peuvent aussi être très utiles pour mettre en place des collaborations en interne, permettant ainsi aux équipes d’une organisation de partager et exploiter des données sensibles tout en respectant des normes strictes de confidentialité. En anonymisant ou pseudonymisant des informations, les équipes peuvent collaborer efficacement sans compromettre la vie privée des individus.

Quelques cas d’usage :

Analyses RH : les services RH peuvent s'associer aux équipes de data science pour analyser les données des employés, identifier les tendances en matière de performance et de turnover, et développer des modèles prédictifs pour retenir les talents. Les data clean rooms garantissent la protection des informations sensibles des employés tout au long du processus d'analyse.

Engagement des employés : les équipes chargées de la communication en interne peuvent analyser les sentiments des employés via des enquêtes et des données provenant de médias sociaux tout en préservant l'anonymat. Cela permet aux organisations de comprendre les points de vue des employés et d'identifier les axes d'amélioration sans compromettre la vie privée individuelle.

Les data clean rooms facilitent une collaboration interne sécurisée entre divers services et donc la prise de décision basée sur les données tout en protégeant les informations sensibles. Dès lors, elles contribuent à la mise en œuvre d’une culture de confiance et de conformité, permettant aux organisations d'exploiter pleinement le potentiel de leurs données sans compromettre la confidentialité.

En résumé, quelles sont les stratégies efficaces pour les marketeurs modernes ?

Les Data Clean Rooms permettent aux entreprises de :

Détecter de nouvelles tendances : l’analyse permet d’obtenir des informations d’exploitation à partir des données tout en préservant la confidentialité et la sécurité ;
Stimuler l'innovation : en prenant des décisions basées sur les données pour améliorer l'expérience client et stimuler la croissance ;
Favoriser la collaboration : en brisant les silos et permettant un partage sécurisé des données.

Pour les marketeurs modernes, les Data Clean Rooms alimentées par l'IA constituent un avantage stratégique. En identifiant les cas d’usage, en établissant des accords de partage de données, en utilisant des outils d'IA et en surveillant les résultats, ils peuvent exploiter la puissance des données pour faire avancer leur entreprise. Découvrez plus de détails sur le fonctionnement des BigQuery data clean rooms work et explorez leur architecture. Vous pouvez commencer dès aujourd'hui à explorer leur potentiel en profitant de l’offre d’essai gratuite de BigQuery.

Libérez tout le potentiel de l'IA générative avec BigQuery et Vertex AI

Thu, 17 Oct 2024 06:00:00 +0000

Quelle organisation n’ambitionne pas aujourd’hui de s’ouvrir de nouvelles perspectives et de gagner en efficacité grâce à l’IA ? Mais pour concrétiser cette volonté, elle doit pouvoir s’appuyer sur une plateforme à même d’agréger toutes les données de l’entreprise, qu’elles soient structurées ou non, de façon simple, sécurisée, gouvernée, en toute transparence.

Pour les y aider, nous avons fait évoluer BigQuery et Vertex AI pour encore mieux interconnecter les données et les IA. Cette série d’innovations et d’améliorations change la donne dans l’adoption pratique de l’IA :

- Elle simplifie l'IA générative multimodale pour les données d'entreprise en rendant les modèles Gemini disponibles via BigQuery ML.

- Elle permet d’exploiter toute la valeur des données non structurées en étendant l'intégration de BigQuery aux API de traitement de documents et de synthèse vocale de Vertex AI.

- Elle libère la recherche assistée par l'IA dans toutes vos données d'entreprise grâce à l’intégration d’une recherche vectorielle au cœur de BigQuery.

Cette intégration de l’IA au cœur de vos données grâce à la combinaison de BigQuery, de Vertex AI et de modèles développés par Google Cloud permet de démocratiser la puissance de l'IA générative à toutes vos équipes Data. Elle vous aide également à mieux tirer profit des LLM pour analyser et interpréter votre patrimoine informationnel, le plus simplement du monde, en langage naturel, afin d’améliorer vos prises de décision et faire parler vos données. La création d'analyses basées sur l'IA devient plus simple, plus rapide et plus sûre, tirant profit de l'architecture Serverless unique de BigQuery.

Simplifier les cas d’usage de l'IA générative avec les modèles Gemini

BigQuery ML vous permet de créer, d'entraîner et d'exécuter des modèles ML (Machine Learning) directement dans BigQuery en utilisant un langage SQL familier. Avec des clients qui exécutent des centaines de millions de requêtes de prédiction et d'entraînement chaque année, l'utilisation du ML intégré dans BigQuery a augmenté de 250 % en un an.

Aujourd'hui, nous allons un cran plus loin avec l'intégration de Gemini 1.0 Pro via Vertex AI. Le modèle Gemini 1.0 Pro est conçu pour travailler à plus grande échelle et offrir une meilleure qualité de résultats dans un large éventail de tâches telles que le résumé de texte et l'analyse des sentiments. Vous pouvez désormais y accéder à l'aide de simples instructions SQL ou de l'API DataFrame intégrée à BigQuery.

Vous pouvez ainsi facilement créer des pipelines de données qui mélangent des données structurées, des données non structurées et des modèles d'IA génératifs pour proposer à vos utilisateurs une nouvelle génération d'applications analytiques. Par exemple, vous pouvez analyser les commentaires des clients en temps réel et les combiner avec l'historique des achats et la disponibilité actuelle des produits pour générer des messages et des offres personnalisés, le tout sans quitter BigQuery. Pour en savoir plus sur l'intégration des modèles BigQuery et Gemini, cliquez ici.

Et ce n’est qu’un début. Dans les prochains mois, nous débloquerons des cas d'usage encore plus ambitieux grâce à l'IA générative multimodale et la prise en charge du modèle Gemini 1.0 Pro Vision. Il deviendra alors possible d'analyser des images, des vidéos et d'autres données complexes à l'aide de simples requêtes SQL familières. Par exemple, si vous travaillez avec un grand ensemble de données d'images dans BigQuery, vous pourrez exploiter le modèle Gemini 1.0 Pro Vision pour générer des descriptions d'images, les catégoriser pour en simplifier la recherche, identifier leurs caractéristiques clés comme les couleurs, l'ambiance générale, l’aspect visuel, et bien plus encore.

Exploiter la valeur des données non structurées grâce à l'IA

Les données non structurées telles que les images, les documents et les vidéos représentent une grande partie des données inexploitées des entreprises. Cependant, elles se révèlent souvent difficiles à interpréter et en extraire des informations significatives n’est pas une mince affaire.

BigLake unifie les data lakes et les entrepôts de données sous un seul et même framework, vous offrant ainsi la possibilité d'analyser, de rechercher, de sécuriser, de gérer et de partager des données non structurées. Avec l'augmentation des volumes de données, l'utilisation de BigLake par nos clients a atteint plusieurs centaines de pétaoctets. Grâce à la puissance de BigLake, nos clients peuvent déjà analyser des images en utilisant une large gamme de modèles d'IA, notamment les API de vision de Vertex AI, les modèles open-source de TensorFlow Hub ou leurs propres modèles personnalisés.

Désormais, nous élargissons ces fonctionnalités pour vous aider à extraire aisément des insights à partir de documents et de fichiers audio en utilisant les API de traitement de documents et de transcription vocale de Vertex AI. Avec ces nouvelles fonctionnalités, vous pouvez aisément concevoir des applications d'IA générative capables de créer automatiquement du contenu, de catégoriser des données non structurées, d'analyser des sentiments, d'extraire des entités, de résumer des documents, etc.

Par exemple, pour effectuer une analyse financière plus poussée, il est possible de tirer parti de données telles que les revenus, les bénéfices et les actifs provenant de divers rapports financiers, puis de les combiner avec un ensemble de données BigQuery contenant l’historique des performances boursières. Autre exemple, pour améliorer le service client, il est possible d'analyser les enregistrements d'appels du support client pour détecter les sentiments, identifier les problèmes récurrents et corréler les informations issues des appels avec l'historique des achats.

Combiner la recherche vectorielle à vos données non structurées

À l’occasion de Google Cloud NEXT’2024, nous avons annoncé la disponibilité générale de BigQuery Vector Search, le moteur de recherche vectorielle intégré à BigQuery et Vertex AI, permettant de réaliser simplement des recherches de similarité dans vos données BigQuery. Cette fonctionnalité, communément appelée « recherche de plus proche voisin approché », est essentielle pour déverrouiller de nouveaux cas d'usage de l'IA tels que la recherche sémantique, la détection de similarité et bien évidemment la génération augmentée par récupération (RAG) combinée à un LLM. Cette recherche vectorielle peut également améliorer la qualité de vos modèles IA en renforçant la compréhension du contexte, en réduisant l'ambiguïté, en assurant l'exactitude factuelle et en permettant une adaptabilité à différentes tâches et domaines.

Exemple typique, la recherche vectorielle peut aider les sites de vente à améliorer les recommandations de produits présentés aux clients. Prenons l’exemple d’une acheteuse en train de regarder une robe rouge sur votre site Web. La recherche vectorielle permet de proposer aisément d’autres produits en fonction de préférences stylistiques comme la couleur, la coupe, ou une réduction applicable. Grâce à cette technologie, le site peut automatiquement suggérer d’autres robes similaires même si leurs descriptions textuelles sont différentes (n’ont pas les mêmes mots clés par exemple) de sorte que les clients puissent néanmoins trouver plus facilement ce qu’ils cherchent ou leur suggérer des articles plus susceptibles de leur plaire (et donc d’être achetés).

En s'appuyant sur nos capacités d'intégration de texte et en adhérant à vos politiques de gouvernance de l'IA et à vos contrôles d'accès, la recherche vectorielle BigQuery peut ainsi offrir de nouveaux cas d'usage de l'IA, tels que :

* La génération augmentée par la recherche (RAG) : Cette technique permet de combiner vos propres données aux capacités conversationnelles des LLM. Elle consiste à récupérer (grâce à la recherche vectorielle) des données pertinentes pour une question ou une tâche (dans votre patrimoine informationnel) et les fournir à un LLM en les contextualisant. Par exemple : utiliser un ticket d'assistance pour trouver dix cas antérieurs étroitement liés, et les transmettre comme contexte à un LLM pour qu’il résume les informations et suggère une résolution.

* La recherche sémantique : La recherche vectorielle permet de trouver des documents sémantiquement similaires à une requête donnée, même si les documents ne contiennent pas exactement les mêmes mots. Cette recherche sémantique se révèle très utile pour des tâches telles que la recherche d'articles connexes, de produits similaires ou de réponses à des questions.

* Le regroupement de textes : La recherche vectorielle permet de regrouper des textes en groupes de documents similaires. Cela permet de les organiser automatiquement, de repérer des doublons ou d'identifier des tendances dans un corpus.

* La synthèse de documents : Il s'agit de condenser des documents en repérant ceux les plus proches du texte initial et en en dégageant les idées principales. Cet outil se révèle très pratique pour des opérations telles que l'élaboration de synthèses pour les cadres dirigeants, la production d'abstracts ou la condensation d'articles de presse.

Entrez dans la révolution de l’IA générative avec vos données

L'amélioration de vos données d'entreprise grâce à l'IA générative est un enjeu majeur. Pour en savoir plus sur tout ce potentiel, ne manquez pas Next '24 et découvrez nos dernières innovations pour accélérer votre transformation.

Un arbre de décision pour optimiser le pilotage des projets data et d'analyse de données dans Google Cloud

Fri, 19 Jul 2024 06:00:00 +0000

Google Cloud propose une large gamme de services pour animer vos workloads data et d’analyse de données. Un large choix qui implique parfois de passer au crible un grand nombre d'informations afin de choisir les outils les mieux adaptés à vos cas d’usage spécifiques. De l'ingestion au traitement des données, en passant par le stockage, la gouvernance ou encore l'orchestration, chaque workload s’appuie sur un ensemble de services qui lui est propre. Afin de simplifier le processus de prise de décision, nous avons conçu une roadmap sous forme d’arbre de décision pour vous aider à chercher et sélectionner les services les plus adaptés à vos besoins spécifiques.

Dans cet article, nous vous proposons un découpage par catégorie de workloads en vous donnant à chaque fois des indications pour choisir le service Google Cloud le mieux adapté à votre besoin.

Ingestion de données

Tout projet data commence forcément par l’agrégation des données dans votre système. L’ingestion de données peut prendre la forme d’un chargement en masse (mode batch), comme dans le cadre d’une migration, ou d’un flux d’alimentation régulier d’un projet en production. Selon le type de données que vous ingérez et leur provenance, vous devrez peut-être utiliser différents services.

Pour une ingestion de données en temps réel, vous avez le choix entre deux options :

Datastream: si vos données proviennent d'une base de données en production, optez pour Datastream. Service serverless d'ingestion en temps réel, non intrusif et fiable, Datastream capture les changements apportés à des données pour les dupliquer dans BigQuery à des fins de streaming ou d’analyse. Interfacé aux templates Dataflow et à Data Fusion, il permet de concevoir des workflows personnalisés avec des transformations de données avancées.
Pub/Sub : si vous devez traiter et analyser vos données en temps réel au fil de l’eau, optez plutôt pour Pub/Sub. Service de messagerie entièrement managé conçu pour l'ingestion de données en temps réel, il s'intègre directement à nos services de traitement de données, y compris BigQuery.

Pour une ingestion en mode batch, vous disposez d’un large éventail d’options :

Cloud Storage: les buckets de stockage objet constituent une solution très pratique pour importer des données dans Google Cloud. Vous pouvez utiliser l’outil en ligne de commandes gsutil pour optimiser le déplacement des données d'un client ou d'autres buckets vers un bucket Cloud Storage tout en optimisant le parallélisme.
Storage Transfer Service (service de transfert de stockage) : si vous transférez une grande quantité de données à partir de votre site ou d'autres clouds, vous pouvez utiliser le service de transfert de stockage.
Appliance de transfert : si vous devez transférer de grandes quantités de données sur site avec une faible bande passante, Transfer Appliance offre une option plus sûre et plus efficace grâce à un équipement physique sur lequel vous stockez vos données et que vous expédiez ensuite à Google Cloud.
Service de transfert BigQuery : Si vous souhaitez ingérer des données provenant d'applications SaaS ou tierces dans votre entrepôt de données BigQuery, vous pouvez utiliser BigQuery Transfer Service. Il propose des connecteurs prédéfinis pour les sources de données les plus courantes, ainsi que des fonctions de planification, de surveillance et de gestion.
Dataflow : dans sa version complète, Dataflow vous permet de gérer de manière fiable l'ingestion de gros volumes de données complexes, provenant de milliers de sources.
Dataproc: vous pouvez également utiliser Dataproc, un service Hadoop/Spark entièrement managé et 100 % open source. Dataproc vous permet d'ingérer des données provenant de vos sites ou d'autres clouds grâce à des modèles prêts à l'emploi, personnalisables, alimentés par Dataproc Serverless.
Data Fusion: proposant plus de 150 connecteurs, Data Fusion vous permet d'ingérer des données par lots avec une interface conviviale de type « point-and-click » (et avec une analyse sans code !).

Traitement des données

Une fois les données brutes intégrées, vous devrez probablement les traiter pour les rendre plus exploitables. Ces traitements incluent le nettoyage, le filtrage, l'agrégation et la transformation afin de rendre vos données plus accessibles, mieux organisées et plus compréhensibles. Dans ce cadre, le choix des bons outils Google Cloud dépend avant tout de l'endroit et de la manière dont vous souhaitez traiter vos données pour ensuite les stocker dans votre datalake, vos bases et autres entrepôts de données.

Dataflow : service serverless entièrement managé, évolutif et fiable, Dataflow permet de traiter les données par lots ou en mode streaming en s’appuyant sur Apache Beam et des langages de programmation tels que Java, Python et Go.
Dataproc : pour vos workloads Apache Hadoop/Spark, vous pouvez utiliser Dataproc pour traiter de grandes quantités de données stockées dans différents formats de fichiers, y compris des formats de table tels que Delta, Iceberg ou Hudi.
Data Fusion: si vous préférez effectuer des traitements sans avoir à écrire une seule ligne de code, vous pouvez utiliser Data Fusion qui prend en charge une grande variété de tâches de transformation.
BigQuery: Si votre workload peut être gérée avec un traitement ELT en SQL, vous pouvez bénéficier des avantages en termes de prix et de performances de BigQuery, notre entrepôt de données, cloud et serverless, hautement évolutif et très économique.
Cloud Data Loss Prevention : Cloud DLP est un service entièrement managé qui vous aide à découvrir, classer et protéger les données sensibles. Dans le cadre de votre pipeline de traitement des données, il peut appliquer une anonymisation des données personnelles lors d’une migration, sur des workloads de données ainsi que sur des flux de collecte de données en temps réel.

Stockage des données

Après le traitement, vient forcément le stockage. Vous avez nécessairement besoin d’une solution qui permette de stocker vos données de manière sécurisée et efficace afin de pouvoir y accéder facilement, de les analyser et de les utiliser dans des applications telles que la BI (Business Intelligence) ou le ML (Machine Learning). Il existe de nombreuses options de stockage des données dans Google Cloud et le service spécifique que vous choisirez dépendra, là encore, du cas d’usage. Voici quelques exemples, axés sur des workloads data ou d’analytiques :

Cloud Storage : idéal pour concevoir des datalakes, Cloud Storage propose un service de stockage objet évolutif, durable et hautement disponible. Vous pouvez l’utiliser pour stoker une grande variété de données, compris des données structurées, semi-structurées et non structurées. Les données sont stockées sur deux régions Cloud afin de garantir la redondance avec une très faible latence. Vous éviterez ainsi la réplication manuelle et Cloud Storage gère automatiquement le basculement en cas de besoin.
BigQuery: Vous pouvez aussi stocker les données structurées ou semi-structurées (type JSON natif, champs imbriqués) dans BigQuery afin de réaliser très rapidement des analyses en langage SQL.
Filestore : si vous travaillez sur un projet très exigeant en performances et nécessitant une très faible latence et une multitude d’accès concurrents - comme dans le cadre de workloads d’apprentissage ML ou d’analytiques nécessitant une grande quantité d’opérations d’entrée/sortie (E/S) - optez pour Filestore.

Comme vos données peuvent être stockées dans BigQuery, Cloud Storage et même d'autres Clouds, il est important de les unifier et de les rendre accessibles à l'aide de BigLake. BigLake est un moteur d'accès aux données qui vous permet d'unifier les accès, de gérer et d'analyser les données éparpillées entre vos datalakes et entrepôts de données. Outre ses excellentes performances, BigLake propose également des fonctionnalités supplémentaires de gouvernance et de sécurité (au niveau des colonnes et des lignes).

Gouvernance

Quelle que soit l’entreprise ou le projet, dès qu’on aborde le sujet data, il est essentiel de définir des lignes directrices et de meilleures pratiques pour gérer ses données afin de s'assurer qu’elles sont exactes, cohérentes, protégées et conformes aux réglementations. Une démarche de gouvernance des données peut inclure le catalogage, le lignage, la gestion de la qualité, l'identification des informations confidentielles et personnelles ou encore le contrôle de l'accès aux données.

Dataplex excelle dans toutes ces tâches de gouvernance, centralisant la gestion de vos datalakes, datawarehouses et datamarts hébergés sur Google Cloud ou ailleurs. Dans Dataplex, vous trouverez également Data Catalog, un référentiel de métadonnées entièrement managé, que vous pouvez utiliser pour vous aider à découvrir, comprendre et enrichir vos données.

Google Cloud propose également des fonctionnalités de gouvernance embarquées dans d’autres solutions. Typiquement, BigQuery prend en charge les clés de chiffrement gérées par le client (CMEK) et la sécurité au niveau des colonnes et des lignes. Cette fonctionnalité s'étend au stockage d'objets via les tables BigLake.

Orchestration

Vous aurez également besoin d’orchestration pour combiner et gérer les différents composants de vos pipelines. Avec l’orchestration, vous définissez des pipelines, vous planifiez des tâches de traitement des données et vous surveillez vos pipelines afin de vous assurer que vos données sont traitées en temps voulu et de manière efficace.

Google Cloud propose deux services d'orchestration :

Composer: vous pouvez écrire, planifier et surveiller vos pipelines de données avec ce service Airflow entièrement managé qui s'intègre aux solutions de traitement des données mentionnées ci-dessus.
Dataform: si vous souhaitez construire et gérer des pipelines de données de type ETL/ELT en SQL, Dataform vous permet de développer et d’opérer des pipelines évolutifs de transformation de données au sein de BigQuery.

Consommation des données

Une fois vos flux de données mis en place, vous êtes prêts pour utiliser les données là où vous le souhaitez !

Vous voulez effectuer des analyses SQL rapides ? Optez pour BigQuery.
Vous voulez partager en toute sécurité des données et des informations à grande échelle sans avoir à déplacer les données ? Adoptez Analytics Hub.
Vous voulez visualiser des données ou créer des tableaux de bord pour faire du reporting ? Looker Studio est une solution BI robuste et intuitive.
Vous souhaitez développer des modèles ML personnalisés à partir de vos données ? Laissez Vertex AI fluidifier vos workflows ML de bout en bout.

Pour aller plus loin

De l'ingestion de données provenant de diverses sources aux traitements, en passant par le stockage, la gestion, l'orchestration et le partage des données… les projets liés aux données et à l'analyse se construisent en plusieurs étapes. Nous espérons à travers cet article vous avoir aidé à trouver la combinaison de solutions la plus adaptée à vos besoins. N’hésitez pas à mettre cet arbre de décision dans vos favoris et consultez régulièrement notre site car nous publierons régulièrement d'autres arbres de décision pour d’autres types de projets.

N’hésitez pas à nous faire savoir ce que vous pensez de cet article et de l'arbre de décision en vous rendant sur notre canal Discord Cloud Analytics! Assurez-vous au préalable d'avoir rejoint le programme Innovators et la chaine Google Developers Discord.

Comment déployer son datawarehouse dans le cloud

Wed, 08 Nov 2023 07:00:00 +0000

Automatisez le redéploiement de votre entrepôt de données vers BigQuery grâce à des nouvelles fonctionnalités de redéploiements des données

La transformation numérique est en général un long voyage jonché d’escales qui sont autant de défis à résoudre. Parmi elles, le redéploiement des datawarehouses (les entrepôts de données) vers le Cloud est souvent l’une des étapes les plus cruciales et chronophages. De quoi engloutir une part conséquente des énergies et efforts dépensés dans cette essentielle modernisation numérique.

Aujourd'hui, pour accélérer les redéploiements de vos datawarehouses vers BigQuery, nous annonçons des nouveaux services, concrétisés sous forme d'un outil de redéploiement de données qui automatise le redéploiement des entrepôts de données sur site vers BigQuery.

Disponible en Preview, cet outil construit sur Google Cloud prend en charge les phases clés du redéploiement d'un entrepôt de données, du redéploiement des schémas et des données historiques à la traduction et à la validation SQL.

Pour réaliser une telle transformation, cet outil fonctionne en étroite coordination avec des accélérateurs de redéploiement tels que Data Validation Tool et les services de redéploiement BigQuery. Une telle collaboration nous permet ainsi d’automatiser un redéploiement de bout en bout de vos entrepôts de données. Les redéploiement à partir de Teradata, Hive, Redshift et Oracle sont actuellement prises en charge et d'autres entrepôts de données le seront à l'avenir.

Solution open source entièrement configurable, ce nouvel outil peut aisément être déployé via Terraform et déclenché avec un simple fichier de configuration JSON. Vous pouvez augmenter ou réduire la capacité de calcul en fonction du volume ou de la complexité des données.

Ses principaux avantages sont les suivants :

- Une approche éprouvée du redéploiement des entrepôts de données d'entreprise avec un risque réduit d'erreurs, de bogues et d'incohérences dans les données.
- Une orchestration automatisée du redéploiement des données, de la traduction et de la validation SQL
- Un tableau de bord de reporting avec les résultats de la validation des données, de l'exécution des tâches et de la traduction SQL affichés dans Looker
- Une réduction du temps nécessaire au transfert initial des données et des artefacts SQL dans Google Cloud
- Une réduction du coût total du redéploiement
- Un besoin limité d'équipe de développement client supplémentaire
- Une courbe d'apprentissage réduite

En exemple, voici comment l'outil de redéploiement des données facilite un redéploiement de Teradata vers BigQuery :

1/ Un utilisateur télécharge les fichiers d'entrée pertinents (liste de tables CSV, fichiers SQL/DDL) et un fichier de configuration JSON vers un bucket Cloud Storage, ce qui déclenche automatiquement l'outil de redéploiement des données.

2/ L'outil de redéploiement des données déclenche le service de transfert de données pour convertir le schéma des tables et transférer les données des tables du datawarehouse source sur site vers les tables BigQuery dans le cloud.

3/ Une fois le transfert de données terminé, l'outil de redéploiement de données déclenche le service de transfert de données pour comparer les tables source et cible sur les valeurs de colonne agrégées, et envoie le résultat de la validation vers les tables de reporting BigQuery.

4/ L'outil de redéploiement des données déclenche alors le service de traduction BigQuery SQL pour traduire les requêtes SQL (téléchargées dans un bucket Cloud Storage) de la syntaxe source vers BigQuery SQL, et restitue le SQL traduit dans un bucket différent. L'outil de redéploiement des données écrit les statistiques de traduction dans les tables de reporting BigQuery.

5/ L'outil déclenche ensuite un outil de validation des données pour comparer le code SQL source et le code SQL cible sur leur ensemble de résultats.

6/ L'outil de redéploiement des données écrit des statistiques de validation dans les tables de reporting BigQuery.

7/ L'utilisateur consulte le tableau de bord de redéploiement dans Looker Studio pour inspecter les résultats de le redéploiement des données, de la traduction SQL et de la validation des données.

Le tour est joué ! En quelques étapes très automatisées, l'outil de redéploiement des données orchestre ce qui peut autrement se révéler être un processus chronophage, sujet à de multiples erreurs.

Cette approche pour un redéploiement simple et éprouvée peut vous aider à réduire les risques et à accélérer le processus de modernisation vers le cloud, libérant ainsi du temps et des ressources pour vous concentrer sur d'autres aspects de votre parcours de transformation numérique. Mieux encore, l'utilisation de l'outil de redéploiement des données sur Google Cloud n'entraîne aucun frais de licence supplémentaire ; les seuls coûts sont ceux du stockage et du calcul utilisé pour les services consommés.
Pour en savoir plus sur l'outil de redéploiement des données, consultez le projet sur Github.

Faciliter le passage à Google Cloud et à des technologies Open Source

Mon, 12 Jun 2023 08:00:00 +0000

Pendant des décennies, avant que le cloud ne vienne bouleverser notre vision des bases de données et des applications, Oracle et SQL Server constituaient la clef de voûte des infrastructures applicatives des entreprises. Mais aujourd’hui, alors que vous entamez votre redéploiement vers le cloud, vous réévaluez probablement les choix effectués autrefois à la lumière des tendances actuelles et des vastes opportunités offertes par le cloud.

Dans le domaine des bases de données, plusieurs hypothèses s’offrent à vous : adoption des technologies open source (en particulier MySQL, PostgreSQL et leurs dérivés), bases de données non relationnelles, stratégies multicloud et cloud hybrides… pour supporter des applications à la fois globales et qui fonctionnent en 24/7.
Redéploiement rapide de type « lift-and-shift », modernisation d’un existant ou transformation complète avec adoption d’une base « cloud first » … selon l’application, l’évolution vers le cloud peut prendre des chemins différents.

Google Cloud propose un ensemble de services de bases de données managées qui couvrent les moteurs des bases open source mais également des bases provenant de tiers ainsi que les bases « cloud-first ». Nous avons publié cinq vidéos spécialement destinées aux clients qui cherchent à passer au cloud ou à se libérer complètement des problématiques de gestion des licences et autres restrictions. Nous espérons que ces vidéos vous permettront de mieux évaluer vos options, que vous envisagiez un redéploiement homogène (en utilisant la même base de données qu'aujourd'hui) ou un redéploiement hétérogène (en passant à un moteur de base de données différent).

Voici les cinq vidéos en question :

#1 Exécuter des applications Oracle Database dans Google Cloud

Par Jagdeep Singh et Andy Colvin

Migrer vers le cloud peut s’avérer difficile si l’activité de votre entreprise repose sur des applications fonctionnant avec des bases de données Oracle. Cette dépendance peut s’expliquer par des problématiques de licences, de compatibilité ou encore d’administration.
À travers cette vidéo, nous vous proposons de découvrir différentes options proposées par Google Cloud et adaptées à cette situation, qu’il s’agisse de Bare Metal Solution for Oracle (solution matérielle certifiée et optimisée pour les workloads Oracle) ou de solutions émanant de partenaires tels VMware et Equinix. Profitez-en pour découvrir comment vous pouvez continuer à exécuter votre existant dans le cloud tout en capitalisant sur les dernières avancées technologiques pour développer de nouveaux services.

#2 Exécuter des applications SQL Server dans Google Cloud

Par Isabella Lubin

Aujourd’hui encore, Microsoft SQL Server reste une base très populaire en entreprise. Apprenez à exécuter SQL Server de manière fiable et sécurisée avec Cloud SQL, un service de base de données entièrement managé permettant d'exécuter des workloads MySQL, PostgreSQL et SQL Server. Plus de 90 % des 100 plus gros clients de Google Cloud utilisent Cloud SQL. Autrement dit, les plus grandes entreprises du monde font aujourd’hui confiance à Cloud SQL. Dans cette vidéo, nous vous proposons de découvrir comment sélectionner la bonne instance de base de données, comment migrer votre base, comment travailler avec les outils SQL Server standards ou encore comment superviser votre base et la maintenir à jour.

#3 Opter pour une base PostgreSQL dans Google Cloud

Par Mohsin Imam

Plébiscitée pour la souplesse de son modèle de licence open source, sa richesse fonctionnelle, ses solides références ou encore pour l’étendue de sa communauté de développeurs et de ses outils, PostgreSQL est une base relationnelle leader sur le marché. Google Cloud propose, aux utilisateurs de PostgreSQL, trois services de bases de données entièrement managés:
* Cloud SQL, un service de base de données entièrement managé et facile à utiliser pour PostgreSQL open source ;
* AlloyDB, un service de base de données compatible avec PostgreSQL pour les applications nécessitant plus d'évolutivité, de disponibilité et de performances;
* et Cloud Spanner, une base de données "cloud-first" avec une montée en charge illimitée, une disponibilité de 99,999 % et une interface PostgreSQL.
Découvrez quelle solution convient le mieux à votre application, comment migrer votre base de données vers le cloud et comment bien démarrer.

#4 Comment migrer et moderniser vos applications avec les bases de données Google Cloud

Par Sandeep Brahmarouthu

Le redéploiement de vos applications et bases de données vers le cloud n'est pas toujours facile. Si des workloads simples peuvent se contenter d’un simple transfert de SGBD sur le mode « lift-and-shift », les applications d'entreprise de plus grande envergure et personnalisées ont, en revanche, parfois besoin d’être modernisées, voire entièrement transformées. Découvrez les services managés de bases de données proposés par Google Cloud ainsi que notre approche de la « modernisation progressive ». Explorez également nos frameworks de redéploiement pour bases de données et découvrez comment nous pouvons vous aider à mieux démarrer, avec notre offre gratuite d’évaluation des risques.

#5 Bien démarrer avec Database Migration Service

Par Shachar Guz & Inna Weiner

L’augmentation des coûts de maintenance peut aussi être une excellente raison de migrer ses bases vers le cloud. Que vous envisagiez un simple transfert, une modernisation avec adoption d’une alternative plus moderne et open source ou une transformation complète d’une application, Google Cloud peut vous accompagner dans votre démarche. Découvrez comment Database Migration Service simplifie votre modernisation par le cloud avec son approche serverless et sa plateforme sécurisée qui s’appuie sur des mécanismes de réplication native afin d’effectuer des redéploiements plus fidèles et plus fiables. Moins complexe, le redéploiement est aussi moins long et moins risqué. Résultat, vous pouvez redémarrer en moins d’une heure après le redéploiement…

Nous avons hâte de vous aider à réussir votre redéploiement

Quelle que soit votre approche du cloud, nous avons la solution pour vous accompagner dans votre démarche avec des bases de données évolutives, fiables, sécurisées et ouvertes. Nous sommes d’ores et déjà enchantés à l’idée d’offrir un nouveau « foyer » à vos applications.

N’hésitez pas à profiter de l’offre d’essai gratuite pour explorer les avantages de Cloud SQL ou Spanner et accélérer votre redéploiement vers Google Cloud avec Database Migration Program.

Établir un langage métier cohérent pour plus de confiance dans ses données

Fri, 26 May 2023 08:00:00 +0000

Le “business glossary” (ou glossaire des termes métiers aussi appelé glossaire d’entreprise en français) de Dataplex est disponible en mode preview publique.

Brique d’infrastructure data intelligente, Dataplex permet de gérer, surveiller et gouverner les données distribuées à grande échelle. Solution cloud native, le business glossary ou glossaire d’entreprise de Dataplex permet aux utilisateurs de définir et gérer les termes métier, favorisant ainsi la contextualisation des données et le partage d’un langage métier cohérent au sein de l’entreprise. Dès lors, la confiance dans les données grandit et l’utilisation de la data en libre-service s’en trouve simplifiée.

Qu'elles soient petites, moyennes ou grandes, les entreprises sont organisées en équipes qui développent leur propre langage au fil du temps. Typiquement, certaines équipes interpréteront le terme « client » comme une « entité juridique » alors que d’autres y verront un « individu » ou une « entité gouvernementale ». Ces différences peuvent engendrer des problèmes de compréhension et de collaboration. Pire, elles peuvent entraîner une mauvaise interprétation des données et affecter la perception des informations et la prise de décision. Par ailleurs, ces différences tendent également à isoler et bloquer les collaborateurs qui ne maîtrisent pas le langage métier spécifique à chaque équipe, les obligeant à d’abord apprendre à maîtriser les différents jargons utilisés par chaque « clan » au sein de l’entreprise. Ce qui engendre bien entendu une surcharge de travail d’autant plus importante qu’il faut sans cesse mettre à jour ses connaissances.

Grâce au glossaire d’entreprise de Dataplex, les utilisateurs peuvent désormais :

Capturer, saisir et définir leur terminologie métier dans des glossaires communs ;
Enrichir les données cataloguées avec leur terminologie métier (en rattachant leurs définitions aux colonnes des données) afin d’améliorer la compréhension et l’organisation des informations par tous les collaborateurs de l’entreprise ;
Décrire les relations sémantiques entre des termes en les associant et en les rapprochant.

Le glossaire d’entreprise (business glossary) de Dataplex constitue ainsi une aide précieuse pour tous les utilisateurs de données, et ce à différents niveaux.

Tout d’abord, il favorise la cohérence sémantique et une interprétation partagée des données entre les différentes équipes, réduisant par la même occasion les redondances ainsi que les risques de confusion et de mauvaise interprétation lors de l’exploitation de ces données. Typiquement, lorsque deux équipes partagent une définition centralisée du terme "transaction de vente", elles peuvent capturer des informations sur une vente sous des angles différents mais structurer l’information de manière cohérente pour l’entreprise, selon une terminologie prédéfinie et partagée.

Cette cohérence sémantique favorise aussi une compréhension partagée et renforce la confiance dans les données. Lorsqu’ils sont associés aux données, les termes du glossaire apportent une couche supplémentaire - centralisée et cohérente - de contextualisation des données métier, permettant ainsi aux utilisateurs d’avoir la certitude d’utiliser les bonnes données pour remplir leurs objectifs. Dans l'exemple évoqué plus haut, l’analyste effectue une requête pour remonter toutes les tables comportant des données clients. Il n’a pas à s’inquiéter des potentielles différentes interprétations, à savoir si les données se réfèrent à des clients personnels, des entités légales, etc., la notion de client ayant été préalablement définie dans le glossaire par des termes associés. Dès lors, l’analyste peut exploiter ses données remontées en toute confiance.

Combinées, cohérence sémantique, compréhension partagée et confiance renforcée, libèrent le potentiel de l’utilisation des données en libre-service. Les collaborateurs peuvent utiliser le contenu du glossaire pour mieux exploiter le patrimoine de données avec des requêtes telles que : « montre-moi toutes entrées qui contiennent des termes de glossaire faisant référence à ‘transaction de vente’ dans leurs définitions ». Au passage, on notera qu’une recherche peut prendre en compte les métadonnées associées aux différents termes comme leurs descriptions ou leurs propriétaires. Dotés d’une meilleure compréhension des jeux de données remontés, les collaborateurs peuvent aussi identifier les meilleurs scénarios d’usage pour ces données.

Enfin, le glossaire d’entreprise de Dataplex contribue à une meilleure (et nécessaire) gouvernance des données. Les équipes chargées de la gouvernance peuvent en effet s’appuyer sur ce glossaire commun pour décider des politiques et règles à mettre en place. Par exemple, elles peuvent décréter que toutes les interrogations associées au terme « client » du glossaire seront soumises à des contrôles d'accès supplémentaires.

En d’autres termes, le glossaire d’entreprise de Dataplex peut être utilisé en complément des autres fonctionnalités de gouvernance de Dataplex pour favoriser la mise en place d’un langage métier commun et cohérent, renforcer la confiance dans les données, promouvoir l'utilisation en libre-service et ainsi obtenir plus de valeur de vos données.

Par où commencer ?

Vous pouvez commencer à utiliser le glossaire d’entreprise de Dataplex dès maintenant en cliquant sur « Glossaires » dans la liste à gauche sur la page. Vous pouvez arrêter votre terminologie métier en créant des glossaires, en définissant des termes et en établissant des liens entre les termes.

Vous pouvez ensuite associer vos données existantes aux termes prédéfinis en parcourant les entrées de données avec Dataplex Search.

Une fois le contenu du glossaire défini et associé aux entrées de données, vous pouvez exploiter le contenu du glossaire pour rechercher des informations et explorer vos jeux de donnes.

Pour plus d'informations :

Apprendre à utiliser le glossaire d’entreprise de Dataplex
Visitez la page Dataplex sur Google Cloud

Des indicateurs fiables grâce à l’automatisation de la qualité des données

Thu, 27 Apr 2023 08:00:00 +0000

Dataplex s’enrichit deux nouvelles fonctionnalités pour automatiser la qualité des données (AutoDQ) et le profilage (Data Profiling). Elles sont toutes deux disponibles en version preview publique dès aujourd’hui.

Dataplex est une « smart data fabric » qui permet d’unifier vos données distribuées et de gérer, surveiller et gouverner la data à grande échelle. Au sein de cette « fabric », AutoDQ permet de définir et mesurer la qualité des données. La fonctionnalité propose des recommandations de règles, du reporting intégré et une exécution en serverless pour garantir une haute qualité de données. Parallèlement, la nouvelle fonctionnalité de profilage de données (ou Data Profiling) offre une meilleure compréhension des données grâce à l’identification de caractéristiques communes.

Quand elles sont fiables et cohérentes, les données constituent un patrimoine inestimable pour les entreprises, en termes d’innovation mais aussi de prises de décision critiques et d’expériences client innovantes. À l’inverse, des données de mauvaise qualité peuvent entraîner l’inefficacité des processus et même des pertes financières.
La qualité des données était plus facile à gérer autrefois, quand « l’empreinte des données » était de plus faible taille (stockages et traitements limités à une zone géographique ou à une base par exemple) et que les consommateurs de données étaient moins nombreux. Les utilisateurs pouvaient s’entendre plus facilement pour définir des règles et les intégrer dans leurs analyses.

Mais les entreprises éprouvent désormais une difficulté grandissante à adapter ce processus manuel à l’augmentation des volumes et à la diversité croissante des données, sans oublier l’arrivée de nouveaux utilisateurs et la multiplication des cas d’usages. La difficulté est également accentuée par la prolifération de solutions de gestion de la qualité des données en interne qui rend la mise en place de règles de qualité communes et normalisées encore plus complexes. La plupart du temps, cet héritage sème de l’incohérence et de la confusion.

Avec Dataplex AutoDQ et Data Profiling, vous pouvez désormais mettre en place des solutions de nouvelle génération qui automatisent la création de règles et la gestion à grande échelle de la qualité des données. Les fonctionnalités de profilage permettent aussi d'améliorer la découverte et l'auditabilité des données.

Les principaux avantages de ces solutions sont :

Une approche intelligente et intégrée : avec AutoDQ et Data Profiling, la courbe d’apprentissage disparaît. La mise en place de règles est intuitive grâce aux recommandations et ne nécessite aucune configuration. De plus, les rapports « clé en main » fournis permettent de déployer sans effort un reporting standardisé.
Gestion de toutes les catégories de données sans générer de silos : AutoDQ et Data Profiling s’adaptent à tous les types de données, permettant ainsi aux producteurs de s’approprier la gestion de la qualité et aux consommateurs d’enrichir les rapports en fonction de leurs besoins métier spécifiques.
Automatisation à grande échelle : ces solutions sont conçues pour s’adapter automatiquement et de façon transparente à la volumétrie. Elles s’appuient sur les mécanismes de stockage d’attributs de Dataplex (l’Attribute Store de Dataplex qui permet de stocker ensemble métadonnées, règles de qualité et politiques de sécurité) afin d’adapter la définition et la supervision aux besoins, au fur et à mesure que la volumétrie augmente.

Ces fonctionnalités en mode preview constituent le socle d’un futur où la qualité fera partie intégrante de la découverte et de l’analyse de données au quotidien.

"Des données fiables sont incroyablement importantes pour notre prise de décision afin de conserver la confiance de nos clients. Les nouvelles fonctionnalités de qualité des données et de profilage de nouvelle génération de Dataplex nous offrent une automatisation et une intelligence qui nous permettent de simplifier nos processus actuels, de réduire le travail manuel et de normaliser la qualité des données grâce aux rapports et alertes intégrés." - Jyoti Chawla, directeur technique et responsable de l'architecture, CDO, Deutsche Bank.

"Nous utilisons des données sur l’énergie pour construire des modèles innovants de prévision de la puissance, de planification des ressources et de recommandations pour le marché de l'énergie. Pour valider les données d'entraînement et de prédiction, nous évaluons activement la fonction ‘Qualité automatique des données (AutoDQ)’ de Dataplex. Jusqu'à présent, nous avons été impressionnés par sa simplicité, son intuitivité et ses recommandations intelligentes". - João Caldas, responsable de l'analyse et de l'innovation à Casa dos Ventos.

Un modèle de données flexible

Ces nouvelles fonctionnalités de Dataplex s’appuient sur un modèle capable de s’adapter à de multiples catégories de données et différents types de déploiement, En tant qu’utilisateur, vous pouvez créer un ou plusieurs « data scans » pour une table.

Ces data scans :

sont de type « profilage des données » ou de type « qualité des données » ;
reposent entièrement sur une exécution serverless ;
peuvent être déclenchés à l’aide d’un scheduler (outil de planification) serverless intégré ou à la demande avec des schedulers externes ;
peuvent être exécutées de manière incrémentale (sur les données les plus récentes) ou sur l'ensemble des données ;
Et, si vous êtes un producteur de données, vous pouvez configurer la solution, de façon à publier les résultats dans le catalogue de données (fonctionnalité à venir prochainement !).

Avec ce modèle, les producteurs peuvent aisément créer et tester de nouveaux « data scans » avant de les passer en production en publiant les résultats. Les consommateurs peuvent exploiter les résultats publiés et ajouter leur propres « data scans » si nécessaire.

Ce modèle est enrichi « d’intelligence » et d’une interface utilisateur pensée pour un usage intuitif et une prise en main simplifiée.

Afin d’aller plus loin dans l’utilisation de ces nouvelles fonctionnalités, nous vous proposons un exemple d’application, basé sur « Taxi Trips » tiré des jeux de données publiques de BigQuery public datasets (source : -chicago-taxi-trips). Nous allons passer en revue les capacités de définition, d'exécution, de supervision et de dépannage des règles offertes par ces nouvelles fonctionnalités.

Profilage de vos données en quelques clics

Il suffit de quelques clics pour créer un scan de profilage de données pour cette table dans Dataplex. Les résultats du scan sont ensuite disponibles dans l'interface utilisateur et comprennent des statistiques et graphiques sur les colonnes. La capture d’écran suivante affiche par exemple le pourcentage de données Null, de données uniques et autres statistiques sur les colonnes, ainsi que les 10 valeurs les plus récurrentes de chaque colonne.

Obtenir des recommandations de règles pour gérer la qualité des données

Pour mettre en place un scan de qualité de données, nous proposons à la fois des recommandations de règles et une expérience visuelle de création de règles. Vous pouvez créer de nouvelles règles directement en code SQL ou en partant des quelques types de règles prédéfinies.

Notez que chaque règle est associée à une dimension « qualité des données » et possède un seuil de validation.

Par exemple, voici une règle recommandée qui reconnaît que payment_type doit absolument adopter l'une des quelques valeurs automatiquement détectées dans la colonne.

Une exécution sans copie des données

Les contrôles de qualité des données sont exécutés de la manière la plus performante directement sur les ressources internes Bigquery, et aucune copie de données n'est pratiquée lors de l'exécution de ces requêtes.

Visualisation des rapports dans Dataplex

Vous pouvez planifier ces contrôles de qualité directement dans Dataplex ou les exécuter à l’aide de schedulers externes. Dans les deux cas, les résultats s’affichent dans Dataplex sous forme d'un rapport sur la qualité des données.

Un tableau de bord permet de visualiser les exécutions (7 dans notre exemple) :

Vous pouvez également effectuer des recherches dans les exécutions précédentes.
Les règles utilisées pour chaque exécution sont conservées.

Définir des alertes avec Google Cloud Logging

Les scans de qualité des données génèrent des entrées dans les journaux Google Cloud sur lesquelles vous pouvez vous appuyer pour définir des alertes en cas d’échec d’un scan spécifique ou d’échec sur une dimension particulière. Votre alerte, communiquée par email, pourrait ressemble à ceci :

Résolution des problèmes

Pour résoudre un problème sur une règle de qualité en échec, nous accompagnons les utilisateurs en proposant automatiquement une requête SQL permettant de retrouver les enregistrements qui ont provoqué cet échec (autrement dit, les enregistrements qui ne respectent pas la règle de qualité).

Pour plus d’information, reportez-vous à :

Les nouveautés liées à l’infrastructure data cloud unifiée de Google Cloud

Thu, 06 Oct 2022 08:00:00 +0000

Google compte parmi ses clients de nombreuses entreprises qui se distinguent par leur capacité à innover. Beaucoup d’entre elles se sont tournées vers Google Cloud afin de bénéficier de notre expertise reconnue dans le domaine de l’analyse de données et de l’IA.

Au fil de notre collaboration avec ces entreprises bien avancées sur l’exploitation de la donnée, nous avons constaté que la majorité partageait des priorités similaires : éliminer les obstacles liés à la complexité des données, faire émerger de nouveaux cas d’usage et maximiser l’impact de la donnée tout en démocratisant son accès au plus grand nombre.

Pour innover, ces entreprises qui bousculent leur marché s’appuient sur une infrastructure data cloud qui permet à leurs collaborateurs d’avoir accès à tout type de données, provenant de n’importe quelle source quelle que soit sa taille. Et ce, sans limite de capacité et avec des performances optimales. Ce data cloud permet également aux collaborateurs de passer facilement d’un workload à l’autre, en toute sécurité, et avec une configuration d’infrastructure minimale, qu’il s’agisse de basculer de SQL à Spark, de la BI (Business Intelligence) au ML (Machine Learning). Autrement dit, ces entreprises s’appuient sur un data cloud pour donner naissance à un écosystème de données ouvert, socle indispensable pour créer des services que les collaborateurs, les clients et les partenaires utilisent afin de prendre des décisions à même de changer la donne.

Le 11 octobre prochain, à l'occasion du Google Cloud Next '22, vous pourrez découvrir les nouvelles fonctionnalités de notre data cloud. Elles ont été spécialement conçues pour répondre aux attentes des entreprises qui souhaitent mettre en place cette approche moderne de la donnée. Si vous n’êtes pas encore inscrit aux sessions Data Cloud, réservez votre place dès aujourd’hui !

Je suis toutefois convaincu que les passionnés de data n’auront pas la patience d’attendre. C’est pourquoi je vous propose de découvrir en avant-première certaines des dernières innovations apportées à notre data cloud. La plupart sont disponibles dès à présent. Considérez-les comme un hors-d'œuvre en attendant le foisonnant festin qui vous sera proposé le 11 octobre.

Supprimer les barrières, obtenir des analyses en temps réel et ouvrir les écosystèmes

Les données dont vous avez besoin sont rarement stockées dans un seul endroit. Le plus souvent, elles sont éparpillées entre plusieurs sources et dans différents formats. Des mécanismes d’échange entre ces différentes sources ont été mis en place il y a déjà plusieurs années, voire des décennies. Mais les résultats sont plutôt mitigés. L’approche traditionnelle suppose en effet des déplacements de données d’autant plus laborieux qu’ils sont complexifiés par des problématiques de sécurité et de réglementations.

Cette situation nous a conduits à concevoir Analytics Hub. Disponible à tous dès à présent, cette solution se concrétise sous la forme d’une plateforme de partage de données, utilisée par les équipes et les organisations qui veulent réaliser des échanges sécurisés et fiables en interne comme avec l’extérieur de l’entreprise.

Cette innovation permet non seulement de conserver et de partager un large éventail de jeux de données prêts pour l’analyse mais également de les combiner aux jeux de données uniques proposés par Google, tels que Google Search Trends ou encore notre graphe de connaissances Data Commons.

Analytics Hub fait partie intégrante de BigQuery. Autrement dit, vous pouvez l’essayer gratuitement en passant par BigQuery, sans avoir à saisir de données de paiement.

Analytics Hub n’est évidemment pas le seul moyen que nous proposons pour simplifier l'intégration de données à des fins analytiques. Nous avons en effet récemment annoncé une solution pour extraire, charger et transformer des données en temps réel dans BigQuery : le nouveau type d’abonnement Pub/Sub "BigQuery Subscription". Cette innovation apportée à l’ETL simplifie la mise en place de workloads d’ingestion en continu (streaming). Plus facile à mettre en œuvre, cette solution est aussi plus économique car vous n’avez plus besoin d’exécuter de nouveaux traitements pour déplacer vos données et vous n’avez plus à payer pour l’ingestion en continu dans BigQuery.

Dans un monde où de plus en plus d’entreprises cherchent à réconcilier des informations réparties entre différents datalakes, entrepôts, clouds et formats de fichiers, l’approche traditionnelle pour dé-siloter les données peut s’avérer coûteuse, risquée, et difficile à passer à l’échelle.

Afin de les accompagner dans leur démarche, nous avons lancé BigLake, un nouveau moteur de stockage qui étend les nouveautés apportées à BigQuery aux formats de fichiers ouverts, stockés sur les « objects store » de clouds publics.

BigLake permet aux clients de créer aisément des datalakes sécurisés à partir de formats de fichiers ouverts. Il propose aussi des contrôles de sécurité fins et cohérents que ce soit pour Google Cloud ou pour des moteurs de requête open-source. La configuration de la sécurité est donc centralisée à un seul endroit et appliquée partout.

Des clients comme Deutsche Bank, Synapse LLC et Wizard ont eu l’occasion d’exploiter BigLake avant sa sortie. Cette solution est depuis peu accessible à tous. Je vous invite à découvrir dès à présent comment BigLake peut vous aider à construire votre propre écosystème de données.

Simplifier l’exploitation de la donnée

Quand les données sont hétérogènes et éparpillées entre des sources très variées, les entreprises ont généralement du mal à innover car leurs collaborateurs doivent sans cesse changer d’outils en fonction de la tâche à réaliser.

C’est un problème récurrent rencontré en Machine Learning, où les interfaces ML diffèrent généralement de celles utilisées pour la BI. Mais ce n’est pas le cas avec BigQuery ML : les clients ne sont pas freinés dans leur capacité à innover car les fonctionnalités ML sont intégrées à BigQuery (et non pas en option comme dans bien des solutions du marché).

Nous appliquons désormais la même philosophie aux données de logs en proposant un service Log Analytics directement intégré au service Cloud Logging. Cette nouvelle fonctionnalité, actuellement en « preview », permet d’approfondir l’analyse des données de journalisation avec BigQuery. Log Analytics n'entraîne pas de facturation supplémentaire aux tarifs actuels de Cloud Logging et tire profit des fonctionnalités d’analyse de journaux de BigQuery qui seront bientôt disponibles : index de recherche (et son nouveau type de données JSON) et l’API « Storage Write » (API d’ingestion de données par lots de BigQuery).

Les clients qui stockent, explorent et analysent leurs propres « données machines » (autrement dit des données générées par des machines telles que des serveurs, des capteurs et autres dispositifs) peuvent exploiter ces mêmes fonctionnalités BigQuery pour faciliter l'interrogation de leurs journaux. Les données des journaux opérationnels peuvent ainsi être explorées avec le langage SQL BigQuery, comme n’importe quelle autre donnée de l’entreprise !

Tout ceci n’est bien entendu qu’un avant-goût des surprises que nous vous réservons à l’occasion de Next'22. Nous avons hâte de vous présenter notre nouvelle génération de solutions data cloud, dès le 11 octobre prochain. Pour participer aux sessions dédiées à vos centres d’intérêt ou à votre domaine de compétences, n’hésitez pas à consulter notre sélection des « Top sessions » pour Data-Engineers, Data-Scientists et Data-Analysts ou à créer vos propres listes et à les partager.

Rejoignez-nous à Next'22 pour découvrir comment des entreprises leader sur leur marché, telles que Boeing, Twitter, CNA Insurance, Telus, L'Oréal ou encore Wayfair, transforment l’exploitation de leurs données grâce au data cloud de Google.

Un redéploiement simplifiée des données mainframe vers le cloud

Tue, 30 Aug 2022 09:00:00 +0000

Les mainframes d'IBM existent depuis les années 1950 et demeurent encore essentiels dans de nombreuses organisations. Ces dernières années, certaines d’entre elles ont cependant entrepris un redéploiement de leurs workloads vers le cloud. Cette démarche de modernisation est motivée à la fois par le besoin de rester pertinent, par la pénurie croissante d'experts en mainframes et par les économies promises par les solutions de cloud computing.

L'un des principaux défis du redéploiement des mainframes a toujours été le transfert des données de ces derniers vers le cloud. Heureusement, Google offre en libre accès son connecteur « bigquery-zos-mainframe » pour concrétiser de tels transferts avec un effort minimal.

À la découverte du connecteur Mainframe pour BigQuery et Cloud Storage ?

Le connecteur Mainframe permet aux utilisateurs de Google Cloud de transférer des données mainframes vers Cloud Storage et de soumettre des tâches BigQuery à partir de jobs mainframes codés en JCL (le langage de contrôle des jobs des mainframes). Grâce à l'interpréteur Shell inclus et aux versions JVM des utilitaires de ligne de commande gsutil et bq, les équipes mainframes peuvent aisément gérer un pipeline ELT complet entièrement depuis z/OS.

Le connecteur déplace les données situées sur un mainframe vers - et depuis - Cloud Storage et BigQuery. Il transcode ces jeux de données directement au format ORC (un format pris en charge par BigQuery). En outre, il permet aux utilisateurs d'exécuter des tâches BigQuery à partir de JCL, de sorte que les jobs mainframes puissent tirer parti de certains des services les plus puissants de Google Cloud.

Ce connecteur a été testé avec des fichiers plats créés par IBM DB2 EXPORT qui contiennent des champs de caractères binary-integer, packed-decimal et EBCDIC et qui peuvent être facilement représentés par un CopyBook (un fichier de description de données classiquement employé dans l’univers mainframes sous Cobol et DB2).
Les clients disposant de fichiers VSAM peuvent utiliser IDCAMS REPRO pour exporter ces données vers des fichiers plats, ces derniers pouvant ensuite être téléchargés à l'aide du connecteur.
Notez que le transcodage vers ORC nécessite un CopyBook et que tous les enregistrements doivent avoir la même mise en page. Si la mise en page est variable, le transcodage ne fonctionnera pas, mais il est toujours possible de télécharger directement une simple copie binaire du jeu de données.

Comment utiliser le connecteur bigquery-zos-mainframe ?

Un workflow de mise en œuvre du connecteur mainframe comprend en général les étapes suivantes :

- Lecture du jeu de données mainframe

- Transcodage du jeu de données en ORC

- Téléchargement de l'ORC vers Cloud Storage

- Enregistrement de cet ORC en tant que table externe

- Exécution d'une instruction DML MERGE pour charger de nouvelles données incrémentielles dans la table cible (sur le cloud).

Notez que si le jeu de données ne nécessite pas de modifications supplémentaires après le chargement, il est préférable d’opter pour un chargement dans une table native plutôt qu’une table externe.

En ce qui concerne l'étape 2, il est important de mentionner que les exportations DB2 sont écrites sous forme de jeux de données séquentiels sur le mainframe et que le connecteur utilise le CopyBook du jeu de données pour le transcoder en ORC.

L'exemple simplifié ci-dessous montre comment lire un jeu de données sur un mainframe, le transcoder au format ORC, copier le fichier ORC sur Cloud Storage, le charger dans une table native BigQuery et exécuter une commande SQL sur cette table.

1 – Vérifier et compiler

code_block: <ListValue: [StructValue([('code', 'git clone https://github.com/GoogleCloudPlatform/professional-services\r\ncd ./professional-services/tools/bigquery-zos-mainframe-connector/\r\n \r\n# compile util library and publish to local maven/ivy cache\r\ncd mainframe-util\r\nsbt publishLocal\r\n \r\n# build jar with all dependencies included\r\ncd ../gszutil\r\nsbt assembly'), ('language', ''), ('caption', <wagtail.rich_text.RichText object at 0x7fbf873f9640>)])]>

2 - Téléchargez l’assembly jar qui vient d'être créé dans target/scala-2.13 vers un chemin du système de fichiers unix de votre mainframe.

3- Installez la Procédure JCL BQSH sur n’importe quel jeu de données partitionné sur le mainframe que vous souhaitez utiliser comme PROCLIB. Modifiez la procédure pour mettre à jour le classpath Java avec le chemin du système de fichiers unix où vous avez téléchargé l'assembly jar. Vous pouvez modifier la procédure pour définir toute variable d'environnement spécifique à votre infrastructure.

4- Créer le Job

Etape 1

code_block: <ListValue: [StructValue([('code', '//STEP01 EXEC BQSH\r\n//INFILE DD DSN=PATH.TO.FILENAME,DISP=SHR\r\n//COPYBOOK DD DISP=SHR,DSN=PATH.TO.COPYBOOK\r\n//STDIN DD *\r\ngsutil cp --replace gs://bucket/my_table.orc\r\n/*'), ('language', ''), ('caption', <wagtail.rich_text.RichText object at 0x7fbf873f9f70>)])]>

Cette étape lit le jeu de données dans INFILE DD et lit le modèle d'enregistrement dans COPYBOOK DD. Le jeu de données d'entrée peut être un fichier plat exporté depuis IBM DB2 ou un fichier VSAM. Les enregistrements lus à partir du jeu de données d'entrée sont écrits dans le fichier ORC à l'adresse gs://bucket/my_table.orc avec le nombre de partitions déterminé par la quantité de données.

Etape 2

code_block: <ListValue: [StructValue([('code', '//STEP02 EXEC BQSH\r\n//STDIN DD *\r\nbq load --project_id=myproject \\\r\n myproject:MY_DATASET.MY_TABLE \\\r\n gs://bucket/my_table.orc/*\r\n/*'), ('language', ''), ('caption', <wagtail.rich_text.RichText object at 0x7fbf873f94f0>)])]>

Cette étape soumet un job BigQuery qui chargera les partitions de fichiers ORC de « my_table.orc » dans MY_DATASET.MY_TABLE. Notez que le chemin est bien celui utilisé à l'étape précédente.

Etape 3

code_block: <ListValue: [StructValue([('code', '//STEP03 EXEC BQSH\r\n//QUERY DD DSN=PATH.TO.QUERY,DISP=SHR\r\n//STDIN DD *\r\nbq query --project_id=myproject\r\n/*'), ('language', ''), ('caption', <wagtail.rich_text.RichText object at 0x7fbf8cdc7940>)])]>

Cette étape soumet un job de requêtage BigQuery (Request Job) pour exécuter une lecture SQL à partir du QUERY DD (un fichier FB au format LRECL 80). En général, la requête sera une instruction MERGE ou SELECT INTO qui entraîne la transformation d'une table BigQuery.
Note : le connecteur enregistrera les métriques du job mais n'écrira pas les résultats de la requête dans un fichier.

Fonctionner hors du mainframe pour économiser les MIPS

Sur un système de production, planifier des tâches générant de larges transferts de données n’est pas une chose à prendre à la légère.
Il est important de retenir que le connecteur Mainframe s'exécute dans un processus JVM et devrait donc utiliser les processeurs zIIP par défaut, mais si la capacité est épuisée, l'utilisation peut s'étendre aux processeurs généraux.
Étant donné que le transcodage d'enregistrements z/OS et l'écriture de partitions de fichiers ORC nécessitent une quantité non négligeable de traitements, le Mainframe Connector comprend un serveur gRPC conçu pour gérer les opérations de calcul intensif sur un serveur cloud (une instance VM sur Google Cloud Engine). En activant cette fonctionnalité, les traitements intensifs sont réalisés hors du mainframe sur un serveur cloud, le processus exécuté sur z/OS se contentant de télécharger le jeu de données vers Cloud Storage et d’effectuer un appel RPC.
Le passage du connecteur d’un mode d'exécution locale à un mode d’exécution distante ne nécessite qu'un changement de variable d'environnement. Des informations détaillées sur cette fonctionnalité sont disponibles ici.

Remerciements

Merci à ceux qui ont testé, débogué, maintenu et amélioré cet outil : Timothy Manuel, Catherine Im, Madhavi Kancharla, Suresh Balakrishnan, Viktor Fedinchuk, Pavlo Kravets.

Libérez le potentiel de vos données sur mainframe avec une approche innovante : la « data-first digitization »

Tue, 24 May 2022 08:00:00 +0000

Dans de nombreuses entreprises, de vénérables mainframes abritent encore des décennies de données sur les clients, les processus et les opérations. Et bien évidemment, ces entreprises aimeraient bien pouvoir y accéder pour effectuer des analyses et créer des rapports avec les outils du big data ou encore pour les utiliser dans le cadre de nouveaux projets de Machine Learning et d’Intelligence Artificielle.

Nous avons hâte chez Google de vous accompagner dans cette démarche en vous aidant à transformer les ressources mainframe pour l'ère du cloud. Nous pouvons bien entendu vous aider à moderniser vos applications mainframes en les faisant migrer vers le cloud. Mais en parallèle, nous avons aussi développé une autre alternative avec nos partenaires et nos clients. Plus légère, elle permet de commencer à exploiter les ressources des mainframes sur le cloud beaucoup plus rapidement qu’avec une migration complète de l’existant. Nous avons baptisé cette approche data-first digitization ou, en français, « numérisation des données d'abord ».

Dans un monde numérique qui évolue rapidement, il convient tout d’abord de faire la différence entre « modernisation » et « numérisation ».
Dans une approche classique de modernisation, vous partez de l’existant pour vous projeter dans l’avenir en vous appuyant sur des méthodes de migration d’applications des mainframes, qu’il s’agisse de rehosting (émulation), de refactoring (transformation du code), de réingénierie ou simplement de remplacement d'une application sur mesure par une solution « clés en main ».
À l’inverse, dans une approche « numérisation », on part du résultat attendu et on remonte la chaîne existante en modifiant tout ce qui doit l’être pour atteindre son objectif.

Cette approche « numérisation » s’appuie sur un framework d’intégration privilégiant les données. Constitué à partir de nos outils et solutions et ceux de nos partenaires, il permet de migrer des sources de données hétérogènes provenant des mainframes vers Google Cloud Storage. Une fois les données mainframe copiées sur Cloud Storage, elles peuvent ensuite être intégrées et exploitées par les outils Google Cloud, tels que BigQuery, les solutions d'IA et de Machine Learning ou encore les plateformes d’analyse intelligente (Smart analytics) et d’analyse de flux (Stream analytics).
Notre framework d'intégration couvre à la fois le mode batch pour transférer d’un coup des jeux de données volumineux et la réplication en temps réel par capture des modifications apportées aux données (prise en charge du « change data capture »).

L’approche « numérisation d’abord » repose sur le principe selon lequel « les applications sont éphémères, les données sont permanentes ».

Plutôt que d’utiliser les méthodes traditionnelles de modernisation telles que décrites dans les 7 options de modernisation du Gartner par exemple, les entreprises vont ici privilégier le transfert des données vers Google Cloud, ce qui leur permettra d’accélérer les étapes et de commencer à mettre rapidement en place nouveaux modèles métiers, de nouveaux cas d’usage ou encore de nouvelles façons innovantes de satisfaire leurs clients.

Deux exemples concrets :

Prendre de meilleures décisions, plus rapidement, en s’appuyant sur les solutions d’analyse en temps réel et intelligentes mais aussi sur les moteurs de Machines Learning et/ou AI. Google est un pionnier dans l'extraction d'informations et de valeur à partir de données brutes structurées et non structurées. Ces outils ont toutefois besoin d’être alimentés en données pour gagner en efficacité. En rendant les données sur mainframe accessibles par des outils comme BigQuery et des modèles AI/ML, les entreprises maximisent leurs capacités d’analyse.
Créer de nouvelles applications de reporting. L’accessibilité des données sur mainframe par des outils Google Cloud, tels que Looker et Appsheet, permet de créer de nouvelles applications de reporting et ainsi d’accélérer votre transformation globale en décommissionnant plus rapidement les anciennes applications de reporting hébergées sur mainframe.

D'après notre expérience, l'adoption d'une approche « numérisation » axée sur les données offre un certain nombre d'avantages :

Réactivité métier : cette forme de modernisation s’appuyant sur des outils existants, le cycle de mise en œuvre est beaucoup plus court.
Investissements réduits : l’intégration de produits est moins consommatrice de ressources que le développement d’applications.
Risques minimisés : la démarche data-first repose sur des solutions intégrées aux produits Google Cloud existants, éprouvés et fiables.
Transformation plus rapide de l’existant sur mainframe : en déplaçant le centre de gravité de l’application vers les données, vous abordez la question de la modernisation sous l’angle métier, plutôt que de simplement continuer à faire vivre cet existant. Dès lors, seules les applications réellement critiques pour l’entreprise sont modernisées tandis que les applications non essentielles peuvent être mises hors service progressivement, ce qui permet d’accélérer le processus de transformation.

Une telle numérisation centrée sur les données est encore une approche relativement récente, mais les premiers succès de nos clients nous invitent à poursuivre dans cette voie.
N’hésitez pas à consulter régulièrement sur notre site pour obtenir des informations supplémentaires, des architectures de référence et des livres blancs techniques sur l'approche "data-first". Et si vous pensez qu’elle peut vous convenir, contactez mailto:mainframe@google.com.

Gouvernance de données dans le cloud – Partie 2 – Les outils

Tue, 26 Apr 2022 10:00:00 +0000

Seconde partie d’une série dédiée à la « data governance », ce billet se focalise sur les technologies et outils permettant d’implémenter une gouvernance des données dans le cloud, telle que nous l’avons décrite dans la première partie.

Au-delà d’une nécessaire politique de gouvernance à l’échelle de l’entreprise et de la création d’une équipe dédiée au sujet, la mise en œuvre d’un programme de gouvernance efficace des données doit aussi s’appuyer sur les bons outils. Sécurisation des données à l'automatisation de la surveillance et des alertes, préservation et reporting des audits, découverte des données ou le suivi de leur parcours (data lineage)… de nombreuses technologies doivent être intégrées pour gérer le cycle de vie des données dans sa globalité.

Google Cloud propose un ensemble très complet d’outils qui permettent aux entreprises de gérer leurs données en toute sécurité, d’en assurer la gouvernance et d’en orchestrer la démocratisation. Ces outils se répartissent en plusieurs catégories :

Sécurité des données

Une vraie sécurité des données impose d’assurer leur protection à toutes les étapes de leur cycle de vie, autrement dit lorsqu’elles sont générées, acquises, transmises, stockées et même retirées en fin de vie. De multiples stratégies soutenues par différents outils sont utilisées pour à la fois sécuriser les données et identifier/corriger les vulnérabilités à mesure qu’elles se déplacent dans le pipeline de données.

Le Security Command Center de Google Cloud est un service centralisé de signalement des menaces et des vulnérabilités. Intégré à la plateforme Google Cloud, il aide les entreprises à prévenir, détecter les menaces et corriger les vulnérabilités. Security Command Center peut aussi identifier les mauvaises configurations de sécurité et de conformité de vos ressources Google Cloud et fournir des recommandations essentielles pour résoudre les problèmes mis en évidence.

Chiffrement des données

Dans Google Cloud, toute donnée est chiffrée par défaut, qu’elle soit en transit ou au repos. Tout le trafic entre les machines virtuelles, toutes les connexions à BigQuery, Spark ou Google Functions, et toutes les communications avec les services Google Cloud au sein d’un VPC (et entre VPC) sont également chiffrés par défaut.

Outre ce chiffrement par défaut fourni d’emblée, les clients peuvent également renforcer la sécurité des données en gérant leurs propres clés de chiffrement dans Cloud KMS. Et pour aller encore plus loin, le chiffrement côté client est aussi disponible permettant aux entreprises de garder un total contrôle de leurs clés de chiffrement.

Masquage de données et Tokenisation

Si le chiffrement des données garantit que les données sont stockées et circulent sous une forme indéchiffrable, les utilisateurs finaux authentifiés sont eux toujours en mesure de voir les données sensibles lorsqu'ils interrogent la base de données ou affichent le contenu d’un fichier.

Plusieurs règlements internationaux exigent une désidentification ou une tokenisation des données privées ou sensibles. C’est typiquement le cas du RGPD qui recommande une pseudonymisation des données privées pour « réduire les risques sur les personnes concernées ». Les données désidentifiées réduisent les obligations de l'organisation en matière de traitement et d'utilisation des données.

La « tokenisation », autre méthode de brouillage (obfuscation) des données, permet d'effectuer des tâches de traitement des données, comme la vérification des transactions par carte bancaire, sans connaître leur véritable valeur, donc sans divulguer le numéro de carte bancaire dans notre exemple. En effet, la tokenisation remplace la valeur originale des données par un jeton (token) unique.

Chiffrement et tokenisation fonctionnent différemment. Les données chiffrées à l'aide de clés peuvent être déchiffrées à l'aide des mêmes clés.

En revanche, les jetons (tokens) sont mis en correspondance avec les données originales dans un serveur de tokenisation. Autrement dit, un acteur malveillant ayant accès au jeton ne peut retrouver la valeur de ce dernier sans accès au serveur de jetons.

La fonction Cloud DLP (Cloud Data Loss Prevention) de Google détecte, brouille et dépersonnalise automatiquement les informations sensibles contenues dans les données à l’aide de diverses méthodes telles que le masquage des données ou la tokenisation. Lors de la création de pipelines de données ou lors du redéploiement de données vers le Cloud, il suffit d’intégrer Cloud DLP pour détecter et dépersonnaliser ou tokeniser automatiquement les données sensibles. Cela permet aux data scientists et aux utilisateurs de créer des modèles ou des rapports en toute liberté tout en minimisant le risque de violation de la conformité.

Contrôle d’accès granulaire

BigQuery prend en charge le contrôle des accès à vos données Google Cloud avec une très fine granularité. On peut ainsi créer des règles de contrôle pour limiter l'accès aux colonnes et/ou aux lignes de données dans BigQuery.

En combinant Cloud DLP et le contrôle d'accès au niveau des colonnes et des lignes, il est possible de créer des jeux de données comportant à la fois une version sécurisée (masquée ou chiffrée) des données et une version “lisible” des données en fonction des droits de l’utilisateur. Cela favorise la démocratisation des données dans la mesure où le CDO (Chief Data Officer) peut s’appuyer et faire confiance aux garde-fous du cloud de Google pour autoriser ou non un accès en fonction de l'identité de l'utilisateur, tout en disposant de journaux d'audit garantissant un enregistrement des accès.

Ainsi, les données peuvent aisément être partagées au sein de l'organisation pour effectuer des analyses et construire des modèles d'apprentissage automatique tout en garantissant que les données sensibles restent inaccessibles aux utilisateurs non autorisés.

Découverte, classification et partage des données

Il ne peut y avoir d’organisation « data driven » (pilotée par la donnée) sans un moyen de facilement trouver les données.

Les programmes de gouvernance des données s'appuient sur des catalogues de données afin de créer un référentiel d'entreprise de toutes les métadonnées. Ces catalogues permettent aux gestionnaires et aux utilisateurs de données d'ajouter des métadonnées personnalisées, de créer des glossaires métier et de permettre aux analystes et aux scientifiques de rechercher et aisément retrouver les données à analyser. Certains catalogues permettent également aux utilisateurs de demander l'accès aux données directement au sein du catalogue, accès qui peut être approuvé ou refusé en fonction des règles créées par les gestionnaires de données.

Google Cloud propose un catalogue de données entièrement géré et évolutif pour centraliser les métadonnées et prendre en charge la découverte des données. Le Data Catalog de Google respecte les mêmes contrôles d'accès que ceux dont dispose l'utilisateur sur les données (les utilisateurs ne pourront donc pas rechercher des données auxquelles ils ne peuvent pas accéder).
En outre, Data Catalog est intégré de manière native au cœur même de la data fabric de GCP. Ainsi, il n’est nullement nécessaire d'enregistrer manuellement de nouveaux ensembles de données dans le catalogue : la même technologie de "recherche" que celle qui parcourt le Web y indexe automatiquement toutes données nouvellement créées.

Enfin, Google s'est aussi associé aux principales plateformes de gouvernance des données du marché, telles que Collibra et Informatica, pour fournir un support unifié à tout votre écosystème de données, aussi bien sur site que dans le multicloud.

Data Lineage (suivi des données)

Le « data lineage » permet de remonter jusqu'aux sources des données. Les data-scientists peuvent ainsi s'assurer que leurs modèles sont formés sur des données provenant de sources sûres. Et les data-engineers peuvent élaborer de meilleurs tableaux de bord à partir de sources de données connues. Autre usage, le data lineage permet aussi aux produits dérivés d'hériter des politiques des sources de données : ainsi, lorsqu’une source de données utilisée pour créer un modèle ML est marquée comme sensible, ce modèle ML sera lui-même étiqueté comme sensible.

La possibilité de remonter à la source des données et de conserver un journal de toutes les modifications apportées au fur et à mesure que les données progressent dans le pipeline de données permet aux data-owners d’obtenir une image claire du paysage des données. Il est ainsi plus facile d'identifier les données qui ne sont pas suivies par le Data Lineage et de prendre des mesures correctives pour les soumettre à la gouvernance et aux contrôles établis.
Lorsque les données sont dispersées dans des environnements on-prem, cloud ou multicloud, une plateforme centralisée de « data lineage » donne une vue unique sur l'origine des données et sur la façon dont elles se déplacent dans l'entreprise. Ce suivi est impératif pour contrôler les coûts, garantir la conformité, réduire la duplication des données et améliorer leur qualité.

Data Fusion de Google Cloud fournit un système de suivi des données de bout en bout facilitant la gouvernance et garantissant la conformité. Un système de Data Lineage pour BigQuery peut également être construit en utilisant les journaux d'audit de Google Cloud (Cloud Audit Logs), le Data Catalog, Pub/Sub et Dataflow. L'architecture pour construire un tel système de suivi est décrite ici.

En outre, le riche écosystème de partenaires de Google comprend des leaders du marché fournissant des fonctionnalités de data lineage aussi bien sur site que dans les clouds, à l’instar de Collibra. Des systèmes open source, tel que Apache Atlas, peuvent également être mis en œuvre pour collecter des métadonnées et faire du suivi de données dans Google Cloud.

Audits

Il est essentiel de conserver tous les enregistrements des accès aux données à des fins d'audit. Ces audits peuvent être internes ou externes. Les audits internes permettent de s'assurer que l'organisation respecte tous les critères de conformité et de prendre des mesures correctives si nécessaire. Si une organisation opère dans un secteur réglementé ou conserve des informations personnelles, la conservation des enregistrements d'audit est une exigence de conformité.

Les journaux d'audit de Google Cloud (Google Cloud Audit Logs) peuvent être activés à volonté pour garantir la conformité en cas d’audit. Ils permettent de répondre à la question « qui a fait quoi, où et quand ? » au travers des services Google Cloud.

Cloud Logging (anciennement Stackdriver) regroupe toutes les données des journaux de votre infrastructure et de vos applications en un seul endroit. Il collecte automatiquement les données des services Google Cloud et vous pouvez alimenter les journaux d'application en utilisant l'agent Cloud Logging, FluentD, ou l'API Cloud logging. Les journaux enregistrés dans Cloud logging peuvent aisément être transmis à GCS (Google Cloud Storage) pour l'archivage, à Bigquery pour des analyses, mais aussi à Pub/Sub pour les partager avec des systèmes tiers externes.

Enfin, Cloud Log Explorer vous permet de récupérer, d'analyser et de décortiquer facilement les journaux afin de créer des tableaux de bord pour surveiller les données de logs en temps réel.

Qualité des données

Avant d’intégrer des données dans leurs processus décisionnels, les organisations doivent s'assurer qu'elles répondent aux normes de qualité établies. Ces normes sont créées par les gestionnaires de données pour leurs domaines de données.

Google Dataprep de Trifacta fournit une interface utilisateur conviviale pour explorer les données et visualiser leur distribution. Les utilisateurs professionnels peuvent utiliser Dataprep pour identifier rapidement les valeurs aberrantes, les doublons et les valeurs manquantes avant que les données ne soient exploitées par des analystes ou des utilisateurs.

Dataplex de GCP permet d'évaluer la qualité des données grâce à des règles déclaratives qui sont exécutées sur une infrastructure serverless. Les propriétaires de données (data-owners) peuvent créer des règles pour trouver les enregistrements en double, garantir l'exhaustivité, l'exactitude et la validité (par exemple, une date de transaction ne peut pas se situer dans le futur). Ils peuvent planifier ces vérifications à l'aide du planificateur de Dataplex ou les inclure dans un pipeline en utilisant les API. Les mesures de la qualité des données sont stockées dans une table BigQuery et/ou sont disponibles dans la journalisation cloud afin d’élaborer ensuite des tableaux de bord avancés et une automatisation plus poussée.

Par ailleurs, les entreprises pourront tirer profit du riche écosystème de partenaires Google pour y retrouver les principaux éditeurs spécialisés sur la qualité des données, telles qu’Informatica et Collibra. Leurs outils de qualité des données sont utilisés pour surveiller les pipelines de données sur site, dans le cloud et sur plusieurs clouds pour identifier les problèmes de qualité et mettre en quarantaine ou corriger les données de qualité insuffisante.

Partages d’analyses

Les organisations qui cherchent à démocratiser les données ont besoin d'une plateforme pour facilement partager et échanger les analyses de données. Un tableau de bord, un rapport ou un modèle élaboré par une équipe est souvent utile à d'autres équipes. Dans les grandes organisations, en l'absence d'un moyen simple de découvrir et de partager ces ressources, le travail est inutilement répété engendrant des coûts plus élevés et des pertes de temps. En outre, l'échange de ressources analytiques permet aux équipes de découvrir plus aisément des problèmes liés aux données, ce qui, au final, contribue à améliorer la fiabilité et la qualité des données dans leur globalité.

Parallèlement, les organisations cherchent de plus en plus à échanger des ressources analytiques avec des partenaires externes que ce soit pour négocier de meilleurs coûts avec les fournisseurs, créer des flux de trésorerie, etc.

Analytics Hub permet aux organisations de partager en toute sécurité leurs actifs analytiques : équipes internes et partenaires peuvent alors « s'abonner » à ces derniers pour en profiter. Analytics Hub est un outil essentiel pour les organisations qui cherchent à démocratiser les données et à les intégrer dans toutes les prises de décision.

Certificats de conformité

Avant de pouvoir déployer des données vers le cloud, les organisations doivent s'assurer que toutes les exigences de conformité sont respectées. Une organisation est tenue de se conformer à ces réglementations en fonction de la région dans laquelle elle opère : elle doit se conformer au CCPA en Californie, au GDPR en Europe et au LGPD au Brésil.
Les organisations sont également soumises à des réglementations en raison de leur secteur d’activité spécifique, à l’instar du PCI DSS dans le secteur bancaire, du HIPAA dans le secteur de la santé ou du FedRAMP lorsqu'elles travaillent avec le gouvernement fédéral américain.

Google Cloud possède plus de 100 certifications de conformité spécifiques à des régions et des secteurs d’activité. Et Google continue d'ajouter régulièrement de nouvelles certifications réglementaires à son portefeuille. Nos équipes dédiées à cette problématique aident les clients à garantir leur conformité lors du redéploiement de leurs données et de leur intégration à Google Cloud.

Conclusion

Commencez votre voyage vers la gouvernance des données en explorant Dataplex : cette solution Google permet de gérer et gouverner les données de manière centralisée au sein de votre organisation.

Puis, dans le cadre de la mise en œuvre d’une vraie démocratisation des données, envisagez Analytics Hub pour créer un réel échange de données analytiques entre vos équipes et partager facilement vos ressources analytiques.

La sécurité est intégrée à chaque produit Google et les certifications de conformité - qu’elles soient régionales ou liées aux secteurs d'activité - facilitent les redéploiements de données vers le cloud.

Enfin, si vous avez déjà commencé votre voyage dans le cloud, assurez-vous de la haute qualité des données, et de l'accès sécurisé aux données sensibles en profitant non seulement des solutions natives de Google Cloud mais aussi du riche écosystème de solutions partenaires GCP.

Pour en savoir plus :

Les responsables de la gouvernance des données de Google ont rassemblé les meilleures pratiques et leurs enseignements en matière de gouvernance des données dans une publication O'Reilly : Data Governance, The Definitive Guide

Relever les défis de demain avec Data Cloud Summit 2022

Thu, 31 Mar 2022 08:00:00 +0000

Google Cloud a aidé des dizaines de milliers d’entreprises à bâtir leur data cloud. Des bases de données aux analyses qui facilitent la prise de décision, en passant par l’IA et le ML pour prédire l’avenir et automatiser les tâches d’aujourd’hui et de demain. Nos solutions permettent d’exploiter toute la puissance des données. Pour créer leur data cloud, les entreprises se sont massivement tournées vers nos outils, reconnus pour leur avancée technologique dans le domaine de l’IA, leur capacité à monter en puissance, une sécurité inégalée des environnements ou encore pour leur performance. Et, de fait, grâce à la puissance de nos outils, nos clients et partenaires ont été les premiers à réellement prendre conscience de la puissance des données pour moderniser une entreprise et disrupter un secteur d’activité.

Le mois prochain, vous pourrez rejoindre ces privilégiés. Venez chercher l’inspiration et la vision d’un futur dans lequel vous transformez votre organisation en une puissante entreprise propulsée par la donnée au Data Cloud Summit 2022.

Rejoignez-nous le 6 avril prochain pour profiter de l’expertise des leaders technologiques et partager l’expérience d’experts en données qui ont déjà utilisé les environnements modernes du data cloud pour innover, résoudre des problèmes et ainsi développer l’activité de leur entreprise. Retrouvez un grand nombre d’intervenants qui vous montreront comment avec les données, l’IA, l'apprentissage automatique et l'analytique, on peut relever les défis de demain. Vous apprendrez également à gérer le cycle de vie des données de votre organisation pour créer de meilleurs produits, servir vos clients plus efficacement, prendre de meilleures décisions et assurer la sécurité de vos données.

Wayfair, PayPal, Walmart, Vodafone et Exabeam… partagez l’expérience de nos clients qui ont déjà transformé leurs entreprises et profitez-en également pour découvrir notre roadmap, présentée par ceux qui l’ont pensée et construite. Vous n’avez pas fini d’être étonnés !

Lors de la session d’ouverture, Gerrit Kazmaier et Anita Kibunguchy-Grant vous montreront comment des entreprises leaders sur leur marché exploitent la puissance de leurs données pour innover à travers de nombreux cas d’usage de l’IA. La session sera suivie d'une séance de questions-réponses en direct.

Sudhir Hasbe abordera les nouveautés prévues par notre roadmap pour nos solutions d’analyse. Accompagné par Sanjay Chaudhary, vice-président de la gestion des produits chez Exabeam, il vous expliquera comment accélérer la transition de votre entreprise vers le cloud.

Andi Gutmans vous dévoilera nos plus récentes innovations en matière de bases de données ainsi que les orientations prises par Google dans ce domaine. Il évoquera également avec Bala Natarajan, Sr. Director of Data Infrastructure and Cloud Engineering chez PayPal comment créer des applications de rupture en mettant en place une stratégie moderne de base de données.

Olivia Burgess et Henry Tappen s'entretiendront également avec Travis Drucker, responsable principal des services informatiques à la Mayo Clinic, et Dale Magnuson, chef de section informatique à la Mayo Clinic, sur la manière dont les entreprises peuvent utiliser Vertex AI pour réunir des informations métier précises et en temps réel au sein d'une interface utilisateur.

Data Cloud Summit 2022 vous proposera également de nombreuses occasions de vous former par la pratique. Maire Newton et Vidya Shanmugam feront ainsi la démonstration de notre approche sécurisée et économique permettant d’analyser et visualiser les données réparties sur plusieurs clouds avec BigQuery Omni et Looker. Leigha Jarett et Gabe Weiss illustreront également comment nos technologies cloud permettent de créer des expériences clients exceptionnelles, et ce de manière simple, ouverte et intégrée pour les développeurs.

Rejoignez-nous et découvrez en avant-première les transformations numériques de nos clients reposant sur l’expertise de partenaires tels que 3.ai, Databricks, Deloitte, Elastic et MongoDB. Vous serez également l'un des premiers à découvrir les nouveautés de produits tels que BigQuery, Data Studio, Looker, Cloud Spanner, Cloud SQL et Vertex AI.

Nous sommes impatients de partager le fruit de notre travail avec vous. Réservez votre place dès aujourd'hui en vous inscrivant sur la page d'accueil du Data Cloud Summit.

Connecteur BigQuery pour SAP : Optimisez votre stratégie data dans le cloud

Tue, 15 Feb 2022 10:00:00 +0000

Les équipes Google Cloud aiment relever les défis technologiques qui font une vraie différence pour les clients. C’est pourquoi nous sommes ravis d’annoncer le lancement de notre connecteur BigQuery pour SAP. Il s’agit en effet d’un événement majeur pour nos clients utilisateurs de SAP, ce connecteur offrant un moyen rapide, facile et peu coûteux d’intégrer les données SAP dans BigQuery, notre datawarehouse multicloud, serverless, hautement scalable et économique, spécialement pensé pour donner de l’agilité aux entreprises.

Simplifier l’intégration des données

Comme la plupart des entreprises, les clients SAP veulent libérer le potentiel des données engrangées dans leurs entrepôts et capitaliser sur cette volumétrie en augmentation constante pour dénicher de nouvelles opportunités. Toutefois, une grande partie d’entre eux découvre rapidement à quel point la première étape d’une approche moderne de la data exploitée dans le cloud peut se révéler difficile à mettre en place. Croiser en temps réel et à grande échelle les données SAP avec d’autres données éparpillées entre le cloud et les systèmes internes est en effet un défi de taille.

Selon une étude SAPInsider de 2020, plus de la moitié des clients SAP interrogés considèrent que cette intégration constitue la principale difficulté rencontrée dans le cadre de leur stratégie d’exploitation des données. Dit autrement, ces entreprises ont un besoin crucial de solution rapide, durable, rentable et évolutive pour intégrer leurs données SAP aux solutions d’analyse cloud modernes.

Et c’est précisément ce que nous proposons avec le connecteur BigQuery pour SAP. Il propose une approche rapide, simple, rentable et très évolutive pour rendre les données SAP accessibles dans BigQuery en tirant parti des compétences et des outils existants de SAP Landscape Transformation Replication Server (SLT).
Notez qu’il s’agit là du premier connecteur SAP SLT direct et quasi temps réel pour BigQuery : aucun déploiement d’infrastructure supplémentaire ou de middlewares tiers n’est nécessaire et le connecteur peut être installé selon différents scénarios de déploiements embarqués ou autonomes. En pratique, la majorité des clients peuvent installer le connecteur BigQuery pour SAP en moins d’une heure. Autrement dit, ils disposent désormais d’un moyen particulièrement facile à mettre en œuvre qui leur permet de profiter de tous les avantages de notre solution cloud d’analyse de données pour en tirer des bénéfices métiers prouvés et quantifiables. Un moyen d’autant plus efficace que le connecteur BigQuery pour SAP n'est pas réservé aux clients ayant déployé leurs applications SAP sur Google Cloud : qu’ils exécutent leurs applications SAP sur site ou dans n'importe autre cloud, ils pourront exploiter notre connecteur et profiter des avantages analytiques de nos solutions cloud.

Concevoir une solution qui tient compte des besoins et investissements des clients

Lorsque nous avons commencé à travailler sur cet outil d’intégration, nous avons établi un cahier des charges visant à éliminer tous les points d’achoppement habituels générant de la complexité ou des surcoûts. Voici les points clefs de ce cahier des charges :

Garantir des performances quasiment temps réel sur les traitements avec des délais de réplication mesurés en millisecondes.
Intégrer les données de presque toutes les applications SAP Netweaver disponibles actuellement, quelle que soit leur localisation (sur site, dans n'importe quel cloud, dans le cloud de Google).
Mapper automatiquement et avec un minimum de transformations les types de données SAP avec les formats de BigQuery.
Générer lorsque nécessaire les tables cibles dans BigQuery directement à partir de la source.
S’intégrer à la couche applicative afin d’éviter les problèmes générés par un accès direct aux bases de données.
Capitaliser sur les compétences SAP, sur les mécanismes de capture des données modifiées (Change Data Capture) et sur l’infrastructure existante de nos clients.

Nous avons franchi une première étape importante et vérifié la pertinence de ce cahier des charges lorsqu 'Alphabet (société mère de Google) a adopté SAP SLT pour ses propres environnements internes afin de répliquer les données directement entre SAP et BigQuery.

SLT, qui fait partie de la Business Technology Platform de SAP, assure la réplication en temps réel de systèmes SAP ou tiers vers SAP HANA. Cependant, cette solution n’offre pas d’intégration directe avec des cibles comme BigQuery.

Cependant, utiliser SAP SLT pour développer notre connecteur nous est apparu comme l’approche la plus logique, et ce pour plusieurs raisons :

SLT est déjà très répandu chez les clients SAP qui l’utilisent probablement pour l'intégration de leurs données à des fins d’analyse.
SLT fonctionne avec presque tous les déploiements actuels d’environnements applicatifs SAP non-SaaS.
SLT procure des performances de réplication en temps réel et à grande échelle.

Ayant décelé la valeur immédiate apportée par une intégration directe entre SAP et BigQuery, le choix de SAP SLT pour mettre en place cette approche est rapidement devenu une évidence pour l'équipe d'ingénieurs d'Alphabet.

« Le connecteur BigQuery pour SAP nous a permis de mettre en place une réplication rapide et à faible latence de milliards d'enregistrements provenant de plus de 500 tables stockant nos données financières et de supply chain les plus critiques. Désormais centralisées dans un datalake sous BigQuery, ces données ERP peuvent être combinées avec d'autres sources. Cette architecture offre de nouvelles opportunités en termes d’analyse et de ML qui étaient jusqu’alors impossibles à mettre en place. Elle nous permet d’aller plus loin dans l’exploitation de nos données et d’obtenir des analyses plus approfondies qui favorisent non seulement l'excellence commerciale et opérationnelle mais également la constitution de rapports de gestion, de comptes de résultat, etc. » —Anil Nagalla, Sr. Engineering Director, Financial Systems, Google

Créer de la valeur en intégrant SAP à BigQuery

En exploitant SAP SLT, le connecteur BigQuery pour SAP permet d’intégrer des flux de données en temps réel à partir de n'importe quel système SAP, tout en capitalisant sur les investissements réalisés par les clients SAP et leurs compétences existantes.

De fait, le connecteur BigQuery pour SAP se charge automatiquement de la plupart des tâches. Par exemple, il prend en charge automatiquement le processus souvent complexe et à multiples étapes de transformation des données de SAP vers BigQuery : mise en correspondance des transitions de types de données entre les environnements SAP et BigQuery, création d'un schéma de table cible dans BigQuery pour les types de données transformés, construction de la table BigQuery cible et même adaptation du modèle lorsque de nouveaux types de données apparaissent dans l’environnement SAP.

Si vous souhaitez personnaliser le processus, le connecteur BigQuery pour SAP propose bien entendu un vaste éventail d’options. Mais si vous voulez avant tout allez vite afin de décupler le potentiel d’analyse de vos collaborateurs avec un environnement à forte valeur ajoutée, vous allez adorer la rapidité et la facilité avec lesquelles BigQuery pour SAP transforme en jeu d’enfant l’intégration et la gestion de la performance sur de grands volumes de données.

En intégrant leurs jeux de données en temps réel, les entreprises peuvent non seulement générer de la valeur ajoutée pour accroître leur compétitivité mais également entreprendre de nouvelles actions à partir d’analyses qu’elles ne pouvaient pas faire auparavant et qui leur confèrent un véritable avantage concurrentiel.

Outil facilitant le transfert et la transformation de vos données SAP, le connecteur BigQuery pour SAP va insuffler une nouvelle dynamique dans vos architectures data, d’autant que vous pouvez aussi utiliser des solutions comme Google Cloud Cortex Framework pour simplifier vos projets et les faire aboutir rapidement. Ensemble complet d'architectures de référence, d'accélérateurs de déploiement et de services d'intégration, ce framework propose aux clients SAP une approche rapide et complètement transparente pour rentabiliser leurs investissements en analyse de données.

En d’autres termes, plus vous aurez de données SAP disponibles dans Google Cloud, plus vous pourrez obtenir des analyses pertinentes à partir des solutions mises en place. Analyses qui vous ouvriront de nouvelles perspectives et peuvent potentiellement changer la donne.

Pour en savoir plus sur le connecteur BigQuery pour SAP

Prêts à exploiter le potentiel de vos données SAP sur Google Cloud ? Installez le connecteur BigQuery pour SAP de Google Cloud et boostez la stratégie data de votre entreprise grâce à un connecteur qui rend votre démarche plus rapide, simple et évolutive.

Gouvernance de données dans le cloud – Partie 1 – Des personnes et des processus

Wed, 09 Feb 2022 10:00:00 +0000

La gouvernance des données pour mieux gérer ses données dans le cloud, c’est ainsi que nous pourrions résumer ce nouveau billet de blog en deux parties. Celui-ci nous offre ainsi l’opportunité d’aborder non seulement le modèle opérationnel qui est indépendant des technologies - qu'elles soient sur site ou dans le cloud – mais également les processus permettant de garantir la gouvernance et, enfin, les technologies disponibles pour garantir une bonne gouvernance des données dans le cloud.

Dans cette première partie, nous souhaitons ainsi aborder le rôle de la gouvernance des données, les raisons de son importance et les processus à mettre en œuvre pour gérer un programme efficace.

Dans une seconde partie, nous nous plongerons dans les outils et les technologies disponibles pour mettre en œuvre différents processus de gouvernance des données tels que la qualité des données, la découverte des données, le suivi de l'historique et la sécurité.

Pour une approche plus approfondie et exhaustive de ce sujet, nous vous invitons à consulter notre guide Data Governance : People, Processes, and Tools to Operationalize Data Trustworthiness (Gouvernance des données : Les gens, les processus et les outils pour opérationnaliser la fiabilité des données) .

Qu'est-ce que la gouvernance des données ?

La gouvernance des données est une « fonction » de la gestion des données. D’une part, elle vise à créer de la valeur pour l'organisation en mettant en œuvre des processus pour garantir une qualité élevée des données. D’autre part, elle fournit une plateforme qui facilite le partage des données en toute sécurité dans l'organisation tout en garantissant la conformité avec les réglementations en vigueur.

Dit autrement, l'objectif principal de la gouvernance des données est à la fois de maximiser la valeur intrinsèque des données, d'instaurer la confiance des utilisateurs et de garantir la conformité en mettant en œuvre les mesures de sécurité requises.

Cette gouvernance des données doit être mise en place dès qu'une information est collectée ou générée et se prolonger jusqu'au moment où ces informations sont supprimées. Au cours de ce cycle de vie complet des données, leur gouvernance s'attache à les mettre à la disposition de toutes les parties prenantes de sorte qu’elles soient facilement accessibles, qu'elles puissent être utilisées de manière à générer les résultats business escomptés (informations, analyses) tout en se conformant aux normes réglementaires. Ces dernières sont souvent un croisement de règles et de codes de comportement émis par l'industrie (par exemple, les soins de santé), les gouvernements (par exemple, la vie privée) et l'entreprise elle-même (par exemple, pratiques non partisanes).

Pour plus de détails, cliquez ici.

Pourquoi la gouvernance des données est-elle importante ?

Au cours de la dernière décennie, la quantité de données générées par les utilisateurs depuis leurs téléphones mobiles, leurs dispositifs de santé ou de fitness et leurs appareils IOT, etc. a provoqué une croissance exponentielle des données. Dans le même temps, le cloud a facilité la collecte, le stockage et l'analyse de ces données à moindre coût. Alors que le volume de données et l'adoption du cloud continuent de croître, les organisations sont confrontées à un double défi : démocratiser et intégrer les données dans toutes les prises de décision mais aussi veiller à ce qu'elles soient sécurisées et protégées contre toute utilisation non autorisée.

Un programme efficace de gouvernance des données se révèle nécessaire pour relever ces défis d’une part en faisant en sorte que l'organisation soit centrée sur la donnée et, d'autre part, en protégeant les données contre toute utilisation non autorisée. Les organisations qui ne disposent pas d'un programme efficace de gouvernance seront à l’avenir confrontées à la fois à des violations de la conformité (entraînant des amendes), à une mauvaise qualité des données (qui se traduit par des informations de moindre qualité et donc de moindre pertinence pour le business de l’entreprise), à des difficultés pour trouver les bonnes données (ce qui retarde l'analyse et peut faire manquer des opportunités commerciales), à des modèles de données mal formés pour l'IA (ce qui réduit la précision des modèles et les avantages de l'utilisation de l'IA).

Une stratégie efficace de gouvernance des données englobe les personnes, les processus, les outils et les technologies. Elle favorise la démocratisation des données pour les intégrer dans toutes les prises de décision, renforce la confiance des utilisateurs, augmente la valeur de la marque, réduit les risques de violations de la conformité qui peuvent entraîner des amendes substantielles et des pertes d'activité.

De quoi se compose une vraie gouvernance des données ?

Les personnes et rôles dans la gouvernance des données

Un programme complet de gouvernance des données commence par la création d’un conseil de gouvernance composé de dirigeants représentant chaque unité métier de l'organisation. Ce conseil établit les grands principes directeurs régissant la façon dont les données seront utilisées pour prendre des décisions business.

En appui sur l’expertise de personnes clés de chaque métier, le conseil identifie les différents domaines de données (data domains) : par exemple client, produit, patient, fournisseur…. Puis, pour chaque domaine ainsi défini, il veille à attribuer les rôles de « propriétaires des données » (data ownership) et de « gérant des données » (data stewardship). Il s'agit de rôles fondamentaux : chaque élu est tenu responsable de - et récompensé en conséquence pour - la réalisation des objectifs fixés par le conseil de gouvernance des données. Les propriétaires et gérants des données sont désignés par les métiers. Typiquement, le propriétaire des données clients peut être issu du marketing ou des ventes, le propriétaire des données financières peut être issu du département financier et le propriétaire des données RH peut être issu du département Ressources Humaines.

La DSI joue quant à elle le rôle de gardien des données. Elle s'assure que les données sont acquises, protégées, stockées et partagées conformément aux politiques spécifiées par les propriétaires des données. En tant que dépositaire des données, la DSI ne prend pas les décisions concernant l'accès aux données ou leur partage. Son rôle se limite à gérer la technologie pour soutenir la mise en œuvre des politiques de gestion des données définies par les propriétaires des données.

Les processus de gouvernance des données

Chaque organisation doit mettre en place des processus pour atteindre les objectifs fixés par le conseil de gouvernance des données. Ces processus sont établis par les propriétaires des données et les gérants des données pour chacun de leurs domaines de données.

Les processus se focalisent sur les objectifs suivants :

1. La qualité des données. Les données doivent répondre aux normes de qualité spécifiées : par exemple, 98% d'exhaustivité, pas plus de 0,1% de valeurs en double, 99,99% de données cohérentes entre les différentes tables ou encore les critères pour mesurer une livraison dans les délais.

2. Les politiques de sécurité des données pour garantir la conformité aux politiques internes et externes.

Les données sont chiffrées au repos comme lors des transferts.
L'accès aux données est limité aux seuls utilisateurs autorisés.
Tous les champs de données sensibles sont expurgés ou chiffrés/déchiffrés dynamiquement et uniquement pour les utilisateurs autorisés.
Les données peuvent être jointes pour l'analyse sous une forme dépersonnalisée ou anonymisée, par exemple en utilisant un chiffrement déterministe ou un hachage.
Des audits sont disponibles pour tous les accès autorisés ainsi que pour les tentatives d’accès non autorisés.

3. Le partage des données avec des partenaires externes est disponible en toute sécurité via des API.

4. La conformité avec les réglementations sectorielles et géographiques spécifiques, par exemple RGPD, HIPAA, PCI DSS, CCPA, LGPD.

5. La réplication des données qui doit être minimisée

6. La découverte centralisée des données pour les utilisateurs via des catalogues de données.

7. Le traçage de l'historique des données pour identifier les problèmes de qualité des données, les sources de réplication des données et faciliter les audits.

Les technologies

La mise en œuvre des processus tels que spécifiés dans le programme de gouvernance des données nécessite l'utilisation de technologies adéquates. Qu'il s'agisse de sécuriser les données, de conserver les audits et d'en faciliter l’analyse, ou d'automatiser la surveillance et les alertes, de multiples technologies doivent être intégrées à la plateforme de gouvernance pour gérer les données durant tout leur cycle de vie.

Google Cloud propose un ensemble complet d'outils permettant aux organisations de gérer leurs données en toute sécurité et de favoriser leur démocratisation. Data Catalog permet aux utilisateurs de trouver et retrouver facilement des données à partir d'un seul endroit centralisé dans Google Cloud. Data Fusion assure le suivi du lignage afin que les propriétaires de données puissent retracer les données à chaque étape de leur cycle de vie et résoudre les problèmes susceptibles de les corrompre. Cloud Audit Logs archive les audits nécessaires à la conformité. Dataplex fournit une gestion intelligente des données, une sécurité et une gouvernance centralisées, une découverte automatique des données, une collecte des métadonnées, une gestion du cycle de vie et une qualité des données grâce à une intelligence intégrée pilotée par l'IA.

Nous aborderons plus en détail, dans la seconde partie de ce billet de blog, l'utilisation de ces outils et technologies nécessaires à la mise en œuvre d’une gouvernance des données dans le cloud.

Google classé parmi les leaders de la gestion des bases de données dans le cloud selon le Magic Quadrant du Gartner 2021

Fri, 14 Jan 2022 10:00:00 +0000

Nous sommes très fiers d’avoir été classés par Gartner, pour la seconde année consécutive, parmi les leaders des systèmes de gestion de bases de données (SGBD) en mode cloud.

Dans le cadre de ce rapport, Gartner a évalué les capacités de Google sur des cas d’usages transactionnels et analytiques. Nous sommes convaincus que ce classement salue l’innovation et les progrès que nous avons réalisés en matière de gestion de la cohérence des données, de traitement et d’ingestion à haute vitesse, de sécurité, d’élasticité ou encore d’analyse avancée.

Depuis l’annonce récente de Dataplex, les entreprises peuvent gérer, superviser et gouverner leurs données de manière centralisée, avec des contrôles cohérents, qu’elles soient situées dans des datalakes, des datawarehouses ou des datamarts. Reposant sur des technologies innovantes, des solutions telles que BigQuery ML proposent une approche globale pour réaliser des analyses avancées tandis que Analytics Hub fournit l’infrastructure nécessaire pour permettre aux utilisateurs de partager des solutions d’analyse en toute sécurité et à grande échelle. À titre d’exemple, plus de 3 000 organisations différentes ont partagé plus de 200 pétaoctets de données sur une période de sept jours en avril dernier au travers de BigQuery.

Des études montrent que 90 % des entreprises ont une stratégie multicloud. Et cette réalité ne nous a pas échappé. Avec l’introduction de BigQuery Omni, nous proposons une véritable solution d'analyse de données multicloud pour Google Cloud, AWS et Azure. Parallèlement, les progrès réalisés avec Anthos et notre Distributed Cloud au cours de l’année écoulée viennent renforcer notre capacité à servir des scénarios multicloud et hybrides.

Pour obtenir un avantage concurrentiel grâce aux données, les entreprises ont besoin d'une plateforme qui transcende les workloads transactionnels et analytiques tout offrant les meilleures garanties en termes de fiabilité, de disponibilité et de sécurité. Cloud Spanner, notre base de données relationnelle entièrement distribuée, a complètement révolutionné la capacité à monter en puissance, la cohérence globale et la disponibilité des systèmes de traitement des transactions en ligne (OLTP). Testé avec des applications particulièrement exigeantes, comme des services Google tels que Search, YouTube, Gmail, Maps et Payments, Spanner peut assimiler et réaliser plus d'un milliard de requêtes par seconde en période de pics d’activité.
Autre spécificité unique sur le marché, Spanner et BigQuery reposent sur une infrastructure commune dont notre système de fichiers distribués à très haute disponibilité (Colossus), notre système de gestion de clusters à grande échelle (Borg) et notre infrastructure de réseau haute performance (Jupiter), permettant des fonctionnalités avancées telles que la fédération entre Spanner et BigQuery. Cette innovation permet d’enrichir le panel de fonctionnalités avec, par exemple, la possibilité d’effectuer des requêtes fédérées : la fédération de BigQuery et Spanner permet par exemple à BigQuery d'interroger les données résidant dans Spanner en temps réel, sans avoir à les copier, ni à les déplacer.

Nous restons focalisés sur l'intégration de Google Trends, Maps, Search et Ads. Parallèlement, nous avons renforcé notre expertise sectorielle dans des domaines tels que le commerce de détail, les services financiers, la santé et les jeux en ligne. Nous continuons à publier des livres blancs sectoriels tels que How to develop Global Multiplayer Games using Cloud Spanner (Comment développer des jeux multi-joueurs mondiaux à l'aide de Cloud Spanner). Nous sommes également fiers du travail accompli par l'équipe pour créer et partager des modèles d'architecture sectoriels et horizontaux, élaborés par des leaders de l’industrie afin d’aider nos clients à aller plus vite dans leurs mises en œuvre.

Une dynamique d’innovation soutenue sur fond de cloud unifié et d’open data

Nous poursuivons nos efforts d’innovation sur l’ensemble de nos solutions cloud autour de la donnée, notamment avec les annonces effectuées lors de Google Cloud NEXT'21.

Ainsi, BigQuery Omni est désormais disponible pour AWS et Azure, ce qui permet aux clients d'effectuer des analyses inter-cloud.

Nous avons ajouté dans Dataplex, récemment passé en GA, des fonctionnalités supplémentaires pour la gestion et la gouvernance des données d'entreprise.

Nous avons facilité et accéléré les migrations vers Cloud SQL avec Database Migration Service (notre service de migration de bases de données). Plus de 85 % de toutes les migrations sont effectuées en moins d'une heure, la majorité des clients migrant leurs bases de données depuis d'autres clouds.

Avec une nouvelle interface PostgreSQL, Spanner fait preuve d’ouverture, ce qui permet aux entreprises de tirer parti de ses capacités à monter en charge inégalées, de sa disponibilité à 99,999 % et de sa forte cohérence tout en utilisant les compétences et les outils répandus de l’écosystème PostgreSQL.

Nous automatisons également le traitement des données avec Spark on Google Cloud, de sorte que les développeurs consacrent moins de temps à la gestion de l'infrastructure et plus de temps à la science des données, à la modélisation et à la création de valeur métier.

Enfin, nous avons annoncé Google Earth Engine on Google Cloud, qui permet aux clients d'intégrer Earth Engine à BigQuery, aux technologies ML de Google Cloud et à la plateforme Google Maps.

Grâce à ces innovations, des entreprises comme PayPal, Deutsche Bank et Equifax utilisent déjà Google Cloud pour gérer l’intégralité du cycle de vie des données de leurs différents projets.

Des organisations comme Telefónica utilisent Google Cloud pour offrir de nouvelles expériences à leurs clients: stockage, partage, analyse… Telefónica a intégralement transformé sa gestion des données tout en doublant sa puissance de traitement et en réduisant les coûts.

Parallèlement, nous continuons à soutenir un écosystème ouvert de partenaires autour de la donnée, dont Informatica, Tableau, MongoDB, Neo4j, C3.ai et Databricks. Nous évitons ainsi de les enfermer dans une approche spécifique en leur proposant un vaste éventail de choix pour leurs data clouds.

C’est pourquoi nous sommes fiers d’être classés dans les leaders Magic Quadrant Gartner 2021 pour les « Cloud Database Management Systems ». Et nous nous réjouissons d’avance à l’idée de continuer à innover pour toujours mieux vous accompagner dans votre transformation numérique.

Vous pouvez télécharger le rapport de Gartner ici : 2021 Gartner Magic Quadrant for Cloud Database Management Systems.

Si vous souhaitez en savoir davantage sur la façon dont les entreprises utilisent les solutions de Google Cloud pour construire leurs clouds de données, cliquez ici.

Ingestion des données : les grands principes de Google Cloud

Fri, 26 Nov 2021 10:00:00 +0000

Partout dans le monde, les entreprises prennent progressivement conscience des avantages à abandonner les anciennes infrastructures de données silotées au profit de datawarehouse d’entreprises dans le cloud. Parmi ces avantages, on retiendra notamment une collaboration simplifiée entre les métiers et une exploitation inédite de données avec de nouveaux enseignements à la clef.

Toutefois, la migration de ces données provenant de sources disparates vers un datawarehouse unique suppose la mise en œuvre de pipelines qui permettent d’ingérer les données et de les injecter dans le datawarehouse cloud.

Traditionnellement, les data ingénieurs s’appuyaient sur différents outils pour réaliser l’opération. Ce qui complexifiait de manière significative la gestion et la maintenance des pipelines et freinait le développement d’une stratégie d’exploitation des données efficace à l’échelle de l’entreprise. Beaucoup des défis rencontrés alors par les entreprises peuvent aujourd’hui être dépassés avec la création de pipelines nativement cloud. Toutefois, s’ils sont mal conçus, ils risquent de poser de nouveaux problèmes qui feront perdre du temps et de l’énergie à vos équipes.

Développer des pipelines cloud d’ingestion qui répliquent les données de sources éparses dans un entrepôt cloud peut demander un travail significatif et monopoliser des ressources humaines importantes. On peut rapidement être débordé par un projet aussi vaste et ce n’est jamais facile de savoir par où commencer.

C’est pourquoi nous avons défini les six principes suivants pour vous aider à mieux appréhender le processus. Ces principes ont été élaborés de façon à vous permettre de répondre aux principales questions que se posent les entreprises. Ils ont été conçus pour vous aider à mettre en place des pipelines qui répondent non seulement aux besoins métier mais aussi aux réalités techniques. Chaque section ci-dessous aborde un principe en détail et souligne certains éléments que vos équipes doivent prendre en compte quand elles commencent à développer un pipeline de données.

Principe 1 : Des objectifs clairement identifiés

Avant de développer un pipeline, vous devez clarifier vos objectifs. Il vous faudra adopter une approche holistique prenant en compte les contraintes et points de vue de chacun dans l’entreprise : équipes techniques mais aussi exigences réglementaires et politiques internes, cibles à atteindre, objectifs business, délais, ressources humaines disponibles et compétences requises sans oublier les besoins des utilisateurs des données.

Cette clarification des objectifs permet d’identifier et de définir de manière précise les contraintes et besoins des parties prenantes dès le début du projet et de vérifier pendant tout le cycle de développement que les pipelines construits répondent bien aux exigences de chacun.

Pour ce faire, vous devez définir l’objectif à atteindre pour chaque projet en partant du besoin métier exprimé par les utilisateurs finaux des données. N’oubliez pas que le pipeline n’est généralement pas l’objectif mais le moyen d’atteindre l’objectif !

« Permettre aux équipes d’avoir une meilleure connaissance des clients en leur donnant accès aux données du CRM via l’entrepôt cloud » est un meilleur exemple de définition d’objectif à atteindre qu’un simple « déplacer les données de notre CRM vers l’entrepôt cloud ». En termes de sémantique, la différence peut sembler négligeable. Mais définir l’objectif en partant des besoins métier peut aider vos équipes techniques à prendre de meilleures décisions pour répondre aux besoins réels des utilisateurs.

Une fois la problématique métier à résoudre clairement identifiée, faites en sorte de faciliter la collecte des exigences de chaque partie prenante et utilisez ces informations pour guider le développement technique et l’implémentation des pipelines d’ingestion.

Avant de développer, nous vous conseillons de réunir les membres des équipes de chaque partie prenante, utilisateurs finaux des données compris, afin de recueillir toutes les exigences qui guideront ensuite l’implémentation technique du pipeline. Parmi ces exigences à prendre en compte, on peut notamment citer les contraintes de délais et de disponibilité, la fréquence d’actualisation des données, les besoins en transformation, l’impact sur la chaine DevOps et sur la politique de sécurité ou encore les règles internes ou exigences réglementaires à respecter par le pipeline.

Principe 2 : Constituer son équipe

Second principe, assurez-vous d’avoir la bonne équipe, autrement dit que vous disposez des bonnes personnes avec les bonnes compétences aux bons endroits pour développer, déployer et maintenir vos pipelines.

Une fois les besoins déterminés pour vos pipelines, vous pouvez commencer à élaborer une synthèse de l’architecture qui sera mise en place pour les construire et les déployer. Cela vous permettra de lister les compétences dont vous aurez besoin au sein de votre équipe pour construire, déployer et gérer les pipelines de données et potentiellement d’identifier des manques à certains endroits impliquant soit le recrutement de nouveaux talents au sein de votre équipe, soit de faire appel à des prestataires.

Vous devez non seulement vous assurer que vous disposez des bonnes compétences mais également mettre en place une organisation qui permettra à chacun d’exploiter ses capacités au maximum. Dit autrement, cette organisation doit non seulement favoriser la responsabilisation de chaque équipe mais aussi faire en sorte que chacune puisse apporter son soutien aux autres en fonction des besoins.

Cette approche implique également des processus fluides, sans freins qui pourraient bloquer le développement technique. Typiquement, les équipes techniques doivent disposer de toutes les autorisations nécessaires pour déplacer les données de la source vers l’entrepôt cloud sans violer le concept de « moindre privilège ». En plus de l’accès à l’entrepôt cloud, les développeurs doivent pouvoir accéder aux sources des données (selon les besoins du pipeline et de l’architecture). À titre d’exemple, les développeurs doivent avoir les droits pour se connecter aux API « Salesforce Connected App » ou encore pour lire les champs de données de « Search Ads 360 ».

Principe 3 : Rechercher un ROI rapide

Troisième principe, créez de la valeur rapidement. Dans cette perspective, il est important de prendre en compte la charge de maintenance sur le long terme du pipeline avant de commencer à développer tout en livrant une première version aussi rapidement que possible.

Nous préconisons généralement la règle d’or suivante pour concevoir des pipelines avec des besoins en maintenance réduits : écrivez aussi peu de code que possible.

En pratique, cela signifie :

1. Privilégiez les outils proposant une interface visuelle pour gérer l’ingestion des données. Ces outils présentent l’avantage de réduire la quantité de code nécessitant une maintenance. Ils permettent également aux utilisateurs qui ne sont pas des développeurs de créer leurs pipelines de données.

Au passage, ils réduisent aussi les délais de développement des pipelines, ce qui permet non seulement de les déployer plus vite mais aussi de les faire évoluer plus rapidement.

Des solutions comme Google Data Transfer Service et Fivetran permettent à tout profil d’utilisateur de créer des pipelines pour centraliser les données à partir de sources diverses : applications SaaS, bases de données, systèmes de fichiers, etc. Nécessitant peu, voire pas de code du tout, ces outils permettent de connecter rapidement et facilement vos sources à votre entrepôt de données.
Pour les flux habituellement gérés par des spécialistes de l’ETL ou par des data engineers, des solutions comme DataFusion de Google et Dataprepr de Trifacta proposent une interface visuelle et simple à utiliser pour concevoir, gérer et superviser des pipelines avancés, réalisant des transformations complexes.

2. Lorsque les produits à base d’interfaces utilisateurs ou les connecteurs de données sont insuffisants, exploitez des modèles de code préexistants. Inutile de réinventer la roue. Typiquement, il existe de nombreux modèles pour Dataflow qui permettent aux utilisateurs d’adapter et exécuter des pipelines d’ingestion de données pour les cas d’usage les plus fréquents simplement en ajustant quelques variables. N’hésitez pas non plus à reprendre notre architecture de pipelines pour Public Datasets, publiée en open source et utilisée pour l’intégration par notre équipe Datasets.

3. Si aucune de ces options n’est suffisante, utilisez des services managés pour déployer du code pour vos pipelines. Les services managés tels que Dataflow et Dataprox éliminent la surcharge opérationnelle liée à la gestion de la configuration des pipelines. Ils assurent aussi une montée en charge automatique des instances de ces pipelines dans les limites que vous aurez préparamétrées.

Principe n°4 : Accroître la fiabilité et la transparence des données

Le quatrième principe à prendre en considération dans le développement des pipelines est d’accroître la confiance dans les données et améliorer la transparence.

L’exploitation de nombreux pipelines d'ingestion de données – chacun utilisant différents outils ou étant élaborés hors d'un plan de gestion coordonné – peut rapidement engendrer un tsunami technologique : la surcharge de gestion des pipelines d'ingestion de données enfle à mesure que la quantité de pipelines de données augmente. Cela devient particulièrement lourd si vous êtes soumis à des accords de niveau de service, ou à des contraintes juridiques, réglementaires ou politiques dans la supervision des pipelines de données.

Prévenir un tel tsunami technologique est, de loin, la meilleure stratégie pour y faire face. Il faut pour cela développer des processus de gestion rationalisée des pipelines qui automatisent le reporting.

En théorie, construire tous vos pipelines de données à l'aide d'un seul et même produit cloud contribue à limiter le phénomène. Pourtant, nous ne recommandons pas une telle approche car elle vous empêche de profiter des fonctionnalités et des optimisations de coûts intrinsèquement liées au choix du produit le mieux adapté à votre cas d’usage.

Typiquement, un service de surveillance tel que Google Cloud Monitoring Service ou Splunk - qui automatise les mesures, les événements et la collecte de métadonnées à partir de divers produits, y compris ceux hébergés dans des environnements informatiques sur site et hybrides - peut vous aider à centraliser la surveillance et le reporting de vos pipelines de données.

Autre exemple, un outil de gestion des métadonnées tel que le catalogue de données de Google Cloud ou l’Enterprise Data Catalog d’Informatica peut vous aider à mieux communiquer les nuances de vos données afin que les utilisateurs comprennent mieux quelles ressources de données sont les mieux adaptées à un cas d’utilisation donné. Cela simplifie la gouvernance des pipelines tout en éliminant les processus de rapports manuels qui entraînent souvent des inexactitudes ou des retards de mises à jour.

Principe 5 : Gérer les coûts

Cinquième principe, la gestion des coûts doit non seulement prendre en compte les dépenses en ressources cloud mais également les coûts humains pour concevoir, développer, déployer et assurer la maintenance de ces ressources cloud.

Nous sommes convaincus que l’objectif ne doit pas être de minimiser les coûts à tout prix mais plutôt de maximiser la valeur de l’investissement. En d’autres termes, vous devez maximiser l’impact de chaque euro dépensé en réduisant au minimum le gaspillage des ressources cloud et humaines.

Dans cette perspective, plusieurs facteurs sont à prendre en compte :

Utiliser un outil adapté à la tâche - Chaque pipeline a ses exigences en termes de latence, de disponibilité, de transformations, etc. Il en va de même pour les outils qui concrétisent ces pipelines : chacun a ses forces et ses faiblesses. En choisissant l’outil adapté aux spécificités de chaque pipeline, ces derniers fonctionneront bien mieux. Vous pouvez ainsi réduire le coût global de votre projet, libérer du temps homme pour permettre à vos équipes de se concentrer sur des projets présentant plus de valeur ajoutée et rendre vos pipelines beaucoup plus efficaces.
Standardiser l’étiquetage des ressources – Construisez et utilisez un schéma d’étiquetage cohérent et commun à l’ensemble des outils et plateformes afin d’obtenir une vision aussi complète que possible de vos dépenses. Par exemple, assurez-vous que toutes les ressources soient étiquetées par l’équipe chargée de gérer les coûts ou par l’équipe en charge du projet. Un étiquetage cohérent favorise une meilleure supervision des dépenses réalisées par les différentes équipes et permet de mieux calculer la valeur globale des investissements dans le cloud.
Implémenter des contrôles de coûts – Si la fonction est disponible, utilisez les contrôles de coûts pour anticiper les erreurs pouvant entraîner des factures trop importantes.
Capturer les dépenses cloud – Assurez-vous de bien capturer toutes vos dépenses liées à l’utilisation de ressources clouds. Centralisez-les dans un entrepôt de données cloud et utilisez un outil de dataviz pour les analyser. Autrement, vous ne serez ni en mesure de comprendre les changements qui interviennent dans vos dépenses et ce qui a pu les provoquer, ni de faire le lien avec les activités métier.
Responsabiliser tout le monde sur la gestion des coûts – La gestion des coûts est l’affaire de tous les collaborateurs susceptibles de créer ou utiliser des ressources cloud. Dans cette perspective, nous vous conseillons de rendre le reporting sur les dépenses cloud plus transparent en interne et/ou de refacturer les coûts en interne en fonction de l’utilisation.

La granularité sans cesse croissante du reporting proposé par Google Cloud sur les dépenses devrait vous permettre de mieux suivre vos indicateurs clés de performance sur le long terme. Vous pouvez passer d’un reporting axé sur les dépenses (Exemple : nous avons dépensé X € en stockage Big Query le mois dernier) à des rapports basés sur la valeur (Exemple : Cela nous a coûté X € pour servir les demandes de clients qui nous ont rapporté X €).

Pour en savoir plus sur la gestion des coûts, consultez notre livre blanc "Understanding the principles of cost optimization" (Comprendre les principes de l’optimisation des coûts).

Principe 6 : Exploiter l’innovation continue des services cloud

Pour notre sixième principe, nous vous conseillons de tirer avantage de l’amélioration continue des services cloud. Tant du point de vue de la stabilité que de leurs performances, les services ne cessent de progresser et ce, même si les utilisateurs ne s’en rendent pas toujours compte. Ces améliorations peuvent favoriser un fonctionnement plus efficace de vos pipelines dans la durée et contribuer à la réduction des coûts.

Pour tirer avantage de ces améliorations, vous pouvez :

Automatiser à la fois l’exécution des pipelines et leur maintenance : Les pipelines de données peuvent être automatisés mais presque tous les composants de la chaine de gestion peuvent l’être aussi : pipeline/data lineage, supervision, gestion des coûts, planification, gestion des accès…. En automatisant, vous pouvez réduire les coûts opérationnels sur le long terme de chaque pipeline et ainsi augmenter de façon significative la proposition de valeur. Avec l’automatisation, on évite aussi les configurations manuelles qui ne permettraient pas par la suite de profiter des améliorations apportées aux services cloud.
Privilégier la simplicité des pipelines dès que c’est possible : Relativement facile à développer à l’aide de services managés ou d’outils ne nécessitant pas de code (outils Low Code/No Code), les pipelines d’ingestion nécessitent toutefois d’être maintenus aussi longtemps qu’ils sont utilisés. Les plus faciles à maintenir dans la durée sont généralement ceux qui privilégient la simplicité et qui tirent avantage des optimisations opérées par les fonctionnalités d’automatisation. Toute transformation au sein d’un pipeline d’ingestion de données est une forme d’optimisation manuelle que vous risquez par la suite d’avoir du mal à adapter ou à modifier lorsque les services sous-jacents évolueront. Vous pouvez éviter ces modifications manuelles en construisant des pipelines ELT (extract, load, transform) plutôt que des pipelines ETL (extract, transform, load). En basculant les traitements de transformation des données sur le moteur de l’entrepôt cloud, qui est spécialement optimisé pour ce genre de tâche, vous évitez les optimisations manuelles du pipeline.

Prochaines étapes

N’hésitez pas à consulter notre livre blanc Build a modern, unified analytics data platform (Construire une plateforme analytique unifiée et moderne) si vous souhaitez approfondir vos connaissances sur le développement d’une plateforme data dans le cloud. Vous pouvez également consulter notre site sur l’intégration des données pour obtenir des informations complémentaires et différentes approches pour bien débuter votre projet d’intégration des données.

Et, quand vous serez prêts à construire vos premiers pipelines d’ingestion de données, consultez nos pages sur Cloud Data Fusion et sur Fivetran pour savoir comment ces outils peuvent vous aider à respecter ces principes.