banner

Blog

Jun 28, 2023

Apache Iceberg change tout : qu'y a-t-il en dessous ?

Le format de table Apache Iceberg open source et hautes performances a définitivement transformé l'utilisation des lacs de données et l'analyse des données, rendant les entrepôts de données traditionnels moins attrayants, observe Jason Hughes de Dremio.

Au milieu de volumes de données toujours croissants, ce n’est un secret pour personne que les entreprises ont du mal à tirer immédiatement parti de ces donnéesOuvre une nouvelle fenêtre – tout en essayant simultanément de mettre en place des systèmes capables de répondre à leurs utilisations futures. Ce qui se profile à l’horizon peut être difficile à prédire. Les plateformes de données doivent répondre à ce double besoin, et la technologie de base oriente leur évolution dans ce sens. Apache Iceberg Open Source, un format hautes performances pour les tableaux analytiques, change la façon dont les entreprises accèdent aux données et les exploitent, apportant une flexibilité fondamentale à l'analyse des données.

Iceberg permet des performances d'entreposage de données sans entrave pour le lac de données, car les entrepôts de données traditionnels sont devenus plus un albatros qu'un canot de sauvetage pour les entreprises à la recherche d'analyses rentables. Issu de l'ingénierie de Netflix, leur permettant de traiter Amazon S3 comme entrepôt de données, Iceberg est un projet open source prêt à la production utilisé depuis longtemps pour piloter l'analyse de données dans des entreprises comme Netflix, Adobe, Apple et bien d'autres. En plus de sa capacité de production éprouvée, ses API garantissent également la compatibilité, mais sa version 1.0 à la fin de l'année dernière a consacré cette compatibilité comme garantie et a renforcé son statut pour l'entreposage de données de production et les cas d'utilisation de la science des données. Iceberg a connu une croissance fulgurante, avec 1 559 pull request fusionnés au cours des 12 derniers mois, et le développement du logiciel via Apache Software Foundation est actuellement pris en charge par Amazon, Snowflake, Google, Tabular et Dremio, entre autres.

Un format de table, comme Iceberg, est un composant essentiel des nouvelles architectures Lakehouse qui permettent aux charges de travail analytiques d'exécuter des requêtes sur de vastes volumes de données sur des magasins d'objets cloud comme S3 et ADLS. Les tables Iceberg facilitent les opérations DML (Data Manipulation Language) directement sur ces magasins d'objets cloud. Ils peuvent être optimisés de différentes manières, par exemple avec le partitionnement, le tri et les index, pour permettre une organisation et un traitement efficaces des données à grande échelle. Dans le même temps, les utilisateurs bénéficient d'une expérience simple car ils n'ont pas besoin de connaître les détails sous-jacents d'une table pour profiter des avantages en termes de performances.

La montée en puissance d'Iceberg en tant que norme de format de table ouverte derrière les Lakehouses a modifié la signification de la création et de l'exploitation d'une infrastructure de données moderne. En fin de compte, cette nouvelle approche fera sombrer les entrepôts de données qui nécessitent un mouvement constant de données et qui génèrent de multiples copies de données, enfermant les entreprises dans des solutions propriétaires, souvent coûteuses. Si vous disposez de deux solutions, toutes deux capables de prendre en charge des charges de travail équivalentes, mais que l'une est fermée et l'autre ouverte et moins coûteuse du point de vue du temps, des ressources et des licences, l'histoire technologique a généralement montré que cette dernière l'emportait.

En savoir plus : Guide du leader pour améliorer la visualisation des données et la conception des tableaux de bord

Pendant des décennies, les entrepôts de données ont joué un rôle déterminant pour interroger de grandes quantités de données structurées historiques provenant de diverses sources et pour permettre aux charges de travail analytiques de s'exécuter rapidement. Ils ont proposé des politiques de gouvernance des données efficaces pour garantir la disponibilité, la convivialité et la sécurité des données. Ils ont offert les capacités technologiques nécessaires pour mettre en œuvre les meilleures pratiques telles que les dimensions à évolution lente et la gestion des données de référence. Mais les données d'un entrepôt sont l'otage d'un système spécifique au fournisseur que seul le moteur de calcul de l'entrepôt peut utiliser. Le stockage et/ou le calcul dans ces systèmes sont coûteux (généralement l'un, sinon les deux), et ce coût se traduit par un choix difficile pour les organisations : exécuter toutes les charges de travail dont l'entreprise a besoin à un coût élevé, ou ne pas exécuter toutes les charges de travail dont l'entreprise a besoin. besoins des entreprises à moindre coût. Les entrepôts de données empêchent également les organisations d’exécuter les charges de travail d’apprentissage automatique dont elles ont besoin, et elles ne peuvent pas gérer correctement, voire pas du tout, les charges de travail de données semi-structurées et non structurées, ce qui devient une attente sur le marché.

PARTAGER