جلد کتاب ساخت برنامه‌های داده مدرن با استفاده از Databricks Lakehouse

عنوان:

Building Modern Data Applications Using Databricks Lakehouse

نویسنده:

Will Girten

انتشارات:

Packt Publishing

تاریخ انتشار:

2024

حجم:

9.43MB

دانلود

معرفی کتاب: "ساخت برنامه‌های داده مدرن با استفاده از Databricks Lakehouse"

ویژگی‌های کلیدی

  • یادگیری نحوه کار با داده‌های زمان واقعی با استفاده از Delta Live Tables
  • کشف بینش‌هایی درباره عملکرد پایپ‌لاین‌های داده با استفاده از Delta Live Tables
  • استفاده از دانش خود برای مدیریت امنیت داده و حکمرانی با Unity Catalog

توضیحات کتاب

با وجود ابزارهای مختلفی که در پشته توسعه مهندسی داده امروز وجود دارد و پیچیدگی‌های عملیاتی آن‌ها، بسیاری از مهندسان داده احساس سردرگمی می‌کنند و زمان بیشتری را صرف نگهداری پایپ‌لاین‌های داده پیچیده می‌کنند تا استخراج ارزش از داده‌ها. این کتاب، که توسط یک متخصص راه‌حل‌های ارشد در Databricks با بیش از 10 سال تجربه در داده‌ها و هوش مصنوعی نوشته شده است، نشان می‌دهد که چگونه چارچوب Delta Live Tables توسعه پایپ‌لاین‌های داده را ساده می‌کند و به شما این امکان را می‌دهد که بیشتر بر تعریف منابع ورودی داده‌ها، منطق تبدیل داده‌ها و مقصد جداول خروجی تمرکز کنید.

این کتاب یک نمای کلی از فرمت Delta Lake، پلتفرم هوش داده Databricks و چارچوب Delta Live Tables ارائه می‌دهد. به شما می‌آموزد که چگونه تبدیل داده‌ها را با پیاده‌سازی معماری Medallion Databricks انجام دهید و به‌طور مداوم کیفیت داده‌های پایپ‌لاین‌های خود را نظارت کنید. شما یاد خواهید گرفت که چگونه داده‌های ورودی را با استفاده از ویژگی Auto Loader در Databricks مدیریت کرده و پردازش داده‌های زمان واقعی را با استفاده از کارهای Databricks خودکار کنید. همچنین یاد می‌گیرید که چگونه به‌طور خودکار از خطاهای زمان اجرا بازیابی کنید.

با پایان این کتاب، شما قادر خواهید بود که یک پایپ‌لاین داده زمان واقعی از ابتدا با استفاده از Delta Live Tables بسازید، از ابزارهای CI/CD برای استقرار خودکار تغییرات پایپ‌لاین داده‌ها در محیط‌های استقرار استفاده کنید و هزینه‌های ابری را نظارت، کنترل و بهینه‌سازی کنید.

آنچه خواهید آموخت

  • استقرار پایپ‌لاین‌های داده زمان واقعی در Databricks با استفاده از Delta Live Tables
  • هماهنگ‌سازی پایپ‌لاین‌های داده با استفاده از کارهای Databricks
  • پیاده‌سازی سیاست‌های اعتبارسنجی داده‌ها و نظارت/قرنطینه‌سازی داده‌های خراب
  • اعمال ابعاد به تدریج تغییرپذیر (SCD)، نوع 1 و 2، بر روی جداول Lakehouse
  • تأمین دسترسی به داده‌ها در میان گروه‌ها و کاربران مختلف با استفاده از Unity Catalog
  • خودکارسازی استقرار مداوم پایپ‌لاین‌های داده با ادغام Git با ابزارهای ساخت مانند Terraform و Databricks Asset Bundles

مخاطب این کتاب

این کتاب برای مهندسان داده است که به دنبال ساده‌سازی کارهای واردات داده، تبدیل داده و هماهنگ‌سازی هستند. تحلیل‌گران داده که مسئول مدیریت و پردازش داده‌های Lakehouse برای تحلیل، گزارش‌گیری و تصویرسازی هستند نیز از این کتاب بهره‌مند خواهند شد. علاوه بر این، مهندسان DataOps/DevOps این کتاب را برای خودکارسازی آزمایش و استقرار پایپ‌لاین‌های داده، بهینه‌سازی وظایف جداول و ردیابی زنجیره داده‌ها در داخل Lakehouse مفید خواهند یافت. آشنایی ابتدایی با Apache Spark و Python برای بهره‌برداری کامل از این کتاب نیاز است.

فهرست مطالب

  • Cover
  • Title Page
  • Copyright and Credits
  • Dedication
  • Contributors
  • Table of Contents
  • Preface
  • Part 1: Near-Real-Time Data Pipelines for the Lakehouse
  • Chapter 1: An Introduction to Delta Live Tables
  • Technical requirements
  • The emergence of the lakehouse
  • The maintenance predicament of a streaming application
  • What is the DLT framework?
  • How is DLT related to Delta Lake?
  • Introducing DLT concepts
  • A quick Delta Lake primer
  • A hands-on example – creating your first Delta Live Tables pipeline
  • Summary
  • Chapter 2: Applying Data Transformations Using Delta Live Tables
  • Technical requirements
  • Ingesting data from input sources
  • Applying changes to downstream tables
  • Publishing datasets to Unity Catalog
  • Data pipeline settings
  • Hands-on exercise – applying SCD Type 2 changes
  • Summary
  • Chapter 3: Managing Data Quality Using Delta Live Tables
  • Technical requirements
  • Defining data constraints in Delta Lake
  • Using temporary datasets to validate data processing
  • An introduction to expectations
  • Decoupling expectations from a DLT pipeline
  • Hands-on exercise – quarantining bad data for correction
  • Summary
  • Chapter 4: Scaling DLT Pipelines
  • Technical requirements
  • Scaling compute to handle demand
  • Hands-on example – setting autoscaling properties using the Databricks REST API
  • Automated table maintenance tasks
  • Optimizing table layouts for faster table updates
  • Serverless DLT pipelines
  • Introducing Enzyme, a performance optimization layer
  • Summary
  • Part 2: Securing the Lakehouse Using the Unity Catalog
  • Chapter 5: Mastering Data Governance in the Lakehouse with Unity Catalog
  • Technical requirements
  • Understanding data governance in a lakehouse
  • Enabling Unity Catalog on an existing Databricks workspace
  • Identity federation in Unity Catalog
  • Data discovery and cataloging
  • Hands-on example – data masking healthcare datasets
  • Summary
  • Chapter 6: Managing Data Locations in Unity Catalog
  • Technical requirements
  • Creating and managing data catalogs in Unity Catalog
  • Setting default locations for data within Unity Catalog
  • Isolating catalogs to specific workspaces
  • Creating and managing external storage locations in Unity Catalog
  • Hands-on lab – extracting document text for a generative AI pipeline
  • Summary
  • Chapter 7: Viewing Data Lineage Using Unity Catalog
  • Technical requirements
  • Introducing data lineage in Unity Catalog
  • Tracing data origins using the Data Lineage REST API
  • Visualizing upstream and downstream transformations
  • Identifying dependencies and impacts
  • Hands-on lab – documenting data lineage across an organization
  • Summary
  • Part 3: Continuous Integration, Continuous Deployment, and Continuous Monitoring
  • Chapter 8: Deploying, Maintaining, and Administrating DLT Pipelines Using Terraform
  • Technical requirements
  • Introducing the Databricks provider for Terraform
  • Setting up a local Terraform environment
  • Configuring DLT pipelines using Terraform
  • Automating DLT pipeline deployment
  • Hands-on exercise – deploying a DLT pipeline using VS Code
  • Summary
  • Chapter 9: Leveraging Databricks Asset Bundles to Streamline Data Pipeline Deployment
  • Technical requirements
  • Introduction to Databricks Asset Bundles
  • Databricks Asset Bundles in action
  • Hands-on exercise – deploying your first DAB
  • Hands-on exercise – simplifying cross-team collaboration with GitHub Actions
  • Versioning and maintenance
  • Summary
  • Chapter 10: Monitoring Data Pipelines in Production
  • Technical requirements
  • Introduction to data pipeline monitoring
  • Pipeline health and performance monitoring
  • Hands-on exercise – querying data quality events for a dataset
  • Data quality monitoring
  • Best practices for production failure resolution
  • Hands-on exercise – setting up a webhook alert when a job runs longer than expected
  • Summary
  • Index
  • About Packt
  • Other Books You May Enjoy

مشخصات

نام کتاب

Building Modern Data Applications Using Databricks Lakehouse Edition: 1

نویسنده

Will Girten

انتشارات

Packt Publishing

تاریخ انتشار

2024

ISBN

9781801073233

تعداد صفحات

246

زبان

انگلیسی

فرمت

pdf

حجم

9.43MB

موضوع

Databricks, Lakehouse Architecture, Data Engineering, Big Data Analytics