دانلود رایگان کتاب Building Modern Data Applications Using Databricks Lakehouse در آی‌تی بوک

جلد کتاب ساخت برنامه‌های داده مدرن با استفاده از Databricks Lakehouse

عنوان:

Building Modern Data Applications Using Databricks Lakehouse

نویسنده:

Will Girten

انتشارات:

Packt Publishing

تاریخ انتشار:

2024

حجم:

9.43MB

دانلود

معرفی فهرست مشخصات

معرفی کتاب: "ساخت برنامه‌های داده مدرن با استفاده از Databricks Lakehouse"

ویژگی‌های کلیدی

یادگیری نحوه کار با داده‌های زمان واقعی با استفاده از Delta Live Tables
کشف بینش‌هایی درباره عملکرد پایپ‌لاین‌های داده با استفاده از Delta Live Tables
استفاده از دانش خود برای مدیریت امنیت داده و حکمرانی با Unity Catalog

توضیحات کتاب

با وجود ابزارهای مختلفی که در پشته توسعه مهندسی داده امروز وجود دارد و پیچیدگی‌های عملیاتی آن‌ها، بسیاری از مهندسان داده احساس سردرگمی می‌کنند و زمان بیشتری را صرف نگهداری پایپ‌لاین‌های داده پیچیده می‌کنند تا استخراج ارزش از داده‌ها. این کتاب، که توسط یک متخصص راه‌حل‌های ارشد در Databricks با بیش از 10 سال تجربه در داده‌ها و هوش مصنوعی نوشته شده است، نشان می‌دهد که چگونه چارچوب Delta Live Tables توسعه پایپ‌لاین‌های داده را ساده می‌کند و به شما این امکان را می‌دهد که بیشتر بر تعریف منابع ورودی داده‌ها، منطق تبدیل داده‌ها و مقصد جداول خروجی تمرکز کنید.

این کتاب یک نمای کلی از فرمت Delta Lake، پلتفرم هوش داده Databricks و چارچوب Delta Live Tables ارائه می‌دهد. به شما می‌آموزد که چگونه تبدیل داده‌ها را با پیاده‌سازی معماری Medallion Databricks انجام دهید و به‌طور مداوم کیفیت داده‌های پایپ‌لاین‌های خود را نظارت کنید. شما یاد خواهید گرفت که چگونه داده‌های ورودی را با استفاده از ویژگی Auto Loader در Databricks مدیریت کرده و پردازش داده‌های زمان واقعی را با استفاده از کارهای Databricks خودکار کنید. همچنین یاد می‌گیرید که چگونه به‌طور خودکار از خطاهای زمان اجرا بازیابی کنید.

با پایان این کتاب، شما قادر خواهید بود که یک پایپ‌لاین داده زمان واقعی از ابتدا با استفاده از Delta Live Tables بسازید، از ابزارهای CI/CD برای استقرار خودکار تغییرات پایپ‌لاین داده‌ها در محیط‌های استقرار استفاده کنید و هزینه‌های ابری را نظارت، کنترل و بهینه‌سازی کنید.

آنچه خواهید آموخت

استقرار پایپ‌لاین‌های داده زمان واقعی در Databricks با استفاده از Delta Live Tables
هماهنگ‌سازی پایپ‌لاین‌های داده با استفاده از کارهای Databricks
پیاده‌سازی سیاست‌های اعتبارسنجی داده‌ها و نظارت/قرنطینه‌سازی داده‌های خراب
اعمال ابعاد به تدریج تغییرپذیر (SCD)، نوع 1 و 2، بر روی جداول Lakehouse
تأمین دسترسی به داده‌ها در میان گروه‌ها و کاربران مختلف با استفاده از Unity Catalog
خودکارسازی استقرار مداوم پایپ‌لاین‌های داده با ادغام Git با ابزارهای ساخت مانند Terraform و Databricks Asset Bundles

مخاطب این کتاب

این کتاب برای مهندسان داده است که به دنبال ساده‌سازی کارهای واردات داده، تبدیل داده و هماهنگ‌سازی هستند. تحلیل‌گران داده که مسئول مدیریت و پردازش داده‌های Lakehouse برای تحلیل، گزارش‌گیری و تصویرسازی هستند نیز از این کتاب بهره‌مند خواهند شد. علاوه بر این، مهندسان DataOps/DevOps این کتاب را برای خودکارسازی آزمایش و استقرار پایپ‌لاین‌های داده، بهینه‌سازی وظایف جداول و ردیابی زنجیره داده‌ها در داخل Lakehouse مفید خواهند یافت. آشنایی ابتدایی با Apache Spark و Python برای بهره‌برداری کامل از این کتاب نیاز است.

فهرست مطالب

Cover
Title Page
Copyright and Credits
Dedication
Contributors
Table of Contents
Preface
Part 1: Near-Real-Time Data Pipelines for the Lakehouse
Chapter 1: An Introduction to Delta Live Tables
Technical requirements
The emergence of the lakehouse
The maintenance predicament of a streaming application
What is the DLT framework?
How is DLT related to Delta Lake?
Introducing DLT concepts
A quick Delta Lake primer
A hands-on example – creating your first Delta Live Tables pipeline
Summary
Chapter 2: Applying Data Transformations Using Delta Live Tables
Technical requirements
Ingesting data from input sources
Applying changes to downstream tables
Publishing datasets to Unity Catalog
Data pipeline settings
Hands-on exercise – applying SCD Type 2 changes
Summary
Chapter 3: Managing Data Quality Using Delta Live Tables
Technical requirements
Defining data constraints in Delta Lake
Using temporary datasets to validate data processing
An introduction to expectations
Decoupling expectations from a DLT pipeline
Hands-on exercise – quarantining bad data for correction
Summary
Chapter 4: Scaling DLT Pipelines
Technical requirements
Scaling compute to handle demand
Hands-on example – setting autoscaling properties using the Databricks REST API
Automated table maintenance tasks
Optimizing table layouts for faster table updates
Serverless DLT pipelines
Introducing Enzyme, a performance optimization layer
Summary
Part 2: Securing the Lakehouse Using the Unity Catalog
Chapter 5: Mastering Data Governance in the Lakehouse with Unity Catalog
Technical requirements
Understanding data governance in a lakehouse
Enabling Unity Catalog on an existing Databricks workspace
Identity federation in Unity Catalog
Data discovery and cataloging
Hands-on example – data masking healthcare datasets
Summary
Chapter 6: Managing Data Locations in Unity Catalog
Technical requirements
Creating and managing data catalogs in Unity Catalog
Setting default locations for data within Unity Catalog
Isolating catalogs to specific workspaces
Creating and managing external storage locations in Unity Catalog
Hands-on lab – extracting document text for a generative AI pipeline
Summary
Chapter 7: Viewing Data Lineage Using Unity Catalog
Technical requirements
Introducing data lineage in Unity Catalog
Tracing data origins using the Data Lineage REST API
Visualizing upstream and downstream transformations
Identifying dependencies and impacts
Hands-on lab – documenting data lineage across an organization
Summary
Part 3: Continuous Integration, Continuous Deployment, and Continuous Monitoring
Chapter 8: Deploying, Maintaining, and Administrating DLT Pipelines Using Terraform
Technical requirements
Introducing the Databricks provider for Terraform
Setting up a local Terraform environment
Configuring DLT pipelines using Terraform
Automating DLT pipeline deployment
Hands-on exercise – deploying a DLT pipeline using VS Code
Summary
Chapter 9: Leveraging Databricks Asset Bundles to Streamline Data Pipeline Deployment
Technical requirements
Introduction to Databricks Asset Bundles
Databricks Asset Bundles in action
Hands-on exercise – deploying your first DAB
Hands-on exercise – simplifying cross-team collaboration with GitHub Actions
Versioning and maintenance
Summary
Chapter 10: Monitoring Data Pipelines in Production
Technical requirements
Introduction to data pipeline monitoring
Pipeline health and performance monitoring
Hands-on exercise – querying data quality events for a dataset
Data quality monitoring
Best practices for production failure resolution
Hands-on exercise – setting up a webhook alert when a job runs longer than expected
Summary
Index
About Packt
Other Books You May Enjoy

مشخصات

نام کتاب

Building Modern Data Applications Using Databricks Lakehouse Edition: 1

نویسنده

Will Girten

انتشارات