
عنوان:
Building Modern Data Applications Using Databricks Lakehouse
نویسنده:
Will Girten
انتشارات:
Packt Publishing
تاریخ انتشار:
2024
حجم:
9.43MB
معرفی کتاب: "ساخت برنامههای داده مدرن با استفاده از Databricks Lakehouse"
ویژگیهای کلیدی
- یادگیری نحوه کار با دادههای زمان واقعی با استفاده از Delta Live Tables
- کشف بینشهایی درباره عملکرد پایپلاینهای داده با استفاده از Delta Live Tables
- استفاده از دانش خود برای مدیریت امنیت داده و حکمرانی با Unity Catalog
توضیحات کتاب
با وجود ابزارهای مختلفی که در پشته توسعه مهندسی داده امروز وجود دارد و پیچیدگیهای عملیاتی آنها، بسیاری از مهندسان داده احساس سردرگمی میکنند و زمان بیشتری را صرف نگهداری پایپلاینهای داده پیچیده میکنند تا استخراج ارزش از دادهها. این کتاب، که توسط یک متخصص راهحلهای ارشد در Databricks با بیش از 10 سال تجربه در دادهها و هوش مصنوعی نوشته شده است، نشان میدهد که چگونه چارچوب Delta Live Tables توسعه پایپلاینهای داده را ساده میکند و به شما این امکان را میدهد که بیشتر بر تعریف منابع ورودی دادهها، منطق تبدیل دادهها و مقصد جداول خروجی تمرکز کنید.
این کتاب یک نمای کلی از فرمت Delta Lake، پلتفرم هوش داده Databricks و چارچوب Delta Live Tables ارائه میدهد. به شما میآموزد که چگونه تبدیل دادهها را با پیادهسازی معماری Medallion Databricks انجام دهید و بهطور مداوم کیفیت دادههای پایپلاینهای خود را نظارت کنید. شما یاد خواهید گرفت که چگونه دادههای ورودی را با استفاده از ویژگی Auto Loader در Databricks مدیریت کرده و پردازش دادههای زمان واقعی را با استفاده از کارهای Databricks خودکار کنید. همچنین یاد میگیرید که چگونه بهطور خودکار از خطاهای زمان اجرا بازیابی کنید.
با پایان این کتاب، شما قادر خواهید بود که یک پایپلاین داده زمان واقعی از ابتدا با استفاده از Delta Live Tables بسازید، از ابزارهای CI/CD برای استقرار خودکار تغییرات پایپلاین دادهها در محیطهای استقرار استفاده کنید و هزینههای ابری را نظارت، کنترل و بهینهسازی کنید.
آنچه خواهید آموخت
- استقرار پایپلاینهای داده زمان واقعی در Databricks با استفاده از Delta Live Tables
- هماهنگسازی پایپلاینهای داده با استفاده از کارهای Databricks
- پیادهسازی سیاستهای اعتبارسنجی دادهها و نظارت/قرنطینهسازی دادههای خراب
- اعمال ابعاد به تدریج تغییرپذیر (SCD)، نوع 1 و 2، بر روی جداول Lakehouse
- تأمین دسترسی به دادهها در میان گروهها و کاربران مختلف با استفاده از Unity Catalog
- خودکارسازی استقرار مداوم پایپلاینهای داده با ادغام Git با ابزارهای ساخت مانند Terraform و Databricks Asset Bundles
مخاطب این کتاب
این کتاب برای مهندسان داده است که به دنبال سادهسازی کارهای واردات داده، تبدیل داده و هماهنگسازی هستند. تحلیلگران داده که مسئول مدیریت و پردازش دادههای Lakehouse برای تحلیل، گزارشگیری و تصویرسازی هستند نیز از این کتاب بهرهمند خواهند شد. علاوه بر این، مهندسان DataOps/DevOps این کتاب را برای خودکارسازی آزمایش و استقرار پایپلاینهای داده، بهینهسازی وظایف جداول و ردیابی زنجیره دادهها در داخل Lakehouse مفید خواهند یافت. آشنایی ابتدایی با Apache Spark و Python برای بهرهبرداری کامل از این کتاب نیاز است.
فهرست مطالب
- Cover
- Title Page
- Copyright and Credits
- Dedication
- Contributors
- Table of Contents
- Preface
- Part 1: Near-Real-Time Data Pipelines for the Lakehouse
- Chapter 1: An Introduction to Delta Live Tables
- Technical requirements
- The emergence of the lakehouse
- The maintenance predicament of a streaming application
- What is the DLT framework?
- How is DLT related to Delta Lake?
- Introducing DLT concepts
- A quick Delta Lake primer
- A hands-on example – creating your first Delta Live Tables pipeline
- Summary
- Chapter 2: Applying Data Transformations Using Delta Live Tables
- Technical requirements
- Ingesting data from input sources
- Applying changes to downstream tables
- Publishing datasets to Unity Catalog
- Data pipeline settings
- Hands-on exercise – applying SCD Type 2 changes
- Summary
- Chapter 3: Managing Data Quality Using Delta Live Tables
- Technical requirements
- Defining data constraints in Delta Lake
- Using temporary datasets to validate data processing
- An introduction to expectations
- Decoupling expectations from a DLT pipeline
- Hands-on exercise – quarantining bad data for correction
- Summary
- Chapter 4: Scaling DLT Pipelines
- Technical requirements
- Scaling compute to handle demand
- Hands-on example – setting autoscaling properties using the Databricks REST API
- Automated table maintenance tasks
- Optimizing table layouts for faster table updates
- Serverless DLT pipelines
- Introducing Enzyme, a performance optimization layer
- Summary
- Part 2: Securing the Lakehouse Using the Unity Catalog
- Chapter 5: Mastering Data Governance in the Lakehouse with Unity Catalog
- Technical requirements
- Understanding data governance in a lakehouse
- Enabling Unity Catalog on an existing Databricks workspace
- Identity federation in Unity Catalog
- Data discovery and cataloging
- Hands-on example – data masking healthcare datasets
- Summary
- Chapter 6: Managing Data Locations in Unity Catalog
- Technical requirements
- Creating and managing data catalogs in Unity Catalog
- Setting default locations for data within Unity Catalog
- Isolating catalogs to specific workspaces
- Creating and managing external storage locations in Unity Catalog
- Hands-on lab – extracting document text for a generative AI pipeline
- Summary
- Chapter 7: Viewing Data Lineage Using Unity Catalog
- Technical requirements
- Introducing data lineage in Unity Catalog
- Tracing data origins using the Data Lineage REST API
- Visualizing upstream and downstream transformations
- Identifying dependencies and impacts
- Hands-on lab – documenting data lineage across an organization
- Summary
- Part 3: Continuous Integration, Continuous Deployment, and Continuous Monitoring
- Chapter 8: Deploying, Maintaining, and Administrating DLT Pipelines Using Terraform
- Technical requirements
- Introducing the Databricks provider for Terraform
- Setting up a local Terraform environment
- Configuring DLT pipelines using Terraform
- Automating DLT pipeline deployment
- Hands-on exercise – deploying a DLT pipeline using VS Code
- Summary
- Chapter 9: Leveraging Databricks Asset Bundles to Streamline Data Pipeline Deployment
- Technical requirements
- Introduction to Databricks Asset Bundles
- Databricks Asset Bundles in action
- Hands-on exercise – deploying your first DAB
- Hands-on exercise – simplifying cross-team collaboration with GitHub Actions
- Versioning and maintenance
- Summary
- Chapter 10: Monitoring Data Pipelines in Production
- Technical requirements
- Introduction to data pipeline monitoring
- Pipeline health and performance monitoring
- Hands-on exercise – querying data quality events for a dataset
- Data quality monitoring
- Best practices for production failure resolution
- Hands-on exercise – setting up a webhook alert when a job runs longer than expected
- Summary
- Index
- About Packt
- Other Books You May Enjoy
مشخصات
نام کتاب
Building Modern Data Applications Using Databricks Lakehouse Edition: 1
نویسنده
Will Girten
انتشارات
Packt Publishing
تاریخ انتشار
2024
ISBN
9781801073233
تعداد صفحات
246
زبان
انگلیسی
فرمت
حجم
9.43MB
موضوع
Databricks, Lakehouse Architecture, Data Engineering, Big Data Analytics