کتاب  آغازگر تحول در هوش مصنوعی مولد (GenAI) اثر Nikhil Gupta

عنوان:

Databricks Data Intelligence Platform

نویسنده:

Nikhil Gupta

انتشارات:

Apress

تاریخ انتشار

2024

حجم:

5.5MB

دانلود

معرفی کتاب: "پلتفرم هوش داده Databricks: آغازگر تحول در هوش مصنوعی مولد (GenAI)"

این کتاب راهنمای جامع شما برای ساخت راه‌حل‌های قدرتمند هوش مصنوعی مولد (Generative AI) با استفاده از پلتفرم هوش داده‌ی Databricks است. Databricks سریع‌ترین پلتفرم داده‌محور در حال رشد است که قابلیت‌های تحلیل داده و هوش مصنوعی را در یک چارچوب حاکمیتی یکپارچه ارائه می‌دهد.

این پلتفرم به سازمان‌ها کمک می‌کند تا جریان‌های کاری پردازش داده‌ی خود را از مرحله ورود داده تا مصورسازی ساده‌سازی کنند. همچنین، ابزارهایی برای آموزش مدل‌های زبانی بزرگ (LLM) با کیفیت بالا فراهم می‌کند؛ چه به دنبال پیاده‌سازی RAG باشید یا Fine-tuning مدل‌ها.

Databricks یک راه‌حل مقیاس‌پذیر برای پردازش داده‌های ساخت‌یافته و غیرساخت‌یافته فراهم کرده است و مسیر تحلیل‌های پیشرفته و پردازش بلادرنگ را هموار می‌سازد.

محتوای کتاب

این کتاب نه‌تنها شما را با اصول پایه و ساختار Databricks آشنا می‌کند، بلکه با بررسی ویژگی‌ها، قابلیت‌ها و شیوه‌های عملی، شما را برای ساخت راه‌حل‌های داده‌محور GenAI آماده می‌سازد.

  • اصول پایه‌ای معماری Lakehouse
  • ویژگی‌های کلیدی مانند Unity Catalog، Databricks SQL و Delta Live Tables
  • ساخت و استقرار برنامه‌های GenAI از ورود داده تا ارائه مدل
  • قیمت‌گذاری، امنیت پلتفرم، DBRX و دیگر موضوعات کاربردی

مخاطبان کتاب

این کتاب برای معماران راه‌حل، مهندسان داده، دانشمندان داده، متخصصان Databricks و مدیران ارشد نوشته شده است. حتی اگر تازه‌کار هستید، این کتاب می‌تواند دیدی جامع و کاربردی به شما بدهد و منبعی عالی برای آمادگی آزمون‌های Databricks باشد.

فهرست مطالب

  • About the Authors
  • About the Technical Reviewers
  • Chapter 1: Databricks Platform: From Lakehouse to Data Intelligence Platform
  • Data Platforms: Historical Perspective
  • Emergence of the Lakehouse
  • What Is a Lakehouse?
  • What Is the Databricks Lakehouse?
  • Key Features of the Databricks Lakehouse Platform
  • Introducing the Databricks Data Intelligence Platform
  • Conclusion
  • Chapter 2: Databricks Platform Overview
  • Key Terminology
  • Databricks Compute or Clusters
  • Databricks All-Purpose Cluster Setup
  • Cluster Sizing Considerations and Best Practices
  • Databricks Notebooks
  • Library Management
  • External Databricks Connectivity
  • Conclusion
  • Chapter 3: Data Ingestion in Lakehouse
  • Introduction
  • Cloud Ingestion
  • Delta Ingestion
  • Conclusion
  • Chapter 4: Delta Lake - Deep Dive
  • The Challenges of Other Formats
  • What Is Delta Lake?
  • Delta Lake: Medallion Architecture
  • Delta Lake Key Features
  • Time Travel
  • Clone Delta Tables
  • Generated Column
  • Change Data Feed
  • Universal Format
  • Delta Optimization
  • Liquid Clustering
  • Working with Liquid Clustering
  • Current Limitations
  • Predictive I/O
  • Conclusion
  • Chapter 5: Data Governance with Unity Catalog
  • What Is Databricks Unity Catalog?
  • Unity Catalog: Before and After
  • Unity Catalog Hierarchy
  • Unity Catalog Admin Roles
  • Organizing Data in Unity Catalog
  • Key Features of Unity Catalog
  • Data Lineage
  • Data Access Auditing
  • Data Search and Discovery
  • Row-Level Security and Column-Level Masking
  • Delta Sharing
  • Conclusion
  • Chapter 6: Data Engineering Part 1: Orchestrating Data Pipelines Using Databricks Workflows
  • Databricks Workflow Jobs
  • Databricks Jobs and Tasks
  • Advanced Workflow Features
  • Monitoring Data Pipelines
  • Conclusion
  • Chapter 7: Data Engineering Part 2: Delta Live Tables
  • What Is Delta Live Tables?
  • Creating a DLT Pipeline
  • Logging and Monitoring
  • Enhanced Autoscaling
  • Runtime Channels
  • Example: A Retail Sales Pipeline
  • Conclusion
  • Chapter 8: Data Warehousing with DBSQL
  • What Is Databricks SQL?
  • SQL Warehouses
  • Constraints in DBSQL
  • Streaming Tables and Materialized Views
  • Materialized Views
  • Connect Power BI Desktop to Databricks
  • Conclusion
  • Chapter 9: Machine Learning Operations Using Databricks
  • Machine Learning with Databricks
  • Machine Learning Lifecycle: MLOps
  • Chapter 10: Generative AI with Databricks
  • What Is Generative AI?
  • Databricks Generative AI
  • The GenAI Journey
  • Prompt Engineering
  • Retrieval Augmented Generation
  • Mosaic AI Fine-Tuning API
  • Pre-Training
  • Gen AI Pricing
  • Conclusion
  • Chapter 11: Large Language Model Operations
  • Machine Learning Operations
  • Large Language Model Operations
  • Components of LLMOps
  • Deep Dive into Each Process
  • A Case Study of AI2’s OLMo
  • Conclusion
  • Chapter 12: Mosaic AI Agent Framework: Creating Quality AI Agents
  • Part 0: The Installations
  • Part 1: LangChain Parametrization
  • Part 2: MLflow Evaluation
  • Part 3: Model Development
  • Part 4: Deployment
  • Evaluation Example
  • Conclusion
  • Chapter 13: DBRX: Creating an LLM from Scratch Using Databricks
  • What Is DBRX?
  • The DBRX Benchmarks
  • DBRX Architecture
  • The MosaicML Stack
  • Distributed GPU Training
  • Model Serving
  • Using DBRX on Databricks
  • Conclusion
  • Chapter 14: The Databricks Data Intelligence Platform
  • Databricks IQ
  • Deep Dive into Databricks IQ
  • Chapter 15: Databricks CI/CD
  • What Is CI/CD?
  • Stages of CI/CD
  • Introduction to Databricks Repos
  • Databricks UI vs. Git Terminologies
  • Databricks Asset Bundles
  • Case Study: Databricks MLOps Stack
  • Conclusion
  • Chapter 16: Databricks Pricing and Observability Using System Tables
  • Costs Associated with the Databricks Platform
  • Cloud Infrastructure Costs
  • Databricks Pricing
  • Databricks Cost Management Best Practices
  • Databricks Observability: System Tables
  • Conclusion
  • Chapter 17: Databricks Platform Security and Compliance
  • Databricks Architecture
  • Azure Databricks Deployment
  • Identity and Access
  • Security Analysis Tool
  • Databricks Security Best Practices
  • Conclusion
  • Chapter 18: Spark Structured Streaming: A Comprehensive Guide
  • Spark Streaming
  • Structured Streaming
  • What Is Continuous Processing?
  • Triggers
  • Output Modes
  • Windowed Grouped Aggregation
  • State Management
  • Late-Arrival Handling: Watermark
  • Auto Loader
  • Project Lightspeed
  • Structured Streaming Best Practices
  • Conclusion
  • Chapter 19: From Ideation to Creation: A Walk-Through of Building a GenAI Application
  • The Problem Statement
  • Data Generation: Source
  • Data Ingestion: Ingest
  • Data Transformation: Transform
  • Machine Learning Model for Diabetes Complication Classification: Query and Process
  • Generative AI: Serve
  • Monitoring Dashboard: Analysis
  • Conclusion
  • Index

مشخصات

نام کتاب

Databricks Data Intelligence Platform

نویسنده

Nikhil Gupta, Jason Yip

انتشارات

Apress

تاریخ انتشار

2024

ISBN

9798868804441

تعداد صفحات

481

زبان

انگلیسی

فرمت

pdf

حجم

5.5MB

موضوع

Artificial Intelligence / Generative AI