جلد کتاب راهنمای جامع برای دریافت گواهی Databricks Certified Associate Developer برای Apache Spark با استفاده از Python

عنوان:

Databricks Certified Associate Developer for Apache Spark Using Python

نویسنده:

SABA SHAH

انتشارات:

Packt Publishing

تاریخ انتشار:

2024

حجم:

1.29MB

دانلود

معرفی کتاب:" راهنمای جامع برای دریافت گواهی Databricks Certified Associate Developer برای Apache Spark با استفاده از Python"

یاد بگیرید مفاهیم و تمرین‌های لازم برای دریافت گواهی Databricks Associate Developer برای Apache Spark 3.0 را و مهارت‌های خود را به‌عنوان یک متخصص Spark با یک مدرک معتبر صنعتی تأیید کنید.

ویژگی‌های کلیدی:

  • درک مفاهیم پایه‌ای Apache Spark برای طراحی اپلیکیشن‌های سریع و مقاوم
  • بررسی اجزای مختلف داده‌پردازی در هر مرحله از پروژه مهندسی داده
  • آماده‌سازی برای امتحان گواهی‌نامه با نمونه سوالات و امتحانات آزمایشی
  • خرید نسخه چاپی یا Kindle شامل PDF رایگان

توضیحات کتاب:

با جمع‌آوری حجم وسیعی از داده‌ها در هر ثانیه، قدرت پردازشی نمی‌تواند با این رشد سریع همگام باشد. برای استفاده از تمام داده‌ها، Spark به یک استاندارد در پردازش Big Data تبدیل شده است. مهاجرت پردازش داده‌ها به Spark نه تنها منابع شما را صرفه‌جویی می‌کند و امکان تمرکز بر کسب‌وکار را فراهم می‌کند، بلکه به شما امکان می‌دهد کارهای خود را مدرن کنید و از قابلیت‌های Spark و پشته فناوری مدرن برای خلق فرصت‌های جدید کسب‌وکار بهره ببرید.

این کتاب یک راهنمای جامع است که به شما امکان می‌دهد اجزای اصلی Apache Spark، معماری آن و بهینه‌سازی‌ها را بررسی کنید. با Spark DataFrame API و اجزای آن برای دستکاری داده‌ها آشنا خواهید شد. سپس، با مفهوم Spark Streaming و اهمیت آن در پشته‌های داده مدرن آشنا می‌شوید و پس از آن با یادگیری ماشین در Spark و کاربردهای مختلف آن آشنا خواهید شد.

در انتهای هر بخش، نمونه سوال‌ها و دو امتحان آزمایشی برای آماده‌سازی برای گواهی‌نامه ارائه شده است. در پایان کتاب، خواهید دانست که در امتحان چه انتظاری دارید و چگونه با درک کافی از Spark و ابزارهای آن، موفق شوید. همچنین قادر خواهید بود این دانش را در محیط واقعی به کار برده و مهارت‌های خود را ارتقا دهید.

آنچه خواهید آموخت:

  • ایجاد و دستکاری SQL Queries در Spark
  • ساخت توابع پیچیده Spark با استفاده از Spark UDFs
  • طراحی اپلیکیشن‌های Big Data با اصول Spark برای بهینه‌ترین طراحی
  • به‌کارگیری تکنیک‌ها برای دستکاری و بهینه‌سازی اپلیکیشن‌های Big Data
  • ساخت برنامه‌های Real-Time یا Near-Real-Time با استفاده از Spark Streaming
  • کار با Apache Spark برای برنامه‌های یادگیری ماشین

مخاطبان کتاب:

این کتاب برای افرادی است که می‌خواهند وارد دنیای Big Data و مهندسی داده شوند، متخصصان داده که می‌خواهند دانش خود درباره Spark را تأیید کنند، یا دانشجویان. اگرچه دانش کاری با Python ضروری است، آشنایی قبلی با Spark لازم نیست. همچنین، تجربه با PySpark مفید خواهد بود.

فهرست مطالب

  • Cover
  • Title Page
  • Copyright and Credits
  • Foreword
  • Contributors
  • Table of Contents
  • Preface
  • Part 1: Exam Overview
  • Chapter 1: Overview of the Certification Guide and Exam
  • Overview of the certification exam
  • Registering for your exam
  • Types of questions
  • Summary
  • Part 2: Introducing Spark
  • Chapter 2: Understanding Apache Spark and Its Applications
  • What is Apache Spark?
  • Why choose Apache Spark?
  • What are the Spark use cases?
  • Who are the Spark users?
  • Summary
  • Sample questions
  • Chapter 3: Spark Architecture and Transformations
  • Spark architecture
  • Execution hierarchy
  • Spark components
  • Partitioning in Spark
  • Deployment modes
  • RDDs
  • Summary
  • Sample questions
  • Part 3: Spark Operations
  • Chapter 4: Spark DataFrames and their Operations
  • Getting Started in PySpark
  • Dataset API
  • DataFrame API
  • Creating DataFrame operations
  • How to view the DataFrames
  • Collecting the data
  • Converting a PySpark DataFrame to a Pandas DataFrame
  • How to manipulate data on rows and columns
  • Summary
  • Sample question
  • Chapter 5: Advanced Operations and Optimizations in Spark
  • Grouping data in Spark and different Spark joins
  • Joining DataFrames in Spark
  • Reading and writing data
  • Using SQL in Spark
  • UDFs in Apache Spark
  • Optimizations in Apache Spark
  • Data-based optimizations in Apache Spark
  • Narrow and wide transformations in Apache Spark
  • Persisting and caching in Apache Spark
  • Repartitioning and coalescing in Apache Spark
  • Summary
  • Sample questions
  • Chapter 6: SQL Queries in Spark
  • What is Spark SQL?
  • Getting started with Spark SQL
  • Advanced Spark SQL operations
  • Summary
  • Sample questions
  • Part 4: Spark Applications
  • Chapter 7: Structured Streaming in Spark
  • Real-time data processing
  • What is streaming?
  • Streaming architectures
  • Introducing Spark Streaming
  • Introducing Structured Streaming
  • Streaming fundamentals
  • Structured Streaming concepts
  • Streaming sources and sinks
  • Advanced techniques in Structured Streaming
  • Different joins in Structured Streaming
  • Final thoughts and future developments
  • Summary
  • Chapter 8: Machine Learning with Spark ML
  • Introduction to ML
  • ML with Spark
  • ML life cycle
  • Problem statement
  • Case studies and real-world examples
  • Future trends in Spark ML and distributed ML
  • Summary
  • Part 5: Mock Papers
  • Chapter 9: Mock Test 1
  • Questions
  • Chapter 10: Mock Test 2
  • Questions
  • Index
  • Other Books You May Enjoy

مشخصات

نام کتاب

Databricks Certified Associate Developer for Apache Spark Using Python: The ultimate guide to getting certified Edition: 1

نویسنده

SABA SHAH

انتشارات

Packt Publishing

تاریخ انتشار

2024

ISBN

9781804619780

تعداد صفحات

274

زبان

انگلیسی

فرمت

pdf

حجم

1.29MB

موضوع

Apache Spark, PySpark, Databricks Certification, Data Engineering