
عنوان:
Databricks Certified Associate Developer for Apache Spark Using Python
نویسنده:
SABA SHAH
انتشارات:
Packt Publishing
تاریخ انتشار:
2024
حجم:
1.29MB
معرفی کتاب:" راهنمای جامع برای دریافت گواهی Databricks Certified Associate Developer برای Apache Spark با استفاده از Python"
یاد بگیرید مفاهیم و تمرینهای لازم برای دریافت گواهی Databricks Associate Developer برای Apache Spark 3.0 را و مهارتهای خود را بهعنوان یک متخصص Spark با یک مدرک معتبر صنعتی تأیید کنید.
ویژگیهای کلیدی:
- درک مفاهیم پایهای Apache Spark برای طراحی اپلیکیشنهای سریع و مقاوم
- بررسی اجزای مختلف دادهپردازی در هر مرحله از پروژه مهندسی داده
- آمادهسازی برای امتحان گواهینامه با نمونه سوالات و امتحانات آزمایشی
- خرید نسخه چاپی یا Kindle شامل PDF رایگان
توضیحات کتاب:
با جمعآوری حجم وسیعی از دادهها در هر ثانیه، قدرت پردازشی نمیتواند با این رشد سریع همگام باشد. برای استفاده از تمام دادهها، Spark به یک استاندارد در پردازش Big Data تبدیل شده است. مهاجرت پردازش دادهها به Spark نه تنها منابع شما را صرفهجویی میکند و امکان تمرکز بر کسبوکار را فراهم میکند، بلکه به شما امکان میدهد کارهای خود را مدرن کنید و از قابلیتهای Spark و پشته فناوری مدرن برای خلق فرصتهای جدید کسبوکار بهره ببرید.
این کتاب یک راهنمای جامع است که به شما امکان میدهد اجزای اصلی Apache Spark، معماری آن و بهینهسازیها را بررسی کنید. با Spark DataFrame API و اجزای آن برای دستکاری دادهها آشنا خواهید شد. سپس، با مفهوم Spark Streaming و اهمیت آن در پشتههای داده مدرن آشنا میشوید و پس از آن با یادگیری ماشین در Spark و کاربردهای مختلف آن آشنا خواهید شد.
در انتهای هر بخش، نمونه سوالها و دو امتحان آزمایشی برای آمادهسازی برای گواهینامه ارائه شده است. در پایان کتاب، خواهید دانست که در امتحان چه انتظاری دارید و چگونه با درک کافی از Spark و ابزارهای آن، موفق شوید. همچنین قادر خواهید بود این دانش را در محیط واقعی به کار برده و مهارتهای خود را ارتقا دهید.
آنچه خواهید آموخت:
- ایجاد و دستکاری SQL Queries در Spark
- ساخت توابع پیچیده Spark با استفاده از Spark UDFs
- طراحی اپلیکیشنهای Big Data با اصول Spark برای بهینهترین طراحی
- بهکارگیری تکنیکها برای دستکاری و بهینهسازی اپلیکیشنهای Big Data
- ساخت برنامههای Real-Time یا Near-Real-Time با استفاده از Spark Streaming
- کار با Apache Spark برای برنامههای یادگیری ماشین
مخاطبان کتاب:
این کتاب برای افرادی است که میخواهند وارد دنیای Big Data و مهندسی داده شوند، متخصصان داده که میخواهند دانش خود درباره Spark را تأیید کنند، یا دانشجویان. اگرچه دانش کاری با Python ضروری است، آشنایی قبلی با Spark لازم نیست. همچنین، تجربه با PySpark مفید خواهد بود.
فهرست مطالب
- Cover
- Title Page
- Copyright and Credits
- Foreword
- Contributors
- Table of Contents
- Preface
- Part 1: Exam Overview
- Chapter 1: Overview of the Certification Guide and Exam
- Overview of the certification exam
- Registering for your exam
- Types of questions
- Summary
- Part 2: Introducing Spark
- Chapter 2: Understanding Apache Spark and Its Applications
- What is Apache Spark?
- Why choose Apache Spark?
- What are the Spark use cases?
- Who are the Spark users?
- Summary
- Sample questions
- Chapter 3: Spark Architecture and Transformations
- Spark architecture
- Execution hierarchy
- Spark components
- Partitioning in Spark
- Deployment modes
- RDDs
- Summary
- Sample questions
- Part 3: Spark Operations
- Chapter 4: Spark DataFrames and their Operations
- Getting Started in PySpark
- Dataset API
- DataFrame API
- Creating DataFrame operations
- How to view the DataFrames
- Collecting the data
- Converting a PySpark DataFrame to a Pandas DataFrame
- How to manipulate data on rows and columns
- Summary
- Sample question
- Chapter 5: Advanced Operations and Optimizations in Spark
- Grouping data in Spark and different Spark joins
- Joining DataFrames in Spark
- Reading and writing data
- Using SQL in Spark
- UDFs in Apache Spark
- Optimizations in Apache Spark
- Data-based optimizations in Apache Spark
- Narrow and wide transformations in Apache Spark
- Persisting and caching in Apache Spark
- Repartitioning and coalescing in Apache Spark
- Summary
- Sample questions
- Chapter 6: SQL Queries in Spark
- What is Spark SQL?
- Getting started with Spark SQL
- Advanced Spark SQL operations
- Summary
- Sample questions
- Part 4: Spark Applications
- Chapter 7: Structured Streaming in Spark
- Real-time data processing
- What is streaming?
- Streaming architectures
- Introducing Spark Streaming
- Introducing Structured Streaming
- Streaming fundamentals
- Structured Streaming concepts
- Streaming sources and sinks
- Advanced techniques in Structured Streaming
- Different joins in Structured Streaming
- Final thoughts and future developments
- Summary
- Chapter 8: Machine Learning with Spark ML
- Introduction to ML
- ML with Spark
- ML life cycle
- Problem statement
- Case studies and real-world examples
- Future trends in Spark ML and distributed ML
- Summary
- Part 5: Mock Papers
- Chapter 9: Mock Test 1
- Questions
- Chapter 10: Mock Test 2
- Questions
- Index
- Other Books You May Enjoy
مشخصات
نام کتاب
Databricks Certified Associate Developer for Apache Spark Using Python: The ultimate guide to getting certified Edition: 1
نویسنده
SABA SHAH
انتشارات
Packt Publishing
تاریخ انتشار
2024
ISBN
9781804619780
تعداد صفحات
274
زبان
انگلیسی
فرمت
حجم
1.29MB
موضوع
Apache Spark, PySpark, Databricks Certification, Data Engineering