دانلود رایگان کتاب Data Analysis with Python and PySpark در آی‌تی بوک

عنوان:

Data Analysis with Python and PySpark

نویسنده:

Jonathan Rioux

انتشارات:

Manning Publications City: Shelter Island, NY

تاریخ انتشار:

2022

حجم:

4.31MB

دانلود

معرفی فهرست مشخصات

معرفی کتاب:"تحلیل داده با Python و PySpark "

داده‌های خود را بزرگ ببینید! PySpark موتور قدرتمند پردازش داده‌های Big Data در Spark را به اکوسیستم Python می‌آورد، به شما این امکان را می‌دهد که کارهای داده‌ای خود را به‌طور یکپارچه مقیاس‌دهی کنید و عملیات سریع ایجاد کنید.

در کتاب Data Analysis with Python and PySpark خواهید آموخت که چگونه:

داده‌های خود را در مقیاس چندین ماشین مدیریت کنید
برنامه‌های داده‌ای خود را با اعتماد کامل مقیاس‌دهی کنید
داده‌ها را از منابع و فرمت‌های مختلف بخوانید و بنویسید
با داده‌های نامرتب با استفاده از امکانات دستکاری داده در PySpark کار کنید
مجموعه‌های داده جدید را کشف کرده و تحلیل اکتشافی داده‌ها انجام دهید
فرآیندهای داده‌ای خودکار بسازید که داده‌ها را تبدیل، خلاصه و از آن‌ها بینش استخراج کند
خطاهای رایج PySpark را رفع کنید
کارهای طولانی‌مدت و قابل اعتماد ایجاد کنید

Data Analysis with Python and PySpark راهنمای شما برای انجام موفق پروژه‌های داده‌ای مبتنی بر Python است. این کتاب عملی، پر از مثال‌های مرتبط و تکنیک‌های ضروری است و به شما می‌آموزد که چگونه فرآیندهای خودکار برای گزارش‌دهی، یادگیری ماشین و سایر کارهای داده‌محور بسازید. تمرین‌های کوتاه در هر فصل به شما کمک می‌کند آنچه را یاد گرفته‌اید تمرین کنید و به سرعت PySpark را در سیستم‌های داده‌ای خود پیاده کنید. برای شروع نیازی به دانش قبلی از Spark نیست.

درباره فناوری

موتور پردازش داده Spark یک کارخانه تحلیل شگفت‌انگیز است: داده‌های خام وارد می‌شوند و بینش‌ها استخراج می‌شوند. PySpark هسته Spark را با API مبتنی بر Python پوشش می‌دهد. این کار باعث می‌شود PySpark پیچیدگی یادگیری Spark را ساده کرده و این ابزار قدرتمند را در اختیار هر کسی که با داده‌های Python کار می‌کند قرار دهد.

درباره کتاب

Data Analysis with Python and PySpark به شما کمک می‌کند تا چالش‌های روزانه علم داده را با استفاده از PySpark حل کنید. شما یاد خواهید گرفت که چگونه قابلیت‌های پردازشی خود را در چندین ماشین مقیاس‌دهی کنید و داده‌ها را از هر منبعی وارد کنید—چه خوشه‌های Hadoop، ذخیره‌سازی ابری داده‌ها یا فایل‌های محلی داده‌ها. پس از یادگیری مبانی، با ساخت فرآیندهای یادگیری ماشین و ترکیب کدهای Python، pandas و PySpark قابلیت‌های کامل PySpark را کشف خواهید کرد.

محتوای کتاب

سازماندهی کدهای PySpark
مدیریت داده‌ها بدون توجه به حجم آن‌ها
مقیاس‌دهی برنامه‌های داده‌ای با اعتماد کامل
رفع مشکلات رایج فرآیندهای داده
ایجاد کارهای طولانی‌مدت و قابل اعتماد

مخاطب کتاب

این کتاب برای دانشمندان داده و مهندسان داده که با Python آشنایی دارند نوشته شده است.

درباره نویسنده

Jonathan Rioux، مدیر ML در یک شرکت نرم‌افزاری داده‌محور است و روزانه از PySpark استفاده می‌کند. او این نرم‌افزار را به دانشمندان داده، مهندسان و تحلیل‌گران داده حرفه‌ای آموزش می‌دهد.

فهرست مطالب

Data Analysis with Python and PySpark
contents
preface
acknowledgments
about this book
about the author
about the cover illustration
1 Introduction
1.1 What is PySpark?
1.2 Your very own factory: How PySpark works
1.3 What will you learn in this book?
1.4 What do I need to get started?
Summary
Part 1—Get acquainted: First steps in PySpark
2 Your first data program in PySpark
2.1 Setting up the PySpark shell
2.2 Mapping our program
2.3 Ingest and explore: Setting the stage for data transformation
2.4 Simple column transformations: Moving from a sentence to a list of words
2.5 Filtering rows
Summary
Additional exercises
3 Submitting and scaling your first PySpark program
3.1 Grouping records: Counting word frequencies
3.2 Ordering the results on the screen using orderBy
3.3 Writing data from a data frame
3.4 Putting it all together: Counting
3.5 Using spark-submit to launch your program in batch mode
3.6 What didn’t happen in this chapter
3.7 Scaling up our word frequency program
Summary
Additional Exercises
4 Analyzing tabular data with pyspark.sql
4.1 What is tabular data?
4.2 PySpark for analyzing and processing tabular data
4.3 Reading and assessing delimited data in PySpark
4.4 The basics of data manipulation: Selecting, dropping, renaming, ordering, diagnosing
Summary
Additional exercises
5 Data frame gymnastics: Joining and grouping
5.1 From many to one: Joining data
5.2 Summarizing the data via groupby and GroupedData
5.3 Taking care of null values: Drop and fill
5.4 What was our question again? Our end-to-end program
Summary
Additional exercises
Part 2—Get proficient: Translate your ideas into code
6 Multidimensional data frames: Using PySpark with JSON data
6.1 Reading JSON data: Getting ready for the schemapocalypse
6.2 Breaking the second dimension with complex data types
6.3 The struct: Nesting columns within columns
6.4 Building and using the data frame schema
6.5 Putting it all together: Reducing duplicate data with complex data types
Summary
Additional exercises
7 Bilingual PySpark: Blending Python and SQL code
7.1 Banking on what we know: pyspark.sql vs. plain SQL
7.2 Preparing a data frame for SQL
7.3 SQL and PySpark
7.4 Using SQL-like syntax within data frame methods
7.5 Simplifying our code: Blending SQL and Python
7.6 Conclusion
Summary
Additional exercises
8 Extending PySpark with Python: RDD and UDFs
8.1 PySpark, freestyle: The RDD
8.2 Using Python to extend PySpark via UDFs
Summary
Additional exercises
9 Big data is just a lot of small data: Using pandas UDFs
9.1 Column transformations with pandas: Using Series UDF
9.2 UDFs on grouped data: Aggregate and apply
9.3 What to use, when
Summary
Additional exercises
10 Your data under a different lens: Window functions
10.1 Growing and using a simple window function
10.2 Beyond summarizing: Using ranking and analytical functions
10.3 Flex those windows! Using row and range boundaries
10.4 Going full circle: Using UDFs within windows
10.5 Look in the window: The main steps to a successful window function
Summary
Additional Exercises
11 Faster PySpark: Understanding Spark’s query planning
11.1 Open sesame: Navigating the Spark UI to understand the environment
11.2 Thinking about performance: Operations and memory
Summary
Part 3—Get confident: Using machine learning with PySpark
12 Setting the stage: Preparing features for machine learning
12.1 Reading, exploring, and preparing our machine learning data set
12.2 Feature creation and refinement
12.3 Feature preparation with transformers and estimators
Summary
13 Robust machine learning with ML Pipelines
13.1 Transformers and estimators: The building blocks of ML in Spark
13.2 Building a (complete) machine learning pipeline
13.3 Evaluating and optimizing our model
13.4 Getting the biggest drivers from our model: Extracting the coefficients
Summary
14 Building custom ML transformers and estimators
14.1 Creating your own transformer
14.2 Creating your own estimator
14.3 Using our transformer and estimator in an ML pipeline
Summary
Conclusion: Have data, am happy!
Appendix A—Solutions to the exercises
Appendix B—Installing PySpark
Appendix C—Some useful Python concepts
index

مشخصات

نام کتاب

Data Analysis with Python and PySpark Edition: 1

نویسنده