
عنوان:
Data Analysis with Python and PySpark
نویسنده:
Jonathan Rioux
انتشارات:
Manning Publications City: Shelter Island, NY
تاریخ انتشار:
2022
حجم:
4.31MB
معرفی کتاب:"تحلیل داده با Python و PySpark "
دادههای خود را بزرگ ببینید! PySpark موتور قدرتمند پردازش دادههای Big Data در Spark را به اکوسیستم Python میآورد، به شما این امکان را میدهد که کارهای دادهای خود را بهطور یکپارچه مقیاسدهی کنید و عملیات سریع ایجاد کنید.
در کتاب Data Analysis with Python and PySpark خواهید آموخت که چگونه:
- دادههای خود را در مقیاس چندین ماشین مدیریت کنید
- برنامههای دادهای خود را با اعتماد کامل مقیاسدهی کنید
- دادهها را از منابع و فرمتهای مختلف بخوانید و بنویسید
- با دادههای نامرتب با استفاده از امکانات دستکاری داده در PySpark کار کنید
- مجموعههای داده جدید را کشف کرده و تحلیل اکتشافی دادهها انجام دهید
- فرآیندهای دادهای خودکار بسازید که دادهها را تبدیل، خلاصه و از آنها بینش استخراج کند
- خطاهای رایج PySpark را رفع کنید
- کارهای طولانیمدت و قابل اعتماد ایجاد کنید
Data Analysis with Python and PySpark راهنمای شما برای انجام موفق پروژههای دادهای مبتنی بر Python است. این کتاب عملی، پر از مثالهای مرتبط و تکنیکهای ضروری است و به شما میآموزد که چگونه فرآیندهای خودکار برای گزارشدهی، یادگیری ماشین و سایر کارهای دادهمحور بسازید. تمرینهای کوتاه در هر فصل به شما کمک میکند آنچه را یاد گرفتهاید تمرین کنید و به سرعت PySpark را در سیستمهای دادهای خود پیاده کنید. برای شروع نیازی به دانش قبلی از Spark نیست.
درباره فناوری
موتور پردازش داده Spark یک کارخانه تحلیل شگفتانگیز است: دادههای خام وارد میشوند و بینشها استخراج میشوند. PySpark هسته Spark را با API مبتنی بر Python پوشش میدهد. این کار باعث میشود PySpark پیچیدگی یادگیری Spark را ساده کرده و این ابزار قدرتمند را در اختیار هر کسی که با دادههای Python کار میکند قرار دهد.
درباره کتاب
Data Analysis with Python and PySpark به شما کمک میکند تا چالشهای روزانه علم داده را با استفاده از PySpark حل کنید. شما یاد خواهید گرفت که چگونه قابلیتهای پردازشی خود را در چندین ماشین مقیاسدهی کنید و دادهها را از هر منبعی وارد کنید—چه خوشههای Hadoop، ذخیرهسازی ابری دادهها یا فایلهای محلی دادهها. پس از یادگیری مبانی، با ساخت فرآیندهای یادگیری ماشین و ترکیب کدهای Python، pandas و PySpark قابلیتهای کامل PySpark را کشف خواهید کرد.
محتوای کتاب
- سازماندهی کدهای PySpark
- مدیریت دادهها بدون توجه به حجم آنها
- مقیاسدهی برنامههای دادهای با اعتماد کامل
- رفع مشکلات رایج فرآیندهای داده
- ایجاد کارهای طولانیمدت و قابل اعتماد
مخاطب کتاب
این کتاب برای دانشمندان داده و مهندسان داده که با Python آشنایی دارند نوشته شده است.
درباره نویسنده
Jonathan Rioux، مدیر ML در یک شرکت نرمافزاری دادهمحور است و روزانه از PySpark استفاده میکند. او این نرمافزار را به دانشمندان داده، مهندسان و تحلیلگران داده حرفهای آموزش میدهد.
فهرست مطالب
- Data Analysis with Python and PySpark
- contents
- preface
- acknowledgments
- about this book
- about the author
- about the cover illustration
- 1 Introduction
- 1.1 What is PySpark?
- 1.2 Your very own factory: How PySpark works
- 1.3 What will you learn in this book?
- 1.4 What do I need to get started?
- Summary
- Part 1—Get acquainted: First steps in PySpark
- 2 Your first data program in PySpark
- 2.1 Setting up the PySpark shell
- 2.2 Mapping our program
- 2.3 Ingest and explore: Setting the stage for data transformation
- 2.4 Simple column transformations: Moving from a sentence to a list of words
- 2.5 Filtering rows
- Summary
- Additional exercises
- 3 Submitting and scaling your first PySpark program
- 3.1 Grouping records: Counting word frequencies
- 3.2 Ordering the results on the screen using orderBy
- 3.3 Writing data from a data frame
- 3.4 Putting it all together: Counting
- 3.5 Using spark-submit to launch your program in batch mode
- 3.6 What didn’t happen in this chapter
- 3.7 Scaling up our word frequency program
- Summary
- Additional Exercises
- 4 Analyzing tabular data with pyspark.sql
- 4.1 What is tabular data?
- 4.2 PySpark for analyzing and processing tabular data
- 4.3 Reading and assessing delimited data in PySpark
- 4.4 The basics of data manipulation: Selecting, dropping, renaming, ordering, diagnosing
- Summary
- Additional exercises
- 5 Data frame gymnastics: Joining and grouping
- 5.1 From many to one: Joining data
- 5.2 Summarizing the data via groupby and GroupedData
- 5.3 Taking care of null values: Drop and fill
- 5.4 What was our question again? Our end-to-end program
- Summary
- Additional exercises
- Part 2—Get proficient: Translate your ideas into code
- 6 Multidimensional data frames: Using PySpark with JSON data
- 6.1 Reading JSON data: Getting ready for the schemapocalypse
- 6.2 Breaking the second dimension with complex data types
- 6.3 The struct: Nesting columns within columns
- 6.4 Building and using the data frame schema
- 6.5 Putting it all together: Reducing duplicate data with complex data types
- Summary
- Additional exercises
- 7 Bilingual PySpark: Blending Python and SQL code
- 7.1 Banking on what we know: pyspark.sql vs. plain SQL
- 7.2 Preparing a data frame for SQL
- 7.3 SQL and PySpark
- 7.4 Using SQL-like syntax within data frame methods
- 7.5 Simplifying our code: Blending SQL and Python
- 7.6 Conclusion
- Summary
- Additional exercises
- 8 Extending PySpark with Python: RDD and UDFs
- 8.1 PySpark, freestyle: The RDD
- 8.2 Using Python to extend PySpark via UDFs
- Summary
- Additional exercises
- 9 Big data is just a lot of small data: Using pandas UDFs
- 9.1 Column transformations with pandas: Using Series UDF
- 9.2 UDFs on grouped data: Aggregate and apply
- 9.3 What to use, when
- Summary
- Additional exercises
- 10 Your data under a different lens: Window functions
- 10.1 Growing and using a simple window function
- 10.2 Beyond summarizing: Using ranking and analytical functions
- 10.3 Flex those windows! Using row and range boundaries
- 10.4 Going full circle: Using UDFs within windows
- 10.5 Look in the window: The main steps to a successful window function
- Summary
- Additional Exercises
- 11 Faster PySpark: Understanding Spark’s query planning
- 11.1 Open sesame: Navigating the Spark UI to understand the environment
- 11.2 Thinking about performance: Operations and memory
- Summary
- Part 3—Get confident: Using machine learning with PySpark
- 12 Setting the stage: Preparing features for machine learning
- 12.1 Reading, exploring, and preparing our machine learning data set
- 12.2 Feature creation and refinement
- 12.3 Feature preparation with transformers and estimators
- Summary
- 13 Robust machine learning with ML Pipelines
- 13.1 Transformers and estimators: The building blocks of ML in Spark
- 13.2 Building a (complete) machine learning pipeline
- 13.3 Evaluating and optimizing our model
- 13.4 Getting the biggest drivers from our model: Extracting the coefficients
- Summary
- 14 Building custom ML transformers and estimators
- 14.1 Creating your own transformer
- 14.2 Creating your own estimator
- 14.3 Using our transformer and estimator in an ML pipeline
- Summary
- Conclusion: Have data, am happy!
- Appendix A—Solutions to the exercises
- Appendix B—Installing PySpark
- Appendix C—Some useful Python concepts
- index
مشخصات
نام کتاب
Data Analysis with Python and PySpark Edition: 1
نویسنده
Jonathan Rioux
انتشارات
Manning Publications City: Shelter Island, NY
تاریخ انتشار
2022
ISBN
9781617297205
تعداد صفحات
458
زبان
انگلیسی
فرمت
حجم
4.31MB
موضوع
Machine Learning; Data Analysis; Python; SQL; Pipelines; JSON; Queries; PySpark