
عنوان:
Big Data on Kubernetes
نویسنده:
Neylson Crepalde
انتشارات:
Packt Publishing
تاریخ انتشار:
2024
حجم:
10MB
معرفی کتاب: "Big Data on Kubernetes: راهنمای عملی برای ساخت راهحلهای دادهای کارآمد و مقیاسپذیر"
در دنیای امروز که دادهمحور است، سازمانها به راهحلهای مقیاسپذیر و کارآمد برای پردازش حجم زیادی از دادهها نیاز دارند. Kubernetes یک پلتفرم open-source و مقرونبهصرفه برای استقرار و مدیریت ابزارها و بار کاری دادههای کلان ارائه میدهد و استفاده بهینه از منابع را تضمین میکند و سربار عملیاتی را کاهش میدهد. اگر میخواهید هنر ساخت و استقرار راهحلهای دادههای کلان با Kubernetes را یاد بگیرید، این کتاب برای شماست.
ویژگیهای کلیدی کتاب:
- استفاده از Kubernetes در محیط ابری برای ادغام یکپارچه با ابزارهای مختلف
- بررسی بهترین شیوهها برای بهینهسازی عملکرد پایپلاینهای دادههای کلان
- ساخت پایپلاینهای دادهای end-to-end و بررسی موارد کاربرد واقعی با استفاده از ابزارهای محبوب مانند Spark، Airflow و Kafka
- خرید نسخه چاپی یا Kindle شامل PDF رایگان است
توضیحات کتاب:
این کتاب، نوشته شده توسط یک متخصص داده با تجربه، شما را از فرآیند کامل توسعه پایپلاینهای دادهای مقیاسپذیر و مقاوم عبور میدهد و تمرکز آن بر پیادهسازی عملی است. با مبانی شروع میکنید و سپس یاد میگیرید چگونه Docker را نصب کرده و اولین برنامههای کانتینری خود را اجرا کنید. سپس به معماری Kubernetes و اجزای اصلی آن میپردازید. این دانش مسیر را برای بررسی ابزارهای ضروری پردازش دادههای کلان مانند Apache Spark و Apache Airflow هموار میکند و نحوه نصب و پیکربندی این ابزارها روی کلاسترهای Kubernetes را خواهید آموخت. در طول کتاب، تجربه عملی ساخت یک دسته کامل دادههای کلان روی Kubernetes را به دست خواهید آورد.
مخاطب کتاب:
این کتاب برای مهندسان داده، تحلیلگران BI، رهبران تیم داده، معماران داده و مدیران فناوری است که آشنایی پایهای با فناوریهای دادههای کلان دارند. برای درک مطالب، آشنایی با Python، SQL و YAML ضروری است.
آنچه خواهید آموخت:
- نصب و استفاده از Docker برای اجرای کانتینرها و ساخت تصاویر مختصر
- درک عمیق از معماری Kubernetes و اجزای آن
- استقرار و مدیریت کلاسترهای Kubernetes روی پلتفرمهای ابری مختلف
- پیادهسازی و مدیریت پایپلاینهای داده با استفاده از Apache Spark و Apache Airflow
- استقرار و پیکربندی Apache Kafka برای ورود و پردازش دادههای زمان واقعی
- ساخت و هماهنگسازی یک پایپلاین کامل دادههای کلان با استفاده از ابزارهای متنباز
- استقرار برنامههای Generative AI روی معماری مبتنی بر Kubernetes
فهرست مطالب
- Cover
- Title page
- Copyright and credits
- Dedication
- Contributors
- Table of Contents
- Preface
- Part 1: Docker and Kubernetes
- Chapter 1: Getting Started with Containers
- Technical requirements
- Container architecture
- Installing Docker
- Getting started with Docker images
- Building your own image
- Summary
- Chapter 2: Kubernetes Architecture
- Technical requirements
- Kubernetes architecture
- Pods
- Deployments
- StatefulSets
- Jobs
- Services
- Ingress and Ingress Controller
- Gateway
- Persistent Volumes
- ConfigMaps and Secrets
- Summary
- Chapter 3: Getting Hands-On with Kubernetes
- Technical requirements
- Installing kubectl
- Deploying a local cluster using Kind
- Deploying an AWS EKS cluster
- Deploying a Google Cloud GKE cluster
- Deploying an Azure AKS cluster
- Running your API on Kubernetes
- Running a data processing job in Kubernetes
- Summary
- Part 2: Big Data Stack
- Chapter 4: The Modern Data Stack
- Data architectures
- Data lake design for big data
- Implementing the lakehouse architecture
- Summary
- Chapter 5: Big Data Processing with Apache Spark
- Technical requirements
- Getting started with Spark
- The DataFrame API and the Spark SQL API
- Working with real data
- Summary
- Chapter 6: Building Pipelines with Apache Airflow
- Technical requirements
- Getting started with Airflow
- Building a data pipeline
- Airflow integration with other tools
- Summary
- Chapter 7: Apache Kafka for Real-Time Events and Data Ingestion
- Technical requirements
- Getting started with Kafka
- Exploring the Kafka architecture
- Streaming from a database with Kafka Connect
- Real-time data processing with Kafka and Spark
- Summary
- Part 3: Connecting It All Together
- Chapter 8: Deploying the Big Data Stack on Kubernetes
- Technical requirements
- Deploying Spark on Kubernetes
- Deploying Airflow on Kubernetes
- Deploying Kafka on Kubernetes
- Summary
- Chapter 9: Data Consumption Layer
- Technical requirements
- Getting started with SQL query engines
- Deploying Trino in Kubernetes
- Deploying Elasticsearch in Kubernetes
- Summary
- Chapter 10: Building a Big Data Pipeline on Kubernetes
- Technical requirements
- Checking the deployed tools
- Building a batch pipeline
- Building a real-time pipeline
- Summary
- Chapter 11: Generative AI on Kubernetes
- Technical requirements
- What generative AI is and what it is not
- Using Amazon Bedrock to work with foundational models
- Building a generative AI application on Kubernetes
- Building RAG with Knowledge Bases for Amazon Bedrock
- Building action models with agents
- Summary
- Chapter 12: Where to Go from Here
- Important topics for big data in Kubernetes
- What about team skills?
- Summary
- Index
- Other Books You May Enjoy
مشخصات
نام کتاب
Big Data on Kubernetes: A practical guide to building efficient and scalable data solutions Edition: 1
نویسنده
Neylson Crepalde
انتشارات
Packt Publishing
تاریخ انتشار
2024
ISBN
9781835462140
تعداد صفحات
297
زبان
انگلیسی
فرمت
حجم
10MB
موضوع
Big Data, Kubernetes