Hadoop คืออะไร?

สร้างบัญชี AWS

สำรวจข้อเสนอ Analytics ฟรี

ดูข้อเสนอฟรีสำหรับบริการ Analytics ในระบบคลาวด์

ตรวจสอบ Analytics Service

สร้างสรรค์นวัตกรรมได้เร็วยิ่งขึ้นด้วยชุดบริการ Analytics ที่ครอบคลุมที่สุด

เรียกดู Analytics Training

เริ่มต้นการฝึกอบรม Analytics ด้วยเนื้อหาที่จัดทำขึ้นโดยผู้เชี่ยวชาญของ AWS

อ่านบล็อก Analytics

อ่านเกี่ยวกับผลิตภัณฑ์ Analytics ใหม่ล่าสุดของ AWS

Hadoop คืออะไร?

Apache Hadoop เป็นโอเพนซอร์สเฟรมเวิร์กที่ใช้เก็บและประมวลผลชุดข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพตามขนาดต่าง ๆ ตั้งแต่ข้อมูลขนาดกิกะไบต์ไปถึงเพตาไบต์ แทนที่จะใช้คอมพิวเตอร์ความจุขนาดใหญ่หนึ่งเครื่องเพื่อประมวลผลและจัดเก็บข้อมูล Hadoop ช่วยให้คุณสามารถจัดคลัสเตอร์เครื่องคอมพิวเตอร์หลายเครื่องเข้าไว้ด้วยกันเพื่อวิเคราะห์ชุดข้อมูลปริมาณมหาศาลพร้อมกันได้อย่างรวดเร็วขึ้น

โมดูลหลักสี่โมดูลของ Hadoop คืออะไร

Hadoop ประกอบด้วยสี่โมดูลหลัก:

Hadoop Distributed File System (HDFS) – ระบบไฟล์แบบกระจายที่ทำงานบนฮาร์ดแวร์มาตรฐานหรือฮาร์ดแวร์ระดับล่าง HDFS ให้อัตราการโอนถ่ายข้อมูลที่ดีกว่าระบบไฟล์แบบเดิม นอกเหนือจากความทนทานต่อความเสียหายสูงและการสนับสนุนชุดข้อมูลขนาดใหญ่แบบเนทีฟ
Yet Another Resource Negotiator (YARN) – จัดการและตรวจสอบการใช้โหนดคลัสเตอร์และทรัพยากร ซึ่งจะกำหนดเวลางานและงาน
MapReduce – เฟรมเวิร์กที่ช่วยให้โปรแกรมทำการประมวลผลข้อมูลแบบขนาน งานจับคู่ใช้ข้อมูลอินพุตและแปลงเป็นชุดข้อมูลที่สามารถประมวลผลเป็นคู่ของค่าคีย์ได้ เอาต์พุตของงานจับคู่ถูกใช้โดยการลดงานเพื่อรวมเอาต์พุตและให้ผลลัพธ์ที่ต้องการ
Hadoop Common – ให้ไลบรารี Java ทั่วไปที่สามารถใช้ได้กับทุกโมดูล

Hadoop ทำงานอย่างไร

Hadoop ช่วยให้ใช้ความสามารถด้านพื้นที่เก็บและการประมวลผลทั้งหมดในคลัสเตอร์เซิร์ฟเวอร์ได้ง่ายขึ้น และดำเนินการกระบวนการแบบกระจายกับข้อมูลจำนวนมหาศาล Hadoop ให้องค์ประกอบสำคัญที่สามารถสร้างบริการและแอปพลิเคชันอื่นๆ ได้

แอปพลิเคชันที่รวบรวมข้อมูลในรูปแบบต่างๆ สามารถวางข้อมูลลงในคลัสเตอร์ Hadoop ได้โดยใช้การดำเนินการ API เพื่อเชื่อมต่อกับ NameNode NameNode ติดตามโครงสร้างไดเร็กทอรีไฟล์และตำแหน่งของ “กอง” สำหรับแต่ละไฟล์ ซึ่งจำลองแบบทั่ว DataNodes หากต้องการเรียกใช้งานเพื่อสืบค้นข้อมูล ให้งาน MapReduce ที่ประกอบด้วยการจับคู่จำนวนมาก และลดงานที่เรียกใช้กับข้อมูลใน HDFS ที่กระจายไปทั่ว DataNodes งานจับคู่จะเรียกใช้บนแต่ละโหนดโดยเทียบกับไฟล์อินพุตที่ให้มา และตัวลดจะเรียกใช้เพื่อรวบรวมและจัดระเบียบเอาต์พุตสุดท้าย

ระบบนิเวศ Hadoop มีการพัฒนาอย่างไร

ระบบนิเวศ Hadoop เติบโตขึ้นอย่างมากในช่วงหลายปีที่ผ่านมาเนื่องจากมีความสามารถในการขยาย ปัจจุบัน ระบบนิเวศของ Hadoop มีเครื่องมือและแอปพลิเคชันมากมายที่ช่วยรวบรวม เก็บ ประมวลผล วิเคราะห์ และจัดการ Big Data แอปพลิเคชันยอดนิยมบางส่วน ได้แก่:

Spark – โอเพนซอร์สระบบประมวลผลแบบกระจาย ซึ่งมักนำไปใช้สำหรับเวิร์กโหลด Big Data Apache Spark ใช้การแคชในหน่วยความจำและการดำเนินการที่ดีที่สุดเพื่อให้มีประสิทธิภาพการทำงานที่รวดเร็ว และรองรับการประมวลผลแบบแบทช์ทั่วไป การวิเคราะห์การสตรีม แมชชีนเลิร์นนิง ฐานข้อมูลแบบกราฟ และการสืบค้นข้อมูลแบบเฉพาะกิจ
Presto – โปรแกรมสืบค้น SQL แบบโอเพนซอร์สแบบกระจายที่ได้รับการปรับให้เหมาะสมสำหรับการวิเคราะห์ข้อมูลเฉพาะกิจที่มีเวลาแฝงต่ำ รองรับมาตรฐาน ANSI SQL รวมถึงการสืบค้นที่ซับซ้อน การรวบรวม การรวม และฟังก์ชันหน้าต่าง Presto สามารถประมวลผลข้อมูลจากแหล่งที่มาของข้อมูลหลายแหล่ง รวมถึง Hadoop Distributed File System (HDFS) และ Amazon S3
Hive – ช่วยให้ผู้ใช้สามารถใช้ประโยชน์จาก Hadoop MapReduce โดยใช้อินเทอร์เฟซ SQL เพื่อเปิดใช้การวิเคราะห์ในขนาดใหญ่ เพิ่มเติมจากคลังข้อมูลขนาดใหญ่ แบบกระจาย และทนทานต่อความเสียหาย
HBase – ฐานข้อมูลเวอร์ชันโอเพนซอร์สที่ไม่เกี่ยวข้องซึ่งทำงานบน Amazon S3 (โดยใช้ EMRFS) หรือ Hadoop Distributed File System (HDFS) HBase เป็นที่เก็บ Big Data แบบกระจายที่สามารถปรับขนาดได้อย่างมาก สร้างขึ้นเพื่อการเข้าถึงแบบเรียลไทม์แบบสุ่มสม่ำเสมอสำหรับตารางที่มีแถวหลายพันล้านแถวและหลายล้านคอลัมน์
Zeppelin – สมุดบันทึกแบบโต้ตอบที่ช่วยให้สามารถสำรวจข้อมูลแบบอินเทอร์แอคทีฟได้

AWS รองรับข้อกำหนด Hadoop ของคุณได้อย่างไร

Amazon EMR คือบริการที่มีการจัดการซึ่งจะช่วยให้คุณสามารถประมวลผลและวิเคราะห์ชุดข้อมูลขนาดใหญ่โดยใช้เฟรมเวิร์กการประมวลผลข้อมูลBig Dataเวอร์ชันล่าสุด เช่น Apache Hadoop, Spark, HBase และ Presto กับคลัสเตอร์แบบกำหนดเองเต็มรูปแบบ

ใช้งานง่าย: คุณสามารถเปิดใช้งานคลัสเตอร์ Amazon EMR ได้ภายในไม่กี่นาที คุณไม่จำเป็นต้องกังวลเรื่องการจัดเตรียมโหนด การตั้งค่าคลัสเตอร์ การกำหนดค่า Hadoop หรือการปรับแต่งคลัสเตอร์
ค่าใช้จ่ายน้อย: ค่าบริการ Amazon EMR นั้นง่ายและคาดการณ์ได้: คุณจ่ายอัตรารายชั่วโมงสำหรับทุกชั่วโมงอินสแตนซ์ที่คุณใช้ และคุณสามารถใช้ประโยชน์จาก Spot Instance เพื่อการประหยัดยิ่งขึ้น
ยืดหยุ่น: คุณสามารถจัดเตรียมอินสแตนซ์การประมวลผลหนึ่ง หลายร้อย หรือหลายพันอินสแตนซ์เพื่อประมวลผลข้อมูลในทุกระดับได้ด้วย Amazon EMR
ชั่วคราว: คุณสามารถใช้ EMRFS เพื่อเรียกใช้คลัสเตอร์ตามความต้องการโดยอิงตามข้อมูล HDFS ที่เก็บอย่างต่อเนื่องใน Amazon S3 เมื่องานเสร็จสิ้น คุณสามารถปิดคลัสเตอร์และบันทึกข้อมูลใน Amazon S3 ได้ คุณจ่ายเฉพาะเวลาประมวลผลที่คลัสเตอร์กำลังถูกเรียกใช้อยู่เท่านั้น
ปลอดภัย: Amazon EMR ใช้คุณลักษณะการรักษาความปลอดภัยทั่วไปทั้งหมดของบริการ AWS
- หน้าที่และนโยบาย Identity and Access Management (IAM) เพื่อจัดการสิทธิ์
- การเข้ารหัสระหว่างส่งผ่านและระหว่างพักเก็บเพื่อช่วยคุณปกป้องข้อมูลของคุณและทำตามมาตรฐานการปฏิบัติตามข้อกำหนด เช่น HIPAA
- กลุ่มมาตรการรักษาความปลอดภัยเพื่อควบคุมการรับส่งข้อมูลเครือข่ายขาเข้าและขาออกไปยังโหนดคลัสเตอร์ของคุณ
- AWS CloudTrail: ตรวจสอบการเรียกใช้ Amazon EMR PI ทั้งหมดในบัญชีของคุณเพื่อให้การวิเคราะห์การรักษาความปลอดภัย การติดตามการเปลี่ยนแปลงทรัพยากร และการตรวจสอบการปฏิบัติตามข้อกำหนด