Hadoop และ Spark แตกต่างกันอย่างไร

Apache Hadoop และ Apache Spark เป็นเฟรมเวิร์กแบบโอเพนซอร์สสองเฟรมเวิร์กที่คุณสามารถใช้จัดการและประมวลผลข้อมูลจำนวนมากสำหรับการวิเคราะห์ได้ องค์กรต้องประมวลผลข้อมูลในปริมาณมากและรวดเร็วเพื่อรับข้อมูลเชิงลึกแบบเรียลไทม์สำหรับระบบธุรกิจอัจฉริยะ (Business Intelligence) Apache Hadoop ช่วยให้คุณสามารถจัดคลัสเตอร์คอมพิวเตอร์หลายเครื่องเพื่อวิเคราะห์ชุดข้อมูลขนาดใหญ่ในแบบคู่ขนานได้รวดเร็วยิ่งขึ้น Apache Spark ใช้แคชแบบใช้หน่วยความจำและการสืบค้นแบบเพิ่มประสิทธิภาพเพื่อการสืบค้นเชิงวิเคราะห์กับข้อมูลทุกขนาดอย่างรวดเร็ว Spark เป็นเทคโนโลยีขั้นสูงกว่า Hadoop เนื่องจาก Spark ใช้ปัญญาประดิษฐ์และแมชชีนเลิร์นนิง (AI/ML) ในการประมวลผลข้อมูล อย่างไรก็ตาม หลายบริษัทเลือกใช้ Spark และ Hadoop ร่วมกันเพื่อให้บรรลุเป้าหมายในการวิเคราะห์ข้อมูลของตน

อ่านเกี่ยวกับ Apache Hadoop »

อ่านเกี่ยวกับ Apache Spark »

อะไรคือความคล้ายคลึงกันระหว่าง Hadoop และ Spark

ทั้ง Hadoop และ Spark เป็นระบบแบบกระจายที่ให้คุณประมวลผลข้อมูลได้ในระดับต่างๆ ซึ่งทั้งสองระบบสามารถกู้คืนจากความล้มเหลวหากการประมวลผลข้อมูลถูกขัดจังหวะได้ไม่ว่าด้วยเหตุผลใดก็ตาม

การประมวลผล Big Data แบบกระจาย

โดยทั่วไปแล้วจะมีการรวบรวม Big Data อยู่บ่อยครั้งในรูปแบบที่แตกต่างกัน

Apache Hadoop จะแยกชุดข้อมูลออกเป็นชุดย่อยๆ หรือพาร์ติชันที่เล็กกว่าในการจัดเก็บ จัดการ และประมวลผล Big Data จากนั้นจะเก็บพาร์ติชันเหล่านั้นไว้บนเครือข่ายเซิร์ฟเวอร์แบบกระจาย และเช่นเดียวกันที่ Apache Spark จะประมวลผลและวิเคราะห์ Big Data ผ่านโหนดแบบกระจายเพื่อให้ได้มาซึ่งข้อมูลเชิงลึกทางธุรกิจ

ทั้งนี้จะขึ้นอยู่กับกรณีการใช้งาน คุณอาจต้องผสานรวมทั้ง Hadoop และ Spark กับซอฟต์แวร์ที่แตกต่างกันเพื่อฟังก์ชันการใช้งานที่เหมาะสมที่สุด 

ความทนทานต่อความเสียหาย

Apache Hadoop จะยังคงทำงานต่อไปได้แม้ว่าโหนดการประมวลผลข้อมูลหนึ่งโหนดหรือหลายโหนดล้มเหลว ระบบจะสร้างสำเนาบล็อกข้อมูลเดียวกันเป็นหลายชุด และเก็บไว้ในหลายโหนด เมื่อโหนดล้มเหลว Hadoop จะดึงข้อมูลจากโหนดอื่นและเตรียมพร้อมสำหรับการประมวลผลข้อมูล

ในขณะเดียวกัน Apache Spark ก็จะอาศัยเทคโนโลยีการประมวลผลข้อมูลพิเศษที่เรียกว่า Resilient Distributed Dataset (RDD) ด้วยการใช้ RDD ทำให้ Apache Spark สามารถจดจำวิธีที่ระบบดึงข้อมูลเฉพาะจากที่เก็บข้อมูล และสามารถสร้างข้อมูลใหม่ได้หากที่เก็บข้อมูลพื้นฐานล้มเหลว 

องค์ประกอบระหว่างเฟรมเวิร์กของ Hadoop เทียบกับ เฟรมเวิร์กของ Spark

ทั้ง Hadoop และ Spark สร้างขึ้นจากโมดูลซอฟต์แวร์หลายตัวที่โต้ตอบและทำงานร่วมกันเพื่อทำให้ระบบทำงานได้

องค์ประกอบ ของ Hadoop

Apache Hadoop มีสี่องค์ประกอบหลักดังนี้

  • Hadoop Distributed File System (HDFS) คือระบบไฟล์แบบพิเศษที่จัดเก็บชุดข้อมูลขนาดใหญ่ในคอมพิวเตอร์หลายเครื่อง คอมพิวเตอร์เหล่านี้เรียกว่าคลัสเตอร์ Hadoop 
  • Yet Another Resource Negotiator (YARN) จะกำหนดเวลางานและจัดสรรทรัพยากรให้กับแอปพลิเคชันที่ทำงานบน Hadoop
  • Hadoop MapReduce ช่วยให้โปรแกรมสามารถแบ่งงานการประมวลผลข้อมูลขนาดใหญ่ออกเป็นส่วนย่อยๆ และรันแบบขนานบนเซิร์ฟเวอร์หลายเครื่องได้
  • Hadoop Common หรือ Hadoop Core มีไลบรารีซอฟต์แวร์ที่จำเป็นสำหรับองค์ประกอบของ Hadoop อื่นๆ 

องค์ประกอบของ Spark

Apache Spark จะดำเนินการโดยมีองค์ประกอบดังต่อไปนี้

  • Spark Core จะประสานการทำงานพื้นฐานของ Apache Spark ฟังก์ชันเหล่านี้รวมถึงการจัดการหน่วยความจำ พื้นที่เก็บข้อมูล การจัดตารางงาน และการประมวลผลข้อมูล 
  • Spark SQL ช่วยให้คุณสามารถประมวลผลข้อมูลในพื้นที่เก็บข้อมูลแบบกระจายของ Spark ได้ 
  • Spark Streaming และ Structured Streaming ช่วยให้ Spark สามารถสตรีมข้อมูลได้อย่างมีประสิทธิภาพได้แบบเรียลไทม์โดยจะแยกข้อมูลออกเป็นบล็อกขนาดเล็กอย่างต่อเนื่องกัน
  • Machine Learning Library (MLlib) มีอัลกอริทึมแมชชีนเลิร์นนิงหลายอย่างที่คุณสามารถนำไปใช้กับ Big Data ได้
  • GraphX ช่วยคุณในการแสดงภาพและวิเคราะห์ข้อมูลด้วยกราฟ 

ความแตกต่างที่สำคัญระหว่าง Hadoop กับ Spark

ทั้ง Hadoop และ Spark จะช่วยให้คุณสามารถประมวลผล Big Data ได้หลากหลายวิธี

Apache Hadoop ถูกสร้างขึ้นเพื่อมอบหมายการประมวลผลข้อมูลไปยังเซิร์ฟเวอร์หลายแห่ง แทนที่จะเรียกใช้เวิร์กโหลดในเครื่องเดียว

ในขณะที่ Apache Spark เป็นระบบประมวลผลข้อมูลที่ใหม่กว่าซึ่งเอาชนะในด้านข้อจำกัดหลักๆ ของ Hadoop แม้จะสามารถประมวลผลชุดข้อมูลขนาดใหญ่ได้ แต่ Hadoop จะทำกับข้อมูลเป็นชุดและมีความล่าช้าอย่างมาก

สถาปัตยกรรม

Hadoop มีระบบไฟล์ดั้งเดิมที่เรียกว่า Hadoop Distributed File System (HDFS) HDFS จะช่วยให้ Hadoop สามารถแบ่งบล็อกข้อมูลขนาดใหญ่ออกเป็นบล็อกขนาดเล็กหลายๆ ชุดได้ จากนั้นจะจัดเก็บบล็อกข้อมูลขนาดเล็กเอาไว้ในกลุ่มเซิร์ฟเวอร์

ในขณะที่ Apache Spark ไม่มีระบบไฟล์ดั้งเดิมของตัวเอง องค์กรหลายแห่งใช้งาน Spark บนระบบไฟล์ของ Hadoop เพื่อจัดเก็บ จัดการ และดึงข้อมูล

นอกจากนี้ คุณยังสามารถใช้ Amazon Redshift หรือ Amazon Simple Storage Service (Amazon S3) เป็นตัวเลือกการจัดเก็บข้อมูลสำหรับ Spark ได้อีกด้วย 

ประสิทธิภาพ

Hadoop สามารถประมวลผลชุดข้อมูลขนาดใหญ่เป็นชุดแต่อาจช้ากว่า ในการประมวลผลข้อมูล Hadoop จะอ่านข้อมูลจากที่จัดเก็บภายนอก จากนั้นจะวิเคราะห์และป้อนข้อมูลไปยังอัลกอริทึมของซอฟต์แวร์

สำหรับแต่ละขั้นตอนการประมวลผลข้อมูล Hadoop จะเขียนข้อมูลกลับไปยังที่จัดเก็บข้อมูลภายนอก ซึ่งจะทำให้เวลาแฝงเพิ่มขึ้น ดังนั้นจึงไม่เหมาะสำหรับงานการประมวลผลแบบเรียลไทม์ แต่เหมาะสำหรับเวิร์กโหลดที่มีความล่าช้าของเวลาที่ค่อนข้างดี ตัวอย่างเช่น Hadoop เหมาะกับการวิเคราะห์บันทึกยอดขายรายเดือน แต่อาจจะไม่ใช่ตัวเลือกที่ดีที่สุดในการพิจารณาความรู้สึกที่มีต่อแบรนด์แบบเรียลไทม์จากฟีดของโซเชียลมีเดีย 

ในทางกลับกัน Apache Spark ได้รับการออกแบบมาเพื่อประมวลผลข้อมูลจำนวนมหาศาลแบบเรียลไทม์

แทนที่จะเข้าถึงข้อมูลจากที่จัดเก็บข้อมูลภายนอก Spark จะคัดลอกข้อมูลไปยัง RAM ก่อนที่จะประมวลผล โดยจะเขียนข้อมูลกลับไปยังที่จัดเก็บข้อมูลภายนอกหลังจากทำงานแบบเฉพาะเจาะจงเสร็จสิ้นแล้วเท่านั้น การเขียนและการอ่านจาก RAM นั้นเร็วกว่าการดำเนินการกับไดรฟ์ภายนอกแบบทวีคูณ นอกจากนี้ Spark ยังนำข้อมูลที่ดึงมาใช้ซ้ำในการดำเนินการมากมาย

ดังนั้น Spark จึงทำงานได้ดีกว่า Hadoop ในระดับที่แตกต่างกันสำหรับการประมวลผลข้อมูลที่เรียบง่ายและซับซ้อน

แมชชีนเลิร์นนิง

Apache Spark มีไลบรารีแมชชีนเลิร์นนิงที่เรียกว่า MLlib นักวิทยาศาสตร์ด้านข้อมูลใช้ MLlib เพื่อเรียกใช้การวิเคราะห์รีเกรสชัน การจำแนกประเภท และงานจากแมชชีนเลิร์นนิงอื่นๆ นอกจากนี้ คุณยังสามารถฝึกโมเดลแมชชีนเลิร์นนิงด้วยข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และนำไปปรับใช้จริงสำหรับแอปพลิเคชันทางธุรกิจ

ในทางตรงกันข้าม Apache Hadoop จะไม่มีไลบรารีแมชชีนเลิร์นนิงในตัว แต่คุณสามารถผสานรวม Spark กับซอฟต์แวร์อื่นๆ เช่น Apache Mahout เพื่อสร้างระบบแมชชีนเลิร์นนิงแทนได้ การเลือกใช้ซอฟต์แวร์นั้นจะขึ้นอยู่กับความต้องการเฉพาะของเวิร์กโหลด คุณสามารถพิจารณาปัจจัยต่างๆเช่น ขนาดและความซับซ้อนของข้อมูล ประเภทของโมเดลแมชชีนเลิร์นนิงที่คุณต้องการใช้ และข้อกำหนดด้านประสิทธิภาพและความสามารถในการปรับขนาดของแอปพลิเคชันของคุณได้

การรักษาความปลอดภัย

Apache Hadoop ได้รับการออกแบบให้มีคุณสมบัติความปลอดภัยที่แข็งแกร่งเพื่อการปกป้องข้อมูล ตัวอย่างเช่น Hadoop ใช้การเข้ารหัสและการควบคุมการเข้าถึงเพื่อป้องกันไม่ให้บุคคลที่ไม่ได้รับอนุญาตเข้าถึงและจัดการกับพื้นที่เก็บข้อมูลได้

อย่างไรก็ตาม Apache Spark นั้นมีการป้องกันความปลอดภัยที่มีจำกัด จากข้อมูลของ Apache Software Foundation คุณต้องเปิดใช้คุณสมบัติการรักษาความปลอดภัยของ Spark และตรวจสอบให้แน่ใจว่าสภาพแวดล้อมที่ใช้งานนั้นปลอดภัยจริงๆ

Spark รองรับการนำไปใช้จริงหลายประเภท โดยบางประเภทจะมีความปลอดภัยมากกว่าประเภทอื่นๆ ตัวอย่างเช่น การนำ Spark ไปใช้จริงบน Hadoop จะช่วยเพิ่มความปลอดภัยโดยรวมได้เนื่องจากมีพื้นที่จัดเก็บแบบกระจายที่เข้ารหัสของ Hadoop อยู่ 

ความสามารถในการปรับขนาด

การปรับขนาดด้วย Hadoop จะใช้ความพยายามน้อยกว่า Spark หากคุณต้องการพลังการประมวลผลที่มากขึ้น คุณสามารถเพิ่มโหนดหรือคอมพิวเตอร์ให้มากขึ้นบน Hadoop ในราคาที่เหมาะสมได้

ในทางตรงกันข้าม การปรับขนาดการนำ Spark ไปใช้จริงมักจะต้องการการลงทุนใน RAM ที่เพิ่มขึ้น ค่าใช้จ่ายจะเพิ่มขึ้นอย่างรวดเร็วสำหรับโครงสร้างพื้นฐานภายในองค์กร 

ค่าใช้จ่าย

Apache Hadoop มีค่าบริการที่ย่อมเยาในการติดตั้งและเรียกใช้ เนื่องจากใช้ฮาร์ดดิสก์ในการจัดเก็บและประมวลผลข้อมูล คุณสามารถติดตั้ง Hadoop บนคอมพิวเตอร์มาตรฐานหรือคอมพิวเตอร์ที่มีประสิทธิภาพไม่สูงนักได้

ในขณะที่การประมวลผล Big Data ด้วย Spark จะมีค่าใช้จ่ายที่สูงกว่าเนื่องจากจะใช้ RAM สำหรับการประมวลผลในหน่วยความจำ โดยทั่วไปแล้ว RAM จะมีราคาแพงกว่าฮาร์ดดิสก์ที่มีขนาดพื้นที่เก็บข้อมูลเท่ากัน 

เมื่อใดควรเลือกใช้ Hadoop เทียบกับ Spark

Apache Spark ถูกพัฒนาขึ้นมาเพื่อเอาชนะข้อจำกัดของสถาปัตยกรรมการเข้าถึงที่เก็บข้อมูลภายนอกของ Hadoop Apache Spark จะแทนที่ไลบรารีการวิเคราะห์ข้อมูลเดิมของ Hadoop, MapReduce ที่มีความสามารถในการประมวลของแมชชีนเลิร์นนิงได้เร็วขึ้น

อย่างไรก็ตาม Spark จะแยกจากกันและไม่ทำงานพร้อมกันกับ Hadoop แม้ว่า Apache Spark จะสามารถทำงานเป็นเฟรมเวิร์กอิสระได้ แต่หลายองค์กรก็เลือกใช้งานทั้ง Hadoop และ Spark สำหรับการวิเคราะห์ Big Data 

ซึ่งคุณสามารถเลือกใช้งาน Hadoop หรือ Spark หรือทั้งสองอย่างสำหรับการประมวลผลข้อมูลได้ ทั้งนี้ขึ้นอยู่กับข้อกำหนดทางธุรกิจโดยเฉพาะ ปัจจัยที่คุณอาจนำไปพิจารณาในการตัดสินใจมีดังนี้

การปรับขนาดที่คุ้มค่า

Apache Hadoop เป็นตัวเลือกที่ดีกว่าสำหรับการสร้างและปรับขนาดไปป์ไลน์การประมวลผลข้อมูลที่มีความคุ้มค่า การเพิ่มคอมพิวเตอร์ในคลัสเตอร์ Hadoop ที่มีอยู่จะสามารถเพิ่มความสามารถในการประมวลผลของ Hadoop ได้มากขึ้น ซึ่งจะมีค่าใช้จ่ายที่ถูกกว่าการซื้อ RAM เพิ่มเพื่อปรับขนาดเฟรมเวิร์ก Apache Spark

การประมวลผลเป็นชุด

การประมวลผลเป็นชุดหมายถึงเวลาที่คุณประมวลผลข้อมูลจำนวนมากโดยไม่มีการจำกัดให้อยู่ในระยะเวลาที่กำหนด เมื่อต้องการใช้การประมวลผลเป็นชุด องค์กรต่างๆ จะเลือกใช้งาน Apache Hadoop เนื่องจากสามารถรองรับการประมวลผลแบบขนานในหลายโหนดได้ ตัวอย่างเช่น คุณสามารถใช้ Hadoop เพื่อสร้างรายงานสินค้าคงคลังที่ที่ไม่ได้ให้ความสำคัญด้านเวลาจากบันทึกนับหมื่นรายการได้

การวิเคราะห์แบบเรียลไทม์

ใช้ Apache Spark หากคุณกำลังจัดการกับข้อมูลที่มีการเคลื่อนที่อย่างรวดเร็ว Data Stream คือข่าวสารหรือข้อมูลที่ส่งอย่างต่อเนื่องโดยซอฟต์แวร์ Apache Spark สามารถประมวลผล Data Stream แบบสดและให้การวิเคราะห์เชิงลึกแบบเรียลไทม์ได้ ตัวอย่างเช่น สถาบันการเงินจะใช้ Apache Spark เพื่อตรวจจับการฉ้อโกงในการทำธุรกรรมที่เกิดขึ้นอยู่ และแจ้งเตือนเจ้าหน้าที่ธนาคาร

อ่านเพิ่มเติมเกี่ยวกับข้อมูลการสตรีม »

ความสามารถในด้านแมชชีนเลิร์นนิง

แมชชีนเลิร์นนิงจะเกี่ยวข้องกับเรื่องการฝึกฝนฟังก์ชันซอฟต์แวร์หรือโมเดลที่มีชุดข้อมูลจำนวนมาก Apache Spark เหมาะสำหรับงานดังกล่าวมากกว่าเนื่องจากมีไลบรารีแมชชีนเลิร์นนิงที่มาในตัว ซึ่งหมายความว่า Spark จะสามารถฝึกโมเดลแมชชีนเลิร์นนิงแบบเรียลไทม์ได้โดยไม่ต้องการผสานรวมจากภายนอกเพิ่มเติม

ความปลอดภัย ความรวดเร็ว และการวิเคราะห์เชิงโต้ตอบ

คุณสามารถใช้ Hadoop และ Spark เพื่อใช้ประโยชน์จากจุดแข็งของทั้งสองเฟรมเวิร์กได้ Hadoop มีการประมวลผลแบบกระจายที่ปลอดภัยและราคาไม่สูง หากคุณเรียกใช้งาน Spark บน Hadoop คุณจะสามารถเปลี่ยนเวิร์กโหลดที่ให้ความสำคัญกับเวลา เช่น งานวิเคราะห์กราฟ ไปยังตัวประมวลผลข้อมูลในหน่วยความจำของ Spark ได้ คุณจะได้รับประสิทธิภาพและการประมวลผลพื้นที่จัดเก็บข้อมูลภายนอกที่ปลอดภัยสำหรับการวิเคราะห์ของคุณ

สรุปความแตกต่างระหว่าง Hadoop เทียบกับ Spark

 

Hadoop

Spark

สถาปัตยกรรม

Hadoop จะจัดเก็บและประมวลผลข้อมูลบนที่จัดเก็บข้อมูลภายนอก

Spark จะจัดเก็บและประมวลผลข้อมูลในหน่วยความจำภายใน

ประสิทธิภาพ

Hadoop จะประมวลผลข้อมูลเป็นชุด

Spark จะประมวลผลข้อมูลแบบเรียลไทม์

ค่าใช้จ่าย

Hadoop มีค่าบริการที่จับต้องได้

Spark มีค่าบริการที่ค่อนข้างสูงกว่า 

ความสามารถในการปรับขนาด

Hadoop สามารถปรับขนาดได้ง่ายโดยการเพิ่มโหนด

Spark ค่อนข้างซับซ้อนกว่าเล็กน้อย

แมชชีนเลิร์นนิง

Hadoop จะผสานรวมกับไลบรารีภายนอกเพื่อมอบความสามารถในด้านแมชชีนเลิร์นนิง 

Spark จะมีไลบรารีแมชชีนเลิร์นนิงอยู่ในตัวอยู่แล้ว

การรักษาความปลอดภัย

Hadoop มีคุณสมบัติด้านความปลอดภัยที่แข็งแกร่ง การเข้ารหัสพื้นที่เก็บข้อมูล และการควบคุมการเข้าถึง

Spark มีความปลอดภัยขั้นพื้นฐาน สำหรับการปรับใช้งาน Spark แล้ว มันจะขึ้นอยู่กับคุณในการตั้งค่าสภาพแวดล้อมการทำงานที่ปลอดภัย 

AWS จะเวิร์กโหลดของ Big Data ของคุณได้อย่างไร

Amazon EMR คือแพลตฟอร์มออนไลน์ที่ช่วยคุณสร้าง นำไปใช้จริง และปรับขนาดโซลูชัน Big Data ได้ในราคาย่อมเยา ซึ่งรองรับเฟรมเวิร์ก Big Data แบบโอเพนซอร์สต่างๆ รวมถึง Apache Hadoop และ Spark องค์กรต่างๆ ใช้งาน Amazon EMR สำหรับการประมวลผลข้อมูลระดับเพตะไบต์ (PB) การวิเคราะห์เชิงโต้ตอบ และแอปพลิเคชันแมชชีนเลิร์นนิง

วิธีอืการอื่นๆ ที่คุณจะสามารถได้ประโยชน์จากการใช้ Amazon EMR มีดังนี้

  • Amazon EMR จะปรับขนาดทรัพยากรการประมวลผลที่แอปพลิเคชัน Big Data ของคุณต้องการโดยอัตโนมัติ
  • การเรียกใช้แอปพลิเคชัน Big Data บน Amazon EMR จะมีค่าใช้จ่ายน้อยกว่าครึ่งหนึ่งของโครงสร้างพื้นฐานภายในองค์กร
  • Amazon EMR ช่วยให้คุณสามารถจัดเก็บชุดข้อมูลของ Big Data บนที่เก็บข้อมูลนอกเหนือจาก Hadoop Distributed File System (HDFS) ได้ ตัวอย่างเช่น คุณสามารถจัดเก็บไว้บน Amazon Simple Storage Service (Amazon S3) และ Amazon DynamoDB ได้

เริ่มต้นใช้งาน Hadoop และ Spark บน Amazon Web Services (AWS) โดยสร้างบัญชีได้แล้ววันนี้