คลังข้อมูล, Data Lake และ Data Mart ต่างกันอย่างไร

คลังข้อมูล, Data Lake และ Data Mart เป็นทางเลือกในการเก็บข้อมูลบนระบบคลาวด์ที่แตกต่างกัน คลังข้อมูลจะเก็บข้อมูลในรูปแบบที่มีโครงสร้าง เป็นคลังส่วนกลางที่เก็บข้อมูลก่อนการประมวลผลเพื่อการวิเคราะห์และระบบธุกิจอัจฉริยะ Data Martคือคลังข้อมูลที่ตอบสนองความต้องการของหน่วยธุรกิจแบบเฉพาะเจาะจง เช่น ฝ่ายการเงิน ฝ่ายการตลาด หรือฝ่ายขายของบริษัท ในทางตรงข้าม Data Lake คือคลังส่วนกลางสำหรับข้อมูลดิบและข้อมูลที่ไม่มีโครงสร้าง คุณสามารถจัดเก็บข้อมูลก่อน และจัดระเบียบทีหลังได้

ความคล้ายคลึงระหว่างคลังข้อมูล, Data Mart และ Data Lake

องค์กรทุกวันนี้สามารถเข้าถึงข้อมูลที่เพิ่มปริมาณขึ้นเรื่อยๆ อย่างไรก็ตาม องค์กรเหล่านี้ต้องจัดเรียง ดำเนินการ คัดแยก และวิเคราะห์ข้อมูลดิบเพื่อนำไปใช้ประโยชน์ ในขณะเดียวกัน พวกเขาต้องทำตามกฎการป้องกันข้อมูลและความปลอดภัย ตัวอย่างเช่น แนวทางการปฏิบัติที่องค์กรต้องทำตาม ซึ่งได้แก่

  • รวบรวมข้อมูลจากหลายแหล่ง เช่น แอปพลิเคชัน ผู้ขาย Internet of Things (IoT) ผู้พิจารณาเนื้อหาสิ่งพิมพ์ และองค์กรภายนอกอื่นๆ
  • จัดการให้ข้อมูลอยู่ในรูปแบบที่แม่นยำ น่าเชื่อถือ และมีประโยชน์ ตัวอย่างเช่น หลายองค์กรสามารถจัดการข้อมูลให้วันที่ทั้งหมดในระบบอยู่ในรูปแบบมาตรฐาน หรือสรุปรายงานประจำวัน
  • จัดเตรียมข้อมูลโดยสร้างรูปแบบไฟล์ XML สำหรับซอฟต์แวร์แมชชีนเลิร์นนิง หรือสร้างรายงานสำหรับมนุษย์

หลายองค์กรใช้เครื่องมือและโซลูชันที่หลากหลาย เพื่อให้ได้มาซึ่งผลลัพธ์จากการวิเคราะห์ข้อมูลที่พวกเขาต้องการ คลังข้อมูล, Data Mart และ Data Lake คือทางออกที่จะช่วยเก็บข้อมูล

อ่านเพิ่มเติมเกี่ยวกับ XML »

ประโยชน์ของคลังข้อมูล, Data Lake และ Data Mart ที่เก็บบนระบบคลาวด์

โซลูชันการเก็บข้อมูลทั้ง 3 แบบนี้ช่วยให้มีข้อมูลที่พร้อม มีความเสถียร และมีความปลอดภัยมากขึ้น ตัวอย่างวิธีการใช้งานมีดังนี้

  • เก็บข้อมูลทางธุรกิจของคุณอย่างปลอดภัยเพื่อนำไปวิเคราะห์
  • เก็บข้อมูลได้อย่างไม่จำกัดปริมาณ และเก็บได้นานเท่าที่ต้องการ
  • ตรวจสอบข้อมูลด้วยการผสมผสานข้อมูลจากการดำเนินการธุรกิจหลากหลายที่
  • วิเคราะห์ข้อมูลทางประวัติศาสตร์หรือฐานข้อมูลที่เป็นมรดก
  • ตรวจสอบการวิเคราะห์แบบเรียลไทม์หรือแบบเป็นชุด

นอกจากนี้ ทั้งสามทางเลือกนี้ต่างก็คุ้มกับค่าใช้จ่าย เพราะคุณจ่ายเฉพาะพื้นที่เก็บข้อมูลที่คุณใช้เท่านั้น คุณสามารถเก็บข้อมูลของคุณได้ทั้งหมด นำไปวิเคราะห์เพื่อหารูปแบบและแนวโน้ม และใช้ข้อมูลเพื่อเพิ่มประสิทธิภาพการดำเนินธุรกิจของคุณ

ความแตกต่างที่สำคัญ: คลังข้อมูลเทียบกับ Data Mart

คลังข้อมูลคือฐานข้อมูลแบบเชิงสัมพันธ์ที่เก็บข้อมูลจากระบบธุรกรรมและแอปพลิเคชันฟังก์ชันทางธุรกิจ ข้อมูลทั้งหมดในคลังมีโครงสร้างหรือมีแบบจำลองล่วงหน้าเป็นตาราง โครงสร้างข้อมูลและสคีมาได้รับการออกแบบมาเพื่อเพิ่มประสิทธิภาพสำหรับการสืบค้นข้อมูล SQL ที่รวดเร็ว Data Mart เป็นคำทางการตลาดที่แตกต่างออกไปสำหรับเทคโนโลยีเดียวกัน ซึ่งเป็นฐานข้อมูลแบบเชิงสัมพันธ์เหมือนกัน แต่การใช้งานจริงแตกต่างจากคลังข้อมูลอย่างมาก ความแตกต่างหลักแสดงไว้ด้านล่างดังนี้

อ่านเพิ่มเติมเกี่ยวกับ SQL »

แหล่งที่มาของข้อมูล

คลังข้อมูลมีหลายแหล่งทั้งภายในและภายนอก คุณสามารถดึงข้อมูลได้จากทุกที่ แปลงเป็นรูปแบบที่มีโครงสร้าง และโหลดลงในคลังของคุณได้ Data Mart มีแหล่งที่มาของข้อมูลน้อยกว่าและมีแนวโน้มที่จะมีขนาดเล็กลง

สิ่งที่สำคัญ

โดยทั่วไปแล้ว คลังข้อมูลจะจัดเก็บข้อมูลจากหลายหน่วยธุรกิจ ซึ่งจะรวมข้อมูลจากทั่วทั้งองค์กรจากส่วนกลางเพื่อการวิเคราะห์ที่ครอบคลุม Data Mart จะมุ่งเน้นเรื่องเดียวและจะกระจายศูนย์มากขึ้นตามลักษณะธรรมชาติ โดยมักจะกรองและสรุปข้อมูลจากคลังข้อมูลอื่นที่มีอยู่แล้ว

การใช้ประโยชน์

ผู้ใช้และโครงการจำนวนมากต้องการข้อมูลที่จัดเก็บไว้ในคลังข้อมูล ดังนั้น คลังจึงมักมีอายุการใช้งานที่ยาวนานกว่าและมีความซับซ้อนตามธรรมชาติมากกว่า ในทางกลับกัน Data Mart อาจมุ่งเน้นที่โครงการซึ่งมีการใช้งานที่จำกัด ทีมต้องการสร้าง Data Mart จากคลังข้อมูลขององค์กรและยุติเมื่อกรณีการใช้งานเสร็จสิ้น

แนวทางการออกแบบ

นักวิทยาศาสตร์ข้อมูลใช้การวิเคราะห์จากบนลงล่างเมื่อออกแบบคลังข้อมูล พวกเขาวางแผนสถาปัตยกรรมโดยรวมก่อน แล้วแก้ปัญหาที่เกิดขึ้น อย่างไรก็ตาม Data Mart ทำให้วิศวกรข้อมูลได้รับรู้รายละเอียดต่างๆ เช่น ค่า ชนิดข้อมูล และแหล่งที่มาของข้อมูลภายนอก พวกเขาจึงสามารถวางแผนการดำเนินการตั้งแต่เริ่มต้นและใช้การวิเคราะห์จากล่างขึ้นบนในการออกแบบ Data Mart ได้

 

คุณลักษณะ คลังข้อมูล Data Mart
ขอบเขต

รวมศูนย์ ผสานรวมหลายเนื้อหาเข้าด้วยกัน

กระจายศูนย์ เจาะจงเฉพาะบางเนื้อหา

ผู้ใช้

ทั่วทั้งองค์กร

ชุมชนหรือฝ่ายเดียว

แหล่งที่มาของข้อมูล

หลายแหล่งที่มา

แหล่งข้อมูลเดียวหรือสองสามแหล่ง หรือข้อมูลบางส่วนที่รวบรวมไว้แล้วในคลังข้อมูล

ขนาด

ขนาดใหญ่ อาจมีขนาดตั้งแต่ 100 กิกะไบต์ถึงเพตะไบต์

ขนาดเล็ก ปกติจะมีขนาดสูงสุด 10 กิกะไบต์

การออกแบบ

จากบนลงล่าง

จากล่างขึ้นบน

รายละเอียดข้อมูล

ข้อมูลละเอียดครบถ้วน

อาจเก็บข้อมูลสรุป

 

เรียนรู้เพิ่มเติมเกี่ยวกับคลังข้อมูล

เรียนรู้เพิ่มเติมเกี่ยวกับ Data Mart

ความแตกต่างที่สำคัญ: คลังข้อมูลเทียบกับ Data Lake

คลังข้อมูลและ Data Lake เป็นสองเทคโนโลยีที่เกี่ยวข้องกัน แต่โดยพื้นฐานแล้วแตกต่างกัน ในขณะที่คลังข้อมูลจะจัดเก็บข้อมูลตามโครงสร้าง แต่ Lake จะเป็นแหล่งเก็บข้อมูลส่วนกลางที่ให้คุณจัดเก็บข้อมูลได้ทุกขนาด Data Lake มีตัวเลือกในการจัดเก็บข้อมูลมากกว่า มีความซับซ้อนมากกว่า และมีกรณีการใช้งานที่แตกต่างกันเมื่อเทียบกับคลังข้อมูล ความแตกต่างหลักแสดงไว้ด้านล่างดังนี้

แหล่งที่มาของข้อมูล

Data Lake และคลังข้อมูลสามารถมีแหล่งที่มาของข้อมูลได้ไม่จำกัด อย่างไรก็ตาม คลังข้อมูลกำหนดให้คุณต้องออกแบบสคีมาก่อนจึงจะสามารถบันทึกข้อมูลได้ คุณสามารถโหลดเฉพาะข้อมูลที่มีโครงสร้างเข้าสู่ระบบได้เท่านั้น แต่ในทางกลับกัน Data Lake ไม่มีข้อกำหนดดังกล่าว ซึ่งสามารถจัดเก็บข้อมูลที่ไม่มีโครงสร้างและกึ่งมีโครงสร้าง เช่น ข้อมูลบันทึกของเว็บเซิร์ฟเวอร์ คลิกสตรีม โซเชียลมีเดีย และข้อมูลเซ็นเซอร์

กระบวนการก่อนการประมวลผล

คลังข้อมูลโดยทั่วไปต้องมีการประมวลผลล่วงหน้าก่อนการจัดเก็บ เครื่องมือกระบวนการ Extract, Transform Load (ETL) จะถูกใช้เพื่อล้าง กรอง และจัดโครงสร้างชุดข้อมูลล่วงหน้า ในทางตรงกันข้าม Data Lake จะเก็บข้อมูลใดๆ คุณจึงมีความยืดหยุ่นโดยสามารถเลือกได้ว่าต้องการประมวลผลล่วงหน้าหรือไม่ ซึ่งโดยทั่วไปแล้ว องค์กรจะใช้เครื่องมือกระบวนการ Extract, Load, Transform (ELT) โดยจะโหลดข้อมูลใน Lake ก่อน แล้วแปลงเมื่อจำเป็นเท่านั้น

คุณภาพข้อมูล

คลังข้อมูลมีแนวโน้มที่น่าเชื่อถือมากกว่า เนื่องจากคุณสามารถดำเนินการประมวลผลล่วงหน้าได้ ซึ่งฟังก์ชันต่างๆ เช่น การขจัดข้อมูลซ้ำซ้อน การเรียงลำดับ การสรุป และการตรวจสอบ ก็มารถทำได้ล่วงหน้าเพื่อรับรองความถูกต้องของข้อมูล ข้อมูลที่ซ้ำกันหรือผิดพลาดและไม่ได้รับการตรวจสอบก็อาจจบลงที่ Data Lake หากไม่มีการตรวจสอบล่วงหน้า

ประสิทธิภาพ

คลังข้อมูลได้รับการออกแบบมาเพื่อประสิทธิภาพการสืบค้นที่เร็วที่สุด ผู้ใช้ทางธุรกิจต้องการคลังข้อมูลเพื่อให้สามารถสร้างรายงานได้อย่างมีประสิทธิภาพมากขึ้น แต่ในทางตรงกันข้าม สถาปัตยกรรม Data Lake ให้ความสำคัญกับปริมาณพื้นที่จัดเก็บและต้นทุนมากกว่าประสิทธิภาพ คุณจะได้พื้นที่เก็บข้อมูลมากขึ้นในราคาที่ถูกลง และยังสามารถเข้าถึงข้อมูลด้วยความเร็วที่เหมาะสม

 

คุณลักษณะ คลังเก็บข้อมูล Data Lake
ข้อมูล

ข้อมูลแบบเชิงสัมพันธ์จากระบบธุรกรรม ฐานข้อมูลเชิงปฏิบัติการ และกลุ่มแอปพลิเคชันทางธุรกิจ

ข้อมูลทั้งหมดที่มีโครงสร้าง กึ่งมีโครงสร้าง และไม่มีโครงสร้าง

สคีมา

มักจะถูกออกแบบมาก่อนหน้าการใช้คลังข้อมูล แต่ก็ยังสามารถเขียนได้ในขั้นตอนการวิเคราะห์

(schema-on-write หรือ schema-on-read)

เขียนเมื่อมีการวิเคราะห์ (schema-on-read)

ราคา/ประสิทธิภาพ

ผลการสืบค้นที่รวดเร็วที่สุดโดยใช้พื้นที่เก็บภายใน

จะได้ผลการสืบค้นเร็วขึ้นเมื่อใช้พื้นที่จัดเก็บราคาถูก และยกเลิกการเชื่อมต่อระหว่างคอมพิวเตอร์กับพื้นที่จัดเก็บ

คุณภาพข้อมูล

ข้อมูลที่จัดเตรียมอย่างดีซึ่งใช้เป็นความจริงพื้นฐาน

ข้อมูลใดๆ ที่อาจได้รับหรือไม่ได้รับการจัดเตรียม (เช่น ข้อมูลดิบ)

ผู้ใช้

นักวิเคราะห์ทางธุรกิจ นักวิทยาศาสตร์ข้อมูล และนักพัฒนาข้อมูล

นักวิเคราะห์ทางธุรกิจ (โดยใช้ข้อมูลที่จัดเตรียม) นักวิทยาศาสตร์ข้อมูล และนักพัฒนาข้อมูล วิศวกรข้อมูล และสถาปนิกข้อมูล

การวิเคราะห์

การรายงานเป็นชุด, BI และการแสดงภาพ

แมชชีนเลิร์นนิง การวิเคราะห์เชิงสำรวจ การค้นหาข้อมูล การสตรีม การวิเคราะห์เชิงปฏิบัติการ Big Data และการทำโปรไฟล์

  เรียนรู้เพิ่มเติมเกี่ยวกับคลังข้อมูล เรียนรู้เพิ่มเติมเกี่ยวกับ Data Lake

เมื่อใดควรใช้ Data Lake เทียบกับคลังข้อมูล เทียบกับ Data Mart

องค์ขนาดใหญ่มักใช้ทั้ง Data Lake คลังเก็บข้อมูล และ Data Mart รวมกันเป็นระบบพื้นฐานในการจัดเก็บข้อมูล โดยปกติแล้ว ข้อมูลทั้งหมดถูกนำเข้าสู่ Data Lake จากนั้นจะถูกโหลดเข้าไปยังคลังข้อมูล และ Data Mart ที่แตกต่างกันไปเพื่อให้เหมาะสมกับกรณีการใช้งาน การตัดสินใจทางเทคโนโลยีขึ้นอยู่กับปัจจัยที่หลากหลาย ซึ่งจะอธิบายด้านล่างนี้ 

ความยืดหยุ่น

โดยหลักๆ แล้ว Data Lake จะมอบความยืดหยุ่นให้ได้ในราคาที่ถูกกว่า แม้จะอยู่คนละทีมก็สามารถเข้าถึงข้อมูลเดียวกันได้โดยเลือกใช้เครื่องมือวิเคราะห์และขอบข่ายงานที่ต้องการ คุณสามารถประหยัดเวลาได้ เพราะไม่มีความจำเป็นที่จะต้องคอยระบุโครงสร้างข้อมูล สคีมา และการโอนย้ายข้อมูล

ประเภทข้อมูล

คลังข้อมูลเป็นตัวเลือกที่ดีกว่า หากคุณอยากเก็บข้อมูลแบบเชิงสัมพันธ์ เช่น ข้อมูลลูกค้าและกระบวนการทางธุรกิจ หากคุณมีข้อมูลแบบเชิงสัมพันธ์เยอะ ทีมของคุณอาจลองพิจารณาสร้าง Data Mart สำหรับความต้องการทางธุรกิจที่เฉพาะเจาะจง ตัวอย่างเช่น ฝ่ายบัญชีอาจสร้าง Data Mart เพื่อเก็บบัญชีงบดุล และจัดเตรียมงบบัญชีลูกค้า ขณะที่แผนกการตลาดอาจสร้าง Data Mart สำหรับการทำแคมเปญโฆษณาที่เหมาะสม

ค่าใช้จ่ายและปริมาณ

คลังข้อมูลสามารถรองรับข้อมูลได้หลายร้อย Petabyte (PB) อย่างมีประสิทธิภาพ Data Lake มอบตัวเลือกที่ค่าใช้จ่ายถูกกว่าแต่ได้ปริมาณข้อมูลที่เยอะว่า โดยเฉพาะรูปและวิดีโอที่เก็บได้เยอะจุใจ อย่างไรก็ตาม ไม่ใช่ทุกองค์กรที่ต้องการขนาดความจุเยอะ 

AWS จะช่วยเรื่องความต้องการพื้นที่เก็บของคุณได้อย่างไรบ้าง

AWS นำเสนอบริการวิเคราะห์ที่หลากหลายที่สุดซึ่งตรงกับความต้องการด้านการวิเคราะห์ข้อมูลของคุณทั้งหมด เราช่วยให้อุตสาหกรรมและองค์กรทุกขนาดได้สร้างธุรกิจใหม่ด้วยการใช้ข้อมูล ตัวอย่างวิธีการใช้ AWS มีดังนี้

  • ใช้ Amazon Redshift สำหรับการจัดเก็บข้อมูลในคลังข้อมูลและความต้องการของ Data Mart คุณสามารถรับข้อมูลเชิงลึกแบบผสานรวมด้วยการเรียกใช้การวิเคราะห์เชิงคาดการณ์แบบเรียลไทม์บนข้อมูลที่ซับซ้อนและปรับขนาดได้ทั่วทั้ฐานข้อมูลเชิงปฏิบัติการ, Data Lake, คลังข้อมูล และชุดข้อมูลภายนอกหลายพันชุด คุณสามารถสร้าง ฝึกอบรม และปรับใช้โมเดลแมชชีนเลิร์นนิงโดยอัตโนมัติได้ง่ายๆ
  • ใช้ AWS Lake Formation เพื่อสร้าง จัดการ และจัดเก็บ Data Lake ให้ปลอดภัยได้ภายในไม่กี่วัน นำเข้าข้อมูลจากแหล่งที่มาของข้อมูลทั้งหมดของคุณอย่างรวดเร็ว จากนั้น อธิบายและจัดการข้อมูลเหล่านั้นในแค็ตตาล็อกข้อมูลแบบรวมศูนย์
  • ใช้ Amazon S3 เพื่อสร้าง Data Lake สำหรับการวิเคราะห์ Big Data ปัญญาประดิษฐ์ แมชชีนเลิร์นนิ่ง และแอปพลิเคชันคอมพิวเตอร์ปฏิบัติการขั้นสูง

เริ่มต้นใช้งานการเก็บข้อมูลบน AWS ด้วยการสร้างบัญชีฟรีวันนี้

ขั้นตอนถัดไปบน AWS

เรียนรู้เพิ่มเติมเกี่ยวกับบริการฐานข้อมูล
เริ่มต้นสร้างด้วยคลังข้อมูล

เรียนรู้วิธีเริ่มต้นใช้งานคลังข้อมูลบน AWS

เรียนรู้เพิ่มเติม 
ลงชื่อสมัครใช้งานบัญชีฟรี
เริ่มต้นสร้างด้วย Data Mart

เรียนรู้วิธีเริ่มต้นใช้งาน Data Mart บน AWS

เรียนรู้เพิ่มเติม 
เริ่มต้นสร้างในคอนโซล
เริ่มต้นสร้างด้วย Data Lake

เรียนรู้วิธีเริ่มต้นใช้งาน Data Lake บน AWS

เรียนรู้เพิ่มเติม