Data Lakehouse คืออะไร
Data Lakehouse คืออะไร
Data Lakehouse เป็นระบบการจัดการข้อมูลที่มอบการจัดเก็บข้อมูลที่ประหยัดค่าใช้จ่ายและยืดหยุ่นในวงกว้าง โดยที่ยังมอบความสามารถในการวิเคราะห์ เช่น การจัดโครงสร้าง การกำกับดูแล และการรายงาน ระบบนี้จะช่วยให้คุณสามารถจัดเก็บข้อมูลดิบในรูปแบบต่าง ๆ จากแหล่งที่มาหลายพันหรือแม้แต่หลายแสนแห่งได้อย่างคุ้มค่ามากขึ้นในพื้นที่ส่วนกลาง ข้อมูลยังสามารถใช้งานได้มากขึ้นด้วยเครื่องมือวิเคราะห์สำหรับการฝึกโมเดล AI และการสร้างรายงานและแดชบอร์ด Data Lakehouse มอบความสามารถมากมายที่ช่วยให้คุณสามารถประมวลผลข้อมูลดิบภายใน Lakehouse เพื่อการวิเคราะห์เพิ่มเติมได้
Data Lake, คลังข้อมูล และ Data Lakehouse แตกต่างกันอย่างไร
สถาปัตยกรรม Data Lakehouse เกิดขึ้นจากการรวมจุดแข็งของพื้นที่เก็บข้อมูลส่วนกลางแบบดั้งเดิม 2 แห่ง ได้แก่ คลังข้อมูลกับ Data Lake
คลังข้อมูล
คลังข้อมูลคือระบบพื้นที่เก็บข้อมูลที่ใช้เก็บข้อมูลที่มีโครงสร้างโดยอิงตามสคีมาข้อมูลมาตรฐาน สคีมาเป็นพิมพ์เขียวที่กำหนดไว้ล่วงหน้าซึ่งเป็นตัวกำหนดรูปแบบของข้อมูล ความสัมพันธ์ และโครงสร้างของข้อมูลในฐานข้อมูลแบบเชิงสัมพันธ์
องค์กรใช้ระบบคลังข้อมูลเพื่อให้เข้าถึงการประมวลผลข้อมูล การวิเคราะห์ระบบธุรกิจอัจฉริยะ และการรายงานขององค์กรได้อย่างรวดเร็ว การใช้คลังข้อมูลจะทำให้สามารถเข้าถึงเครื่องมือวิเคราะห์ขั้นสูง การกำกับดูแลข้อมูลที่มากประสิทธิภาพ และยังใช้งานง่ายสำหรับผู้ใช้ที่ไม่เชี่ยวชาญทางเทคนิค ตัวอย่างเช่น คุณสามารถดึงรายงานประสิทธิภาพทางการตลาดได้โดยใช้แดชบอร์ดในคลังข้อมูล
อย่างไรก็ตาม การใช้คลังข้อมูลนั้นจะทำให้วงจรการใช้งานของข้อมูลมีขั้นตอนที่ต้องดำเนินการเพิ่มขึ้น เพื่อให้ได้ข้อมูลเชิงลึกที่พร้อมสำหรับการวิเคราะห์ ข้อมูลจะเคลื่อนผ่านระบบเคลื่อนย้ายข้อมูลแบบ Extract, Transform, Load (ETL) หลายระบบ ก่อนที่จะเก็บไว้ในคลังข้อมูล ยิ่งไปกว่านั้น คลังข้อมูลไม่สามารถจัดการกับข้อมูลที่ไม่มีโครงสร้างและแบบกึ่งโครงสร้างได้ ซึ่งเป็นประเภทข้อมูลที่เวิร์กโหลดปัญญาประดิษฐ์และแมชชีนเลิร์นนิงจำเป็นต้องใช้ ในการตั้งค่าคลังข้อมูล พื้นที่เก็บข้อมูลและศักยภาพในการคำนวณมีความเกี่ยวข้องกันอย่างยิ่งยวด ด้วยเหตุนี้การปรับขนาดโครงสร้างพื้นฐานจึงมีค่าใช้จ่ายสูงขึ้น
Data Lake
Data Lake คือระบบพื้นที่เก็บข้อมูลที่เก็บรักษาข้อมูลไว้ในรูปแบบดั้งเดิม นักวิทยาศาสตร์ข้อมูลใช้ Data Lake เพื่อเก็บข้อมูลทั้งแบบที่มีโครงสร้าง ไม่มีโครงสร้าง และกึ่งโครงสร้าง การเก็บข้อมูลไว้ใน Data Lake นั้นทำได้รวดเร็วเนื่องจากข้อมูลจะไม่ผ่านระบบเคลื่อนย้ายข้อมูลแบบ ETL แต่ข้อมูลดิบจะได้รับการเก็บไว้ในรูปแบบดั้งเดิม ด้วยเหตุนี้ Data Lake จึงสามารถเก็บข้อมูลไว้ได้เป็นจำนวนมากด้วยความเร็วสูง รวมถึง Data Stream แบบเรียลไทม์ด้วย
เนื่องจากข้อมูลมีปริมาณมาก Data Lake บนระบบคลาวด์จึงเหมาะอย่างยิ่งสำหรับการสำรวจข้อมูล แมชชีนเลิร์นนิง และแอปพลิเคชันอื่น ๆ ที่เกี่ยวกับวิทยาศาสตร์ข้อมูล นอกจากนี้ Data Lake ยังมีค่าใช้จ่ายในการปรับขนาดที่ย่อมเยามากกว่าด้วย เนื่องจากการโฮสต์พื้นที่เก็บข้อมูลของ Data Lake นั้นราคาถูก
การเข้าถึงข้อมูลที่เก็บไว้ใน Data Lake ต้องใช้ความเชี่ยวชาญทางเทคนิค ซึ่งทำให้ผู้ใช้ที่สามารถเข้าถึงข้อมูลได้นั้นถูกจำกัดอยู่เพียงแค่กลุ่มคนจำนวนไม่มาก ซึ่งแตกต่างจากคลังข้อมูล หมายความว่าเฉพาะผู้ใช้ที่มีความเชี่ยวชาญในด้านวิทยาศาสตร์ข้อมูลเท่านั้นที่สามารถแยก ปรับ และวิเคราะห์ข้อมูลดิบเพื่อให้ได้มาซึ่งข้อมูลเชิงลึกทางธุรกิจ นอกจากนี้ Data Lake ที่ไม่มีการจัดการอาจกลายไปเป็น Data Swamp Data Swamp คือสถานะของข้อมูลที่ไม่ได้รับการจัดระเบียบ ซึ่งทำให้แยกข้อมูลเชิงลึกที่มีความหมายได้ยากขึ้น
Data Lakehouse
Data Lakehouse เป็นสถาปัตยกรรมข้อมูลแบบครบวงจรที่รวมข้อดีของคลังข้อมูลกับ Data Lake ไว้ด้วยกัน โดยจะมีพื้นที่เก็บข้อมูลที่มีประสิทธิภาพสูง ราคาย่อมเยา และกำกับดูแลได้สะดวกสำหรับข้อมูลประเภทต่าง ๆ
ซึ่งแตกต่างจากคลังข้อมูล Data Lakehouse สามารถเก็บข้อมูลแบบกึ่งโครงสร้างและที่ไม่มีโครงสร้างเพื่อใช้ในการฝึกแมชชีนเลิร์นนิงได้ ซึ่งจะไม่เหมือนกับคลังข้อมูล นอกจากนี้สถาปัตยกรรม Data Lakehouse ยังประกอบด้วยเครื่องมือการวิเคราะห์ SQL ที่ผู้จัดการธุรกิจใช้สำหรับการการรายงานและการแยกข้อมูลเชิงลึกที่สามารถนำไปดำเนินการได้จริงอีกด้วย
ฟีเจอร์สำคัญของ Data Lakehouse มีอะไรบ้าง
Data Lakehouse มีฟีเจอร์หลายประการสำหรับการจัดการข้อมูลสำหรับองค์กรเพื่อสร้างฮับการประมวลผลข้อมูลที่ปรับขนาดได้ ซับซ้อน และมีเวลาแฝงต่ำ เราจะแสดงตัวอย่างฟีเจอร์ที่สำคัญบางประการของ Data Lakehouse ไว้ที่ด้านล่างนี้
รองรับประเภทข้อมูลและเวิร์กโหลดที่หลากหลาย
Data Lakehouse สามารถเก็บข้อมูลได้หลายประเภท รวมถึงไฟล์ข้อความ รูปภาพ วิดีโอ และเสียง โดยไม่ต้องใช้ขั้นตอนการแปลงข้อมูลเพิ่มเติมหรือสคีมาที่ไม่ยืดหยุ่น ฟีเจอร์นี้ช่วยให้นำข้อมูลเข้าได้อย่างรวดเร็ว ทำให้มั่นใจได้ว่าข้อมูลที่ได้จะเป็นข้อมูลใหม่สำหรับแอปพลิเคชันที่เชื่อมต่อไว้
เพื่อรองรับความหลากหลายด้านข้อมูล Data Lakehouse จะเก็บข้อมูลดิบไว้ในพื้นที่เก็บข้อมูลตามอ็อบเจกต์ พื้นที่เก็บข้อมูลเชิงวัตถุเป็นสถาปัตยกรรมพื้นที่เก็บข้อมูลประเภทหนึ่งที่ปรับให้เหมาะสมกับการจัดการข้อมูลปริมาณมากที่ไม่มีโครงสร้าง
การรองรับการทำธุรกรรม
Data Lakehouse มีฟีเจอร์หลายประการสำหรับการจัดการข้อมูลเพื่อเก็บธุรกรรมที่สอดคล้องตาม ACID ซึ่งคล้ายกับที่พบในฐานข้อมูลแบบเดิม ACID ย่อมาจาก Atomicity (การรับประกันความถูกต้องของฐานข้อมูล) Consistency (ความสอดคล้อง) Isolation (การแยกแยะ) และ Durablility (ความทนทาน)
- การรับประกันความถูกต้องของฐานข้อมูลจะถือว่าธุรกรรมข้อมูลทั้งหมดเป็นหน่วยเดียว ซึ่งทำให้ทราบว่ามีการนำไปปรับใช้สำเร็จหรือไม่
- ความสอดคล้องหมายถึงพฤติกรรมที่คาดการณ์ได้ของฐานข้อมูลที่เกิดขึ้นเมื่ออัปเดตตารางข้อมูลเฉพาะ การอัปเดตทุกครั้งจะเป็นไปตามกฎที่กำหนดไว้ล่วงหน้า ซึ่งทำให้มั่นใจว่าข้อมูลมีความสอดคล้อง
- การแยกแยะช่วยให้การทำธุรกรรมหลายรายการเกิดขึ้นได้โดยไม่รบกวนซึ่งกันและกัน แม้ว่าผู้ใช้หลายรายจะอัปเดตฐานข้อมูลพร้อมกัน แต่การดำเนินการแต่ละครั้งจะทำงานโดยเป็นอิสระต่อกัน ซึ่งหมายความว่าการทำธุรกรรมรายการหนึ่งจะสิ้นสุดก่อนที่จะเริ่มมีการทำธุรกรรมถัดไป
- ความทนทานคือความสามารถของฐานข้อมูลในการเก็บรักษาและบันทึกการเปลี่ยนแปลงไว้แม้ว่าระบบจะล้มเหลวก็ตาม
เมื่อใช้ร่วมกัน ACID นี้ช่วยให้มั่นใจได้ว่าข้อมูลที่ได้จะสมบูรณ์ ช่วยให้ทีมซอฟต์แวร์สามารถสร้างแอปพลิเคชันที่อาศัยพื้นที่เก็บข้อมูลทางธุรกรรมที่น่าเชื่อถือ
การนำเข้าข้อมูลการสตรีม
Data Stream คือการเคลื่อนย้ายข้อมูลอย่างต่อเนื่องจากแหล่งที่มาของข้อมูล เช่น อุปกรณ์ Internet of Things (IoT), ธุรกรรมทางการเงิน และบริการแอปพลิเคชัน
แอปพลิเคชันบางอย่างต้องใช้การสตรีมข้อมูลเพื่อสะท้อนและแสดงให้เห็นถึงการเปลี่ยนแปลงของข้อมูลในระยะเวลาที่ใกล้เคียงเรียลไทม์ สถาปัตยกรรม Data Lakehouse สามารถนำเข้า Data Stream และทำให้แอปพลิเคชันที่ผู้ใช้มองเห็นสามารถเข้าถึง Data Stream เหล่านั้นได้ นอกจากนี้ นักวิทยาศาสตร์ข้อมูลยังสามารถสร้างเครื่องมือวิเคราะห์โดยต่อยอดจาก Data Stream และแสดงให้เห็นด้วยแผนภูมิ ตาราง และกราฟ
การผสานการทำงานแบบ Zero ETL
Zero ETL เป็นกระบวนการด้านข้อมูลที่หลีกเลี่ยงไปป์ไลน์สำหรับการแปลงข้อมูลที่ซับซ้อนเมื่อย้ายข้อมูล โครงสร้างพื้นฐาน Data Lakehouse จะช่วยให้สามารถผสานการทำงานแบบ Zero ETL ได้
ตามปกติแล้ว องค์กรจะสร้างเวิร์กโหลดของตนไว้บนคลังข้อมูลและ Data Lake การตั้งค่าข้อมูลเหล่านี้ต้องใช้ไปป์ไลน์ข้อมูลแบบ ETL เพิ่มเติมเพื่อสืบค้นและแปลงข้อมูล เมื่อใช้การผสานการทำงานแบบ Zero ETL นักวิทยาศาสตร์ข้อมูลก็จะสามารถสืบค้น Data Silo ต่าง ๆ ได้โดยไม่ต้องสร้างไปป์ไลน์ข้อมูลเพิ่มเติม
เมื่อ Data Lakehouse นำเข้าข้อมูล ระบบจะแปลงให้เป็นรูปแบบที่สอดคล้องตามข้อกำหนดการวิเคราะห์ธุรกิจโดยอัตโนมัติ ตัวอย่างเช่น Amazon Redshift จะรองรับการผสานการทำงานแบบ Zero ETL กับ Amazon Aurora Redshift เป็นคลังข้อมูล ในขณะที่ Aurora เป็นระบบการจัดการฐานข้อมูลแบบเชิงสัมพันธ์ เมื่อผสานการทำงานแล้ว ข้อมูลที่ Aurora นำเข้าจะได้รับการจำลองไว้บน Redshift โดยอัตโนมัติภายในไม่กี่วินาที เมื่อใช้วิธีนี้ องค์กรจะสามารถลดเวลาที่ใช้จนกว่าจะได้รับข้อมูลเชิงลึกได้ โดยที่ยังคงทำให้โครงสร้างพื้นฐานด้านข้อมูลมีความเรียบง่ายและคุ้มค่าตามเดิม
การวิเคราะห์แบบครบวงจร
Data Lakehouse มีแพลตฟอร์มข้อมูลแบบครบวงจรเพื่อเข้าถึงข้อมูลทั้งหมดที่เก็บไว้ แพลตฟอร์มดังกล่าวจะช่วยให้สถาปนิกข้อมูลจัดการกับปัญหาข้อมูลซ้ำ ความไม่สอดคล้อง และการกระจัดกระจายของข้อมูลในหลาย ๆ ระบบได้
ประโยชน์สำคัญอีกประการหนึ่งของการวิเคราะห์แบบรวมศูนย์คือช่วยให้ไม่ต้องเคลื่อนย้ายข้อมูลไปมาระหว่างพื้นที่เก็บข้อมูลบนคลาวด์โดยไม่จำเป็น แทนที่จะสืบค้นข้อมูลที่เก็บไว้แยกกัน ทีมด้านข้อมูลจะเก็บ วิเคราะห์ และแชร์ข้อมูลจากอินเทอร์เฟซเดียวที่เชื่อมต่อกับ Data Lakehouse ดังกล่าวแทน ตัวอย่างเช่น คุณสามารถดึงข้อมูลที่ไม่มีโครงสร้างสำหรับเวิร์กโหลดแมชชีนเลิร์นนิง และสร้างรายงานประสิทธิภาพด้านการตลาดจากสำเนาข้อมูลเพียงชิ้นเดียว
เครื่องมือแก้ไขการสืบค้นข้อมูล
นักวิเคราะห์ข้อมูล วิศวกรแมชชีนเลิร์นนิง และผู้ใช้ข้อมูลสามารถเข้าถึงข้อมูลใน Data Lakehouse ได้อย่างง่ายดายโดยใช้เครื่องมือแก้ไขการสืบค้นข้อมูลผ่าน SQL ผู้คนกลุ่มดังกล่าวสามารถเขียนคำสั่ง SQL สำหรับการวิเคราะห์ข้อมูล การแสดงข้อมูลเป็นภาพ เรียกดูข้อมูลในอดีต สร้างสคีมาฐานข้อมูล และอื่น ๆ เครื่องมือแก้ไขการสืบค้นข้อมูลยังช่วยปรับปรุงการทำงานร่วมกันด้วยเช่นกัน โดยช่วยให้วิศวกรข้อมูลสามารถแชร์คำสั่งสืบค้นที่ตนสร้างขึ้นได้อย่างง่ายดาย
การรองรับ ML/AI
Data Lakehouse ได้รับการออกแบบมาเพื่อสร้าง ทดสอบ และปรับขนาดเวิร์กโหลดสำหรับปัญญาประดิษฐ์และแมชชีนเลิร์นนิง (AI/ML) นอกเหนือจากการทำให้เข้าถึงข้อมูลที่ไม่มีโครงสร้างได้โดยตรงแล้ว ผู้ให้บริการ Data Lakehouse หลายรายยังมีไลบรารีแมชชีนเลิร์นนิง เครื่องมือ และการวิเคราะห์ให้บริการด้วย ซึ่งจะช่วยลดความซับซ้อนในการพัฒนา AI
ตัวอย่างเช่น Amazon SageMaker Lakehouse ผสานการทำงานเข้ากับสตูดิโอแบบครบวงจรของ Amazon SageMaker ได้อย่างราบรื่น ซึ่งจะช่วยให้เข้าถึงเครื่องมือและการวิเคราะห์ได้เพื่อเร่งเวิร์กโฟลว์ AI/ML ให้เร็วขึ้น
Data Lakehouse มีหลักการทำงานอย่างไร
Data Lakehouse ผสมผสานความสามารถในการวิเคราะห์ขั้นสูงของคลังข้อมูลกับความยืดหยุ่นของ Data Lake เข้าด้วยกัน ทำให้มีแพลตฟอร์มข้อมูลที่ปรับขนาดได้ ราคาย่อมเยา และมากประสิทธิภาพ แทนที่จะบำรุงรักษาโครงสร้างพื้นฐานของ Data Lake และคลังข้อมูลแยกกันต่างหาก องค์กรหลายแห่งเลือกใช้ Data Lakehouse เพื่อให้ได้รับข้อมูลเชิงลึกทางธุรกิจรวดเร็วขึ้น
Data Lakehouse นำเข้าข้อมูลจากทรัพยากรต่าง ๆ จัดระเบียบภายใน และจัดหาข้อมูลให้แก่ผู้ใช้ข้อมูลหลากหลายประเภทในรูปแบบที่แตกต่างกันไป ยิ่งไปกว่านั้น การคำนวณของ Data Lakehouse ยังแยกจากพื้นที่เก็บข้อมูลด้วย เมื่อพื้นที่เก็บข้อมูลแยกกันกับการคำนวณ คุณก็สามารถปรับขนาดฟังก์ชันเหล่านี้ได้อย่างอิสระเพื่อให้ประหยัดค่าใช้จ่ายได้สูงสุด
เราจะแสดงถึงเลเยอร์ข้อมูลที่ก่อให้เกิดเป็น Data Lakehouse ด้านล่างนี้
เลเยอร์การนำข้อมูลเข้า
เลเยอร์การนำข้อมูลเข้าจะเชื่อมต่อ Data Lakehouse เข้ากับแหล่งที่มาของข้อมูลหลากหลายประเภท รวมถึงข้อมูลบันทึกแอปพลิเคชัน ฐานข้อมูล และฟีดโซเชียลมีเดีย ที่เลเยอร์ชั้นนี้ ข้อมูลจะถูกเก็บรักษาไว้ในรูปแบบดั้งเดิม
เลเยอร์พื้นที่เก็บข้อมูล
เลเยอร์พื้นที่เก็บข้อมูลจะรับข้อมูลดิบเข้ามาและเก็บไว้ในพื้นที่เก็บข้อมูลราคาถูกและปรับขนาดได้ ในการตั้งค่า Data Lakehouse เลเยอร์นี้มักจะเชื่อมโยงไปยังพื้นที่เก็บข้อมูลอ็อบเจกต์บนระบบคลาวด์ พื้นที่เก็บข้อมูลอ็อบเจกต์รองรับข้อมูลหลากหลายประเภท รวมถึงข้อมูลแบบที่มีโครงสร้าง แบบกึ่งโครงสร้าง และแบบไม่มีโครงสร้าง
ข้อมูลบางอย่างจะได้รับการแปลงหลังจากเก็บไว้ในพื้นที่เก็บข้อมูลอ็อบเจกต์ ทั้งนี้ขึ้นอยู่กับกรณีการใช้งาน ตัวอย่างเช่น หากคุณต้องการฝึกโมเดลแมชชีนเลิร์นนิงโดยใช้ข้อมูลที่นำเข้า Data Lakehouse จะแปลงและเก็บข้อมูลไว้ในรูปแบบ Parquet Parquet เป็นรูปแบบไฟล์เปิดที่ออกแบบมาเพื่อเก็บและประมวลผลข้อมูลที่มีโครงสร้างอย่างมีประสิทธิภาพโดยการแยกออกเป็นหลาย ๆ คอลัมน์
เลเยอร์การจัดขั้นตอน
เลเยอร์การจัดขั้นตอนหรือเลเยอร์เมตาดาต้ามีการรองรับสคีมาเพื่อกำกับดูแล จัดระเบียบ และเพิ่มประสิทธิภาพข้อมูลที่เก็บไว้ใน Data Lakehouse เลเยอร์นี้ช่วยให้คุณสามารถกำหนดนโยบาย เพื่อให้มั่นใจว่าข้อมูลจะมีคุณภาพ และสร้างเส้นทางที่ตรวจสอบได้เพื่อวัตถุประสงค์ในการปฏิบัติตามข้อกำหนด นอกจากนี้ ทีมข้อมูลยังสามารถสร้างเวิร์กโฟลว์ข้อมูลที่เชื่อถือได้โดยใช้การทำธุรกรรม ACID, การจัดทำดัชนีไฟล์, การกำหนดเวอร์ชันข้อมูล และการแคช ซึ่งคล้ายกับที่พบในคลังข้อมูลแบบดั้งเดิม
เลเยอร์ API
เลเยอร์ส่วนต่อประสานโปรแกรมประยุกต์ (API) ช่วยให้ผู้พัฒนาซอฟต์แวร์และแอปพลิเคชันสามารถสืบค้นข้อมูลที่เก็บไว้ใน Data Lakehouse ได้ เลเยอร์นี้ทำให้สามารถเข้าถึงข้อมูลในระดับที่ละเอียดขึ้น ซึ่งช่วยให้สามารถใช้โปรแกรมในการสร้างการวิเคราะห์ขั้นสูงยิ่งขึ้นได้จากข้อมูลดังกล่าว ตัวอย่างเช่น ทีมซอฟต์แวร์สามารถทำให้การเรียกใช้ API ดึง Data Stream แบบเรียลไทม์เพื่อขับเคลื่อนแดชบอร์ดของแอปพลิเคชันการลงทุนได้
เลเยอร์ความหมาย
เลเยอร์ความหมายเป็นเลเยอร์ชั้นบนสุดของ Data Lakehouse หรือที่เรียกว่าเลเยอร์การใช้ข้อมูล เลเยอร์นี้ประกอบด้วยเครื่องมือการวิเคราะห์ข้อมูลและแอปที่ช่วยให้สามารถเข้าถึงข้อมูลและสคีมาที่เก็บไว้ได้ ผู้ใช้ที่เป็นธุรกิจสามารถสร้างรายงาน สร้างแผนภูมิ สืบค้นข้อมูลเชิงลึก และทำการวิเคราะห์ข้อมูลอื่น ๆ ด้วยเครื่องมือที่พวกเขาพบในเลเยอร์นี้ได้
AWS จะรองรับความต้องการของ Data Lake ของคุณได้อย่างไร
Amazon SageMaker Lakehouse เป็น Data Lakehouse ที่องค์กรใช้ในการประมวลผลข้อมูลเอ็กซาไบต์เพื่อให้ได้ข้อมูลเชิงลึกทางธุรกิจและขับเคลื่อนเวิร์กโหลดของ AI Amazon SageMaker Lakehouse ผสานรวมกับบริการพื้นที่จัดเก็บข้อมูล การวิเคราะห์ และแมชชีนเลิร์นนิงของ AWS อย่างล้ำลึกซึ้งเพื่อช่วยคุณทำสิ่งต่อไปนี้
- เข้าถึงข้อมูลเพื่อการวิเคราะห์แบบเรียลไทม์
- สร้างโมเดลปัญญาประดิษฐ์และแมชชีนเลิร์นนิงบนศูนย์ข้อมูลเดียว
- เข้าถึง รวม และแชร์ข้อมูลได้อย่างปลอดภัยโดยใช้การย้ายหรือคัดลอกให้น้อยที่สุด
ด้วยสถาปัตยกรรมที่แยกการคำนวณและพื้นที่จัดเก็บเพื่อการปรับขนาดที่มีประสิทธิภาพ Amazon SageMaker Lakehouse มอบประสิทธิภาพด้านราคาที่ดีกว่า Data Lakehouse สำหรับข้อมูลบนคลาวด์อื่น ๆ
Amazon SageMaker Lakehouse ผสานการทำงานกับคลังข้อมูลและ Data Lake ของ AWS ดังนี้
- Amazon Redshift เป็นโซลูชันคลังข้อมูลที่มอบประสิทธิภาพด้านราคาที่ไม่มีใครเทียบได้ในทุกระดับ ด้วย SQL สำหรับ Data Lakehouse ของคุณ
- Amazon S3 เป็นที่จัดเก็บข้อมูลอ็อบเจ็กต์ Data Lake ที่สร้างขึ้นเพื่อเรียกดูข้อมูลตามจำนวนที่ต้องการจากทุกที่
เริ่มต้นใช้งาน Data Lakehouse บน AWS ด้วยการสร้างบัญชีฟรีวันนี้