Data Lake คืออะไร

จัดเก็บข้อมูลทั้งหมดของคุณไว้ในที่เก็บส่วนกลางได้ทุกขนาด

Data Lake คืออะไร

Data Lake คือที่เก็บส่วนกลางซึ่งช่วยให้คุณจัดเก็บข้อมูลที่มีและไม่มีโครงสร้างในทุกขนาดได้ คุณสามารถจัดเก็บข้อมูลตามที่เป็นโดยไม่ต้องวางโครงสร้าง และยังสามารถใช้การวิเคราะห์ประเภทต่างๆ ได้ ตั้งแต่แดชบอร์ดและการแสดงภาพไปจนถึงการประมวลผล Big Data การวิเคราะห์แบบเรียลไทม์ และ Machine Learning เพื่อสร้างแนวทางการตัดสินใจที่ดีขึ้น

แผนภาพของ Data Lake

เหตุใจจึงจำเป็นต้องใช้ Data Lake

องค์กรที่สร้างคุณค่าทางธุรกิจจากข้อมูลของตนได้สำเร็จ จะส่งผลให้มีประสิทธิภาพการทำงานล้ำหน้าบริษัทคู่แข่งอื่นๆ การสำรวจ Aberdeen เล็งเห็นว่าองค์กรที่นำ Data Lake ไปใช้มีประสิทธิภาพดีกว่าบริษัทที่คล้ายกันในแง่การเติบโตของรายได้โดยทั่วไปถึง 9% องค์กรชั้นนำเหล่านี้สามารถใช้การวิเคราะห์ประเภทใหม่ เช่น Machine Learning กับแหล่งข้อมูลใหม่ๆ เช่น ไฟล์บันทึก ข้อมูลจากคลิกสตรีม โซเชียลมีเดีย และอุปกรณ์ที่เชื่อมต่ออินเทอร์เน็ตซึ่งจัดเก็บไว้ใน Data Lake การทำเช่นนี้ช่วยให้องค์กรเหล่านี้สามารถระบุและใช้โอกาสต่างๆ เพื่อทำให้ธุรกิจเติบโตได้รวดเร็วขึ้น โดยการดึงดูดและรักษาลูกค้า เพิ่มประสิทธิภาพการทำงาน การรักษาอุปกรณ์ในเชิงรุก และทำการตัดสินใจอย่างชาญฉลาด

Data Lake เมื่อเทียบกับคลังเก็บข้อมูล - สองวิธีการที่แตกต่างกัน

องค์กรทั่วไปจะต้องใช้ทั้งคลังเก็บข้อมูลและ Data Lake เนื่องจากทั้งสองอย่างตอบโจทย์ความต้องการและใช้งานในกรณีที่แตกต่างกัน โดยจะขึ้นอยู่กับข้อกำหนดต่างๆ

คลังเก็บข้อมูลคือฐานข้อมูลที่ได้รับการปรับให้เหมาะสมเพื่อวิเคราะห์ข้อมูลเชิงสัมพันธ์ที่ได้มาจากระบบธุรกรรมและแอปพลิเคชันหน่วยธุรกิจ โครงสร้างของข้อมูลและสคีมาจะได้รับการกำหนดล่วงหน้าเพื่อปรับให้เหมาะสมสำหรับการสืบค้นด้วย SQL ที่รวดเร็ว ซึ่งมักจะใช้ผลลัพธ์ในการรายงานและวิเคราะห์การปฏิบัติงาน ข้อมูลจะได้รับการตัดทอน เสริมแต่ง และปรับเปลี่ยนเพื่อให้สามารถใช้เป็น “แหล่งที่มาของความจริงเพียงหนึ่งเดียว” ที่ผู้ใช้จะเชื่อถือได้

Data Lake กลับแตกต่างออกไป เนื่องจากจะจัดเก็บข้อมูลเชิงสัมพันธ์จากแอปพลิเคชันหน่วยธุรกิจ และข้อมูลที่ไม่ใช่เชิงสัมพันธ์จากแอปมือถือ อุปกรณ์ IoT และโซเชียลมีเดีย โครงสร้างของข้อมูลหรือสคีมาจะไม่ได้รับการกำหนดเมื่อมีการบันทึกข้อมูล ซึ่งหมายความว่าคุณสามารถจัดเก็บข้อมูลทั้งหมดได้โดยไม่ต้องออกแบบอย่างระมัดระวัง หรือต้องทราบคำถามที่ต้องหาคำตอบในอนาคต คุณสามารถใช้การวิเคราะห์ข้อมูลประเภทต่างๆ เช่น การสืบค้นด้วย SQL, การวิเคราะห์ด้วย Big Data, การค้นหาข้อความเต็ม, การวิเคราะห์แบบเรียลไทม์ และ Machine Learning เพื่อค้นพบข้อมูลเชิงลึกได้

เมื่อองค์กรที่ใช้คลังเก็บข้อมูลมองเห็นประโยชน์ของ Data Lake องค์กรเหล่านี้จึงพัฒนาคลังเก็บข้อมูลของตนให้รวม Data Lake เอาไว้ ทำให้สามารถใช้การสืบค้นได้หลากหลาย รวมถึงใข้กรณีใช้งานวิทยาศาสตร์ข้อมูล และความสามารถขั้นสูงในการค้นพบข้อมูลรูปแบบใหม่ๆ Gartner เรียกวิวัฒนาการนี้ว่า “โซลูชันการจัดการข้อมูลสำหรับการวิเคราะห์” หรือ “DMSA

คุณลักษณะ คลังเก็บข้อมูล Data Lake
ข้อมูล ข้อมูลเชิงสัมพันธ์จากระบบธุรกรรม ฐานข้อมูลการปฏิบัติงาน และแอปพลิเคชันหน่วยธุรกิจ ข้อมูลที่ไม่ใช่เชิงสัมพันธ์และเชิงสัมพันธ์จากอุปกรณ์ IoT เว็บไซต์ แอปมือถือ โซเชียลมีเดีย และแอปพลิเคชันองค์กร
สคีมา ได้รับการออกแบบก่อนการนำ DW ไปใช้ (สคีมาที่กำหนดไว้ล่วงหน้า) เขียนเมื่อมีการวิเคราะห์ (สคีมาที่กำหนดเมื่อใช้)
ราคา/ประสิทธิภาพ ผลการสืบค้นที่รวดเร็วที่สุดโดยใช้พื้นที่จัดเก็บที่มีต้นทุนสูงกว่า ผลการสืบค้นที่รวดเร็วยิ่งขึ้นโดยใช้พื้นที่จัดเก็บที่มีต้นทุนต่ำ
คุณภาพข้อมูล
ข้อมูลที่จัดเตรียมอย่างดีซึ่งใช้เป็นความจริงพื้นฐาน ข้อมูลใดๆ ที่อาจได้รับหรือไม่ได้รับการจัดเตรียม (เช่น ข้อมูลดิบ)
ผู้ใช้ นักวิเคราะห์ทางธุรกิจ นักวิทยาศาสตร์ข้อมูล, นักพัฒนาข้อมูล และนักวิเคราะห์ทางธุรกิจ (โดยใช้ข้อมูลที่จัดเตรียม)
การวิเคราะห์ การรายงานแบบกลุ่ม, BI และการแสดงภาพ Machine Learning การวิเคราะห์เชิงคาดการณ์ การค้นพบข้อมูล และจัดทำโปรไฟล์

องค์ประกอบสำคัญของ Data Lake และโซลูชันการวิเคราะห์

เมื่อองค์กรต่างๆ สร้าง Data Lake และแพลตฟอร์มการวิเคราะห์ องค์กรเหล่านั้นจะต้องพิจารณาความสามารถหลักต่างๆ ซึ่งประกอบด้วย

การเคลื่อนย้ายข้อมูล

Data Lake ช่วยให้คุณนำเข้าข้อมูลจำนวนที่ต้องการได้แบบเรียลไทม์ ข้อมูลจะได้รับการรวบรวมจากแหล่งข้อมูลหลายแห่ง และย้ายไปที่ Data Lake ในรูปแบบต้นฉบับ กระบวนการนี้ช่วยให้คุณปรับขนาดข้อมูลเป็นขนาดที่ต้องการ ในขณะเดียวกันก็สามารถประหยัดเวลาในการกำหนดโครงสร้างของข้อมูล สคีมา และการแปลงข้อมูล

จัดเก็บและจัดทำแคตตาล็อกข้อมูลอย่างปลอดภัย

Data Lake ช่วยให้คุณจัดเก็บข้อมูลเชิงสัมพันธ์ได้ ไม่ว่าจะเป็นฐานข้อมูลการปฏิบัติงาน และข้อมูลจากแอปพลิเคชันหน่วยธุรกิจ รวมทั้งข้อมูลที่ไม่ใช่เชิงสัมพันธ์ นั่นคือ ข้อมูลจากแอปมือถือ อุปกรณ์ IoT และโซเชียลมีเดีย นอกจากนี้ยังช่วยให้คุณเข้าใจว่ามีข้อมูลใดบ้างใน Data Lake ผ่านการรวบรวม การจัดทำแคตตาล็อก และการจัดทำดัชนีข้อมูล ท้ายสุด ข้อมูลจะต้องปลอดภัยเพื่อให้แน่ใจว่าข้อมูลของคุณจะได้รับการปกป้อง

การวิเคราะห์

Data Lake ช่วยให้ผู้คนในบทบาทต่างๆ ในองค์กรของคุณ เช่น นักวิทยาศาสตร์ข้อมูล, นักพัฒนาข้อมูล และนักวิเคราะห์ทางธุรกิจ สามารถเข้าถึงข้อมูลด้วยเครื่องมือและเฟรมเวิร์กที่ต้องการได้ โดยจะประกอบด้วยเฟรมเวิร์กแบบโอเพนซอร์ส เช่น Apache Hadoop, Presto และ Apache Spark รวมทั้งข้อเสนอเชิงพาณิชย์จากคลังเก็บข้อมูลและผู้ให้บริการข่าวกรองทางธุรกิจ Data Lake ช่วยให้คุณเรียกใช้การวิเคราะห์ได้โดยไม่ต้องย้ายข้อมูลไปยังระบบวิเคราะห์อื่น

Machine Learning

Data Lake จะช่วยให้องค์กรสามารถสร้างข้อมูลเชิงลึกประเภทต่างๆ ได้ ซึ่งรวมถึงการรายงานข้อมูลเชิงประวัติศาสตร์ และการจัดทำ Machine Learning ซึ่งมีการสร้างโมเดลเพื่อคาดการณ์ผลลัพธ์ที่น่าจะเกิดขึ้น และเสนอแนะการดำเนินการตามที่กำหนดเพื่อบรรลุผลลัพธ์ที่น่าพึงพอใจ

คุณค่าของ Data Lake

ความสามารถในการใช้ประโยชน์จากข้อมูลที่มากขึ้น จากแหล่งข้อมูลที่มากขึ้น ในระยะเวลาที่น้อยลง และเพิ่มขีดความสามารถให้กับผู้ใช้ในการทำงานร่วมกันและวิเคราะห์ข้อมูลด้วยวิธีการต่างๆ ซึ่งจะนำไปสู่การตัดสินใจที่ดีขึ้น และเร็วขึ้น ตัวอย่างสิ่งที่ Data Lake ได้ช่วยเพิ่มคุณค่าประกอบด้วย:

การโต้ตอบกับลูกค้าที่ได้รับการปรับปรุง

Data Lake สามารถรวมข้อมูลของลูกค้าจากแพลตฟอร์ม CRM เข้ากับการวิเคราะห์โซเชียลมีเดีย และแพลตฟอร์มการตลาดซึ่งประกอบด้วยประวัติการซื้อ และตั๋วเหตุการณ์เพื่อเพิ่มขีดจำกัดให้กับธุรกิจเพื่อทำความเข้าใจกลุ่มลูกค้าที่สร้างผลกำไรให้มากที่สุด สาเหตุในการเปลี่ยนแปลงของลูกค้า และการโปรโมชันหรือรางวัลที่จะเพิ่มความภักดี

ปรับปรุงทางเลือกนวัตกรรมด้านการวิจัยและพัฒนา

Data Lake สามารถช่วยทีมวิจัยและพัฒนาในการทดสอบสมมติฐาน ปรับแก้ข้อสมมติฐาน และประเมินผลลัพธ์ เช่น การเลือกวัสดุที่ใช้สำหรับการออกแบบผลิตภัณฑ์จะช่วยให้มีประสิทธิภาพที่รวดเร็วขึ้น การวิจัยทางพันธุกรรมจะนำไปสู่การรักษาด้วยยาที่มีประสิทธิภาพยิ่งขึ้น หรือการทำความเข้าใจความสมัครใจของลูกค้าที่จะยอมจ่ายเพื่อให้ได้คุณลักษณะต่างๆ

เพิ่มประสิทธิภาพด้านการปฏิบัติงาน

Internet of Things (IoT) เพิ่มวิธีการในการรวบรวมข้อมูลในกระบวนการต่างๆ เช่น การผลิต โดยใช้ข้อมูลเรียลไทม์ที่ได้รับจากอุปกรณ์ที่เชื่อมต่ออินเทอร์เน็ต Data Lake ช่วยให้สามารถจัดเก็บและเรียกใช้การวิเคราะห์ข้อมูล IoT ที่สร้างโดยเครื่องจักรเพื่อค้นหาวิธีการลดต้นทุนการปฏิบัติงานและเพิ่มคุณภาพ  

ความท้าทายของ Data Lake

ความท้าทายหลักของสถาปัตยกรรม Data Lake คือการที่ข้อมูลดิบจะได้รับการจัดเก็บโดยไม่มีการควบคุมเนื้อหา ในการที่ข้อมูลใน Data Lake จะใช้งานได้ จะต้องมีการกำหนดกลไกเพื่อจัดหมวดหมู่และรักษาความปลอดภัยข้อมูล หากไม่มีองค์ประกอบเหล่านี้ ข้อมูลจะไม่ได้รับการค้นพบหรือเชื่อถือ ซึ่งจะนำไปสู่ “Data Swamp” เพื่อตอบโจทย์ความต้องการของลูกค้าในวงกว้างขึ้น Data Lake จะต้องมีการบริหารจัดการ มีความสอดคล้องเชิงความหมาย และมีการควบคุมการเข้าถึง

 

ปรับใช้ Data Lake ในระบบคลาวด์

Data Lake คือปริมาณงานที่เหมาะสมที่สุดสำหรับการปรับใช้ในระบบคลาวด์ เนื่องจากระบบคลาวด์จะมอบประสิทธิภาพ ความสามารถในการปรับขนาด ความน่าเชื่อถือ ความพร้อมให้บริการ ชุดเครื่องมือการวิเคราะห์ต่างๆ และการประหยัดต่อขนาดในปริมาณมากได้ การวิจัยของ ESG พบว่าผู้ตอบแบบสำรวจ 39% มองว่าระบบคลาวด์เป็นระบบหลักที่ปรับใช้สำหรับการวิเคราะห์ของพวกเขา 41% สำหรับการเป็นคลังเก็บข้อมูล และอีก 43% สำหรับ Spark เหตุผลหลักที่ลูกค้ารู้สึกว่าระบบคลาวด์เป็นจุดเด่นของ Data Lake คือ การมีความปลอดภัยที่มากกว่า ใช้เวลาน้อยกว่าในการปรับใช้ ความพร้อมให้บริการที่ดีกว่า การอัพเดทคุณสมบัติ/ฟังก์ชันที่บ่อยกว่า ความยืนหยุดที่มากขึ้น การครอบคลุมทางภูมิศาสตร์ที่มากกว่า และต้นทุนที่เชื่อมโยงกับการใช้งานจริง

 

สร้าง Data Lake ในระบบคลาวด์บน AWS

AWS มอบบริการที่ปลอดภัยสูงสุด ปรับขนาดได้ ครอบคลุม และประหยัดค่าใช้จ่ายซึ่งช่วยให้ลูกค้าสามารถสร้าง Data Lake ในระบบคลาวด์ และวิเคราะห์ข้อมูลทั้งหมด อันประกอบด้วยข้อมูลจากอุปกรณ์ IoT ด้วยแนวทางเชิงเคราะห์ที่หลากหลายซึ่งรวมถึง Machine Learning ผลที่ตามมาคือการมีองค์กรจำนวนมากขึ้นที่ใช้ Data Lake และการวิเคราะห์บน AWS มากกว่าในแพลต์ฟอร์มอื่นๆ โดยมีตัวอย่างลูกค้าเช่น NETFLIX, Zillow, NASDAQ, Yelp, iRobot และ FINRA ที่ไว้วางใจ AWS ในการดำเนินงานวิเคราะห์ที่สำคัญทางธุรกิจ เรียนรู้เพิ่มเติม

แหล่งข้อมูลเพิ่มเติมเกี่ยวกับ Data Lake

เรียนรู้เพิ่มเติมเกี่ยวกับ Data Lake จากนักวิเคราะห์ในแวดวง

เริ่มต้นใช้งาน AWS

icon1

ลงชื่อสมัครใช้งานบัญชี AWS

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที
เรียนรู้เพิ่มเติมเกี่ยวกับ Data Lake และการวิเคราะห์จาก AWS
icon2

เรียนรู้เพิ่มเติมเกี่ยวกับ Data Lake ใน AWS

อ่านเพิ่มเติมเกี่ยวกับการปรับใช้ Data Lake ใน AWS ได้ ที่นี่ ดูเซสชันสถาปัตยกรรมสำหรับ Data Lake ได้ที่นี่ และรูปแบบสถาปัตยกรรมสำหรับ Big Data ได้ ที่นี่ ดูเซสชันของลูกค้าเกี่ยวกับวิธีที่พวกเขาสร้าง Data Lake ซึ่งประกอบด้วย FINRA, Amazon.com, Rovio และ Sysco Foods
icon3

เริ่มต้นสร้างด้วย AWS

อัปโหลด ข้อมูลของคุณใน Amazon S3, จัดทำแคตตาล็อกข้อมูลของคุณด้วย AWS Glue แล้วเริ่มต้น การสืบค้นด้วย Amazon Athena เรียกใช้การสืบค้น คลังข้อมูลด้วย Amazon Redshift Spectrum, Hadoop และ Sparkด้วย Amazon EMR และ Machine Learning ด้วย Amazon Sagemaker
หากมี POC และต้องการพูดคุยกับเจ้าหน้าที่ ติดต่อเราหรือปรับใช้ผ่าน AWS Quick Start