คลังข้อมูลคืออะไร?
คลังข้อมูลเป็นโกดังข้อมูลส่วนกลางที่สามารถนำมาวิเคราะห์เพื่อการตัดสินใจที่ครบถ้วนมากขึ้น ข้อมูลจะไหลเข้าไปในคลังข้อมูลจากระบบธุรกรรม ฐานข้อมูลแบบเชิงสัมพันธ์ และแหล่งที่มาอื่นๆ โดยปกติแล้วจะเป็นไปตามอัตราทั่วไป นักวิเคราะห์ธุรกิจ วิศวกรข้อมูล นักวิทยาศาสตร์ข้อมูล และผู้ตัดสินใจจะเข้าถึงข้อมูลผ่าน เครื่องมือธุรกิจอัจฉริยะ (BI), ไคลเอ็นต์ SQL และแอปพลิเคชันการวิเคราะห์อื่นๆ
ข้อมูลและการวิเคราะห์กลายเป็นสิ่งที่ขาดไม่ได้สำหรับธุรกิจเพื่อให้สามารถแข่งขันได้ ผู้ใช้นักธุรกิจพึ่งพารายงาน แดชบอร์ด และเครื่องมือวิเคราะห์เพื่อดึงข้อมูลเชิงลึกจากข้อมูล ตรวจสอบประสิทธิภาพทางธุรกิจ และสนับสนุนการตัดสินใจ คลังข้อมูลเป็นพลังให้กับรายงาน แดชบอร์ด และเครื่องมือวิเคราะห์เหล่านี้โดยการจัดเก็บข้อมูลอย่างมีประสิทธิภาพเพื่อลดการป้อนข้อมูลและเอาต์พุต (I/O) ของข้อมูลให้น้อยที่สุด และส่งผลการค้นหาอย่างรวดเร็วให้กับผู้ใช้หลายร้อยและหลายพันคนพร้อมกัน
คลังข้อมูลถูกออกแบบมาอย่างไร
สถาปัตยกรรมคลังข้อมูลประกอบด้วยระดับต่างๆ ระดับสูงสุด คือฟรอนต์เอนด์ไคลเอ็นต์ที่นำเสนอผลลัพธ์ผ่านการรายงาน การวิเคราะห์ และเครื่องมือทำเหมืองข้อมูล ระดับกลางประกอบด้วยเครื่องมือวิเคราะห์ที่ใช้ในการเข้าถึงและวิเคราะห์ข้อมูล ระดับล่างสุดของสถาปัตยกรรมคือเซิร์ฟเวอร์ฐานข้อมูล ที่ซึ่งข้อมูลถูกโหลดและจัดเก็บไว้ มีสองวิธีในการจัดเก็บข้อมูลดังนี้: 1) ข้อมูลที่เข้าถึงบ่อยครั้งจะจัดเก็บไว้ในพื้นที่เก็บข้อมูลที่รวดเร็วอย่างมาก (เช่น ไดรฟ์ SSD) และ 2) ข้อมูลที่เข้าถึงไม่บ่อยจะจัดเก็บไว้ในการจัดเก็บอ็อบเจกต์ราคาถูก เช่น Amazon S3 คลังข้อมูลจะตรวจสอบให้แน่ใจว่าข้อมูลที่เข้าถึงบ่อยครั้งจะถูกย้ายไปยังพื้นที่เก็บข้อมูลที่ "รวดเร็ว" โดยอัตโนมัติ เพื่อปรับความเร็วในการสืบค้นให้เหมาะสม
คลังข้อมูลทำงานอย่างไร
หนึ่งคลังข้อมูลอาจมีหลายฐานข้อมูล ภายในแต่ละฐานข้อมูล ข้อมูลจะถูกจัดระเบียบเป็นตารางและคอลัมน์ ภายในแต่ละคอลัมน์ คุณสามารถกำหนดคำอธิบายข้อมูล เช่น จำนวนเต็ม ฟิลด์ข้อมูล หรือสตริง ตารางสามารถจัดระเบียบภายในสคีมา ซึ่งคุณอาจเรียกว่าโฟลเดอร์ เมื่อนำเข้าข้อมูล ข้อมูลจะถูกจัดเก็บไว้ในตารางต่างๆ ที่อธิบายโดยสคีมา เครื่องมือสืบค้นใช้สคีมาเพื่อกำหนดตารางข้อมูลที่จะเข้าถึงและวิเคราะห์
ประโยชน์ของการใช้คลังข้อมูลมีอะไรบ้าง
ประโยชน์ของคลังข้อมูลประกอบด้วยรายการต่อไปนี้:
- การตัดสินใจจากข้อมูล
- ข้อมูลรวมจากหลายแหล่งที่มา
- การวิเคราะห์ข้อมูลย้อนหลัง
- คุณภาพ ความสอดคล้อง และความถูกต้องของข้อมูล
- การแยกการประมวลผลเชิงวิเคราะห์จากฐานข้อมูลธุรกรรม ซึ่งช่วยปรับปรุงประสิทธิภาพของทั้งสองระบบ
คลังข้อมูล ฐานข้อมูล และ Data Lake ทำงานร่วมกันอย่างไร
โดยทั่วไป ธุรกิจจะใช้การรวมของฐานข้อมูล Data Lake และคลังข้อมูลเพื่อจัดเก็บและวิเคราะห์ข้อมูล สถาปัตยกรรม Lake House ของ Amazon Redshift ทำให้การบูรณาการเป็นเรื่องง่าย
เมื่อปริมาณและความหลากหลายของข้อมูลเพิ่มขึ้น จึงเป็นประโยชน์ที่จะทำตามรูปแบบทั่วไปอย่างน้อยหนึ่งรูปแบบสำหรับการทำงานกับข้อมูลในฐานข้อมูล Data Lake และคลังข้อมูลของคุณ
อ่านบทความเกี่ยวกับ Data Lake »
Data Lake คือพื้นที่เก็บข้อมูลส่วนกลางสำหรับข้อมูลทั้งหมด ได้แก่ โครงสร้าง กึ่งโครงสร้าง และไม่มีโครงสร้าง ซึ่งแตกต่างจากคลังข้อมูล คลังข้อมูลต้องการข้อมูลที่ถูดจัดระเบียบในรูปแบบตารางซึ่งเป็นจุดที่สคีมาเข้ามา โดยจำเป็นต้องใช้รูปแบบตารางเพื่อใช้ SQL ในการสืบค้นข้อมูล แต่ไม่ใช่ทุกแอปพลิเคชันที่ต้องการข้อมูลในรูปแบบตาราง บางแอปพลิเคชัน เช่น การวิเคราะห์ Big Data การค้นหาเนื้อหาฉบับเต็ม และแมชชีนเลิร์นนิง สามารถเข้าถึงข้อมูลได้แม้ว่าจะเป็น 'กึ่งโครงสร้าง' หรือไม่มีโครงสร้างเลย
สำหรับการเปรียบเทียบข้อมูลเชิงลึกระหว่างคลังข้อมูลและ Data Lake โปรดดูที่หน้าเปรียบเทียบคลังข้อมูลและ Data Lake โดยเฉพาะของเรา
Data Mart และคลังข้อมูลแตกต่างกันอย่างไร
Data Mart คือคลังข้อมูลที่ตอบสนองความต้องการของหน่วยธุรกิจหรือทีมนั้นๆ โดยเฉพาะ เช่น ฝ่ายการเงิน ฝ่ายการตลาด หรือฝ่ายขาย ซึ่งมีขนาดเล็ก มุ่งเน้นมากขึ้น และอาจมีสรุปข้อมูลที่ให้บริการชุมชนผู้ใช้ได้ดีที่สุด Data Mart อาจเป็นส่วนหนึ่งของคลังข้อมูลเช่นกัน
สำหรับการเปรียบเทียบข้อมูลเชิงลึกระหว่าง Data Mart และคลังข้อมูล โปรดดูที่หน้าเปรียบเทียบ Data Mart และคลังข้อมูลโดยเฉพาะของเรา
AWS จะสนับสนุนความพยายามด้านคลังข้อมูลของคุณได้อย่างไร
AWS ช่วยให้คุณใช้ประโยชน์จากข้อดีหลักๆ ทั้งหมดที่เกี่ยวข้องกับการประมวลผลตามความต้องการดังนี้: การเข้าถึงพื้นที่เก็บข้อมูลและความจุในการประมวลผลที่เสมือนไร้ขีดจำกัด การปรับขนาดระบบของคุณควบคู่ไปกับจำนวนข้อมูลที่เก็บรวบรวม จัดเก็บ และสืบค้นที่เพิ่มขึ้น และการชำระเงินเฉพาะทรัพยากรที่คุณจัดสรรไว้เท่านั้น AWS ขอเสนอบริการที่มีการจัดการที่หลากหลายซึ่งรวมเข้าด้วยกันอย่างราบรื่น เพื่อให้คุณสามารถปรับใช้โซลูชันการวิเคราะห์แบบครบวงจรและคลังข้อมูลได้อย่างรวดเร็ว
ภาพประกอบต่อไปนี้แสดงขั้นตอนสำคัญของกระบวนการวิเคราะห์แบบครบวงจรที่เรียกว่า สแต็ก AWS ขอเสนอบริการที่มีการจัดการที่หลากหลายในทุกขั้นตอน
Amazon Redshift คือบริการคลังข้อมูลที่รวดเร็ว คุ้มค่า และมีการจัดการเต็มรูปแบบ โดยรวมคลังเก็บข้อมูลขนาดเพตะไบต์และการวิเคราะห์ Data Lake ขนาดเอกซะไบต์ไว้ในบริการเดียว ซึ่งคุณเพียงชำระเงินเฉพาะที่คุณใช้เท่านั้น
เริ่มต้นใช้งานคลังข้อมูลบน AWS โดยสร้างบัญชีได้แล้ววันนี้