ข้ามไปที่เนื้อหาหลัก

การวิเคราะห์ฐานข้อมูลคืออะไร

ข้อมูลช่วยเสริมการตัดสินใจภายในธุรกิจ ดังนั้นจึงต้องมีการจัดการ การรับมือ และการวิเคราะห์อย่างรอบคอบ การดำเนินการข้อมูลที่ไม่เหมาะสม แม้จะทำโดยนักวิเคราะห์ข้อมูลที่มีความเชี่ยวชาญมาก ก็อาจนำไปสู่ข้อสรุปที่ไม่ถูกต้องและการตัดสินใจที่ผิดพลาดได้

ไปป์ไลน์การวิเคราะห์ข้อมูลที่สมบูรณ์จะช่วยให้องค์กรสามารถระบุแนวโน้มได้อย่างแม่นยำ ดำเนินการวิเคราะห์เชิงพรรณนา การวิเคราะห์เชิงแนะนำ และการวิเคราะห์ทางสถิติ ตลอดจนนำความสามารถแมชชีนเลิร์นนิงและความสามารถของ AI มาใช้ได้

การเลือกระบบการวิเคราะห์ฐานข้อมูลขึ้นอยู่กับข้อมูลที่มีอยู่ รูปแบบฐานข้อมูลปัจจุบัน และการวิเคราะห์ประเภทอื่น ๆ ที่จำเป็น ข้อมูลจะจัดเก็บในธุรกิจในรูปแบบต่าง ๆ รวมถึงฐานข้อมูลแบบเชิงสัมพันธ์ ฐานข้อมูลที่ไม่ใช่เชิงสัมพันธ์ และรูปแบบไฟล์อื่น ๆ ฐานข้อมูลแบบเชิงสัมพันธ์และไม่ใช่เชิงสัมพันธ์มีการรองรับการวิเคราะห์ขั้นพื้นฐานในตัว แต่ข้อมูลเหล่านี้ยังไม่เพียงพอที่จะทำให้ได้รับข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับฟังก์ชันและแหล่งข้อมูลทางธุรกิจ

นักวิเคราะห์ข้อมูลต้องการคลังข้อมูล Data Warehouse, Data Lake และ Lakehouse สำหรับการรวมข้อมูลจากแหล่งที่แตกต่างกัน ทำให้พร้อมสำหรับการขุดค้นและการวิเคราะห์ข้อมูลข้ามรูปแบบและข้ามฟังก์ชัน

เราจะสำรวจเทคโนโลยีที่แตกต่างกันทั้งหมดเหล่านี้ภายในพื้นที่การวิเคราะห์ฐานข้อมูลในส่วนที่เหลือของคู่มือ

ระบบข้อมูลหลัก ๆ ที่ใช้ในการวิเคราะห์คือประเภทใดบ้าง

ต่อไปนี้คือภาพรวมโดยย่อของระบบประเภทต่าง ๆ ที่มีให้ใช้ในการวิเคราะห์

ฐานข้อมูลแบบเชิงสัมพันธ์

ฐานข้อมูลแบบเชิงสัมพันธ์เป็นคอลเลกชันของข้อมูลที่มีโครงสร้างซึ่งจัดเรียงเป็นตารางที่มีแถวและคอลัมน์ โดยแต่ละตารางจะประกอบด้วยคอลเลกชันของข้อมูลที่เกี่ยวข้องซึ่งแสดงถึงวัตถุหรือแนวคิดในโลกแห่งความเป็นจริง

แต่ละแถวในตารางจะแสดงถึงบันทึกรายการเดียว เช่น รายละเอียดของลูกค้า รวมถึงชื่อ หมายเลขโทรศัพท์ และที่อยู่ ซึ่งแต่ละตารางอาจเกี่ยวข้องกับตารางอื่น ๆ ก็ได้ ตัวอย่างเช่น ตารางลูกค้าอาจเกี่ยวข้องกับตารางการซื้อ ทำให้ระบบสามารถเชื่อมโยงการซื้อแต่ละรายการกับลูกค้าที่เฉพาะเจาะจงได้

ระบบการจัดการฐานข้อมูลแบบเชิงสัมพันธ์ทั้งหมดมีสคีมาแบบคงที่ (ตามที่ได้อธิบายไว้ข้างต้น) และรองรับภาษาการสืบค้นที่มีโครงสร้าง (SQL) ซึ่งมีไว้สำหรับการสืบค้นข้อมูลภายในและระหว่างตารางต่าง ๆ

ตัวอย่างของบริการฐานข้อมูลแบบเชิงสัมพันธ์บน AWS ได้แก่ Amazon Relational Database Service และ Amazon Aurora ซึ่งเป็นโซลูชันฐานข้อมูลแบบเชิงสัมพันธ์ที่มีประสิทธิภาพสูงและปรับให้ใช้ได้ทั่วโลกสำหรับ PostgreSQL, MySQL และ DSQL

ฐานข้อมูลแบบไม่ใช่เชิงสัมพันธ์

ฐานข้อมูลแบบไม่ใช่เชิงสัมพันธ์จะมีสคีมาที่ยืดหยุ่นและเรียกอีกอย่างว่าฐานข้อมูล NoSQL เนื่องจากไม่รองรับการสืบค้นผ่าน SQL ฐานข้อมูลแบบไม่ใช่เชิงสัมพันธ์ประเภทต่าง ๆ ได้แก่ ฐานข้อมูลแบบคีย์-ค่า ฐานข้อมูลแบบโครงสร้างเอกสาร ฐานข้อมูลแบบคอลัมน์กว้าง ฐานข้อมูลแบบกราฟ ฐานข้อมูลแบบใช้หน่วยความจำ และฐานข้อมูลการค้นหา

ฐานข้อมูล NoSQL แต่ละประเภทจะเหมาะกับกรณีการใช้งานเฉพาะ ตัวอย่างเช่น ฐานข้อมูลแบบโครงสร้างเอกสารจะเหมาะกับระบบการจัดการเนื้อหาภายใน และการจัดเก็บแบบคอลัมน์กว้างจะเหมาะสำหรับข้อมูลแบบอนุกรมเวลาจากกลุ่มอินสแตนซ์ IoT

ตัวอย่างบางส่วนของบริการฐานข้อมูลแบบไม่ใช่เชิงสัมพันธ์บน AWS จะแสดงไว้ด้านล่าง

  • Amazon DynamoDB เป็นฐานข้อมูลที่ไม่ต้องใช้เซิร์ฟเวอร์, เป็นแบบ NoSQL และมีการจัดการอย่างเต็มรูปแบบพร้อมประสิทธิภาพในระดับมิลลิวินาทีเลขหลักเดียว เหมาะสำหรับฐานข้อมูลแบบคีย์-ค่าและการจัดเก็บโครงสร้างเอกสาร
  • Amazon DocumentDB (พร้อมฟังก์ชันการทำงานร่วมกับ MongoDB) เป็นบริการฐานข้อมูลแบบโครงสร้างเอกสาร JSON แบบดั้งเดิมที่มีการจัดการเต็มรูปแบบ
  • Amazon Keyspaces (สำหรับ Apache Cassandra) เป็นบริการที่มีการจัดการ สามารถปรับขนาดได้ มีความพร้อมใช้งานสูงสำหรับฐานข้อมูลแบบคอลัมน์กว้างที่ใช้งานร่วมกับ Apache Cassandra ได้
  • Amazon Neptune เป็นบริการฐานข้อมูลแบบกราฟที่ไม่ต้องใช้เซิร์ฟเวอร์ประสิทธิภาพสูงที่มีการวิเคราะห์ ความสามารถในการปรับขนาด และความพร้อมใช้งานที่เหนือชั้น
  • Amazon ElastiCache เป็นบริการแคชแบบใช้หน่วยความจำที่ได้รับการจัดการเต็มรูปแบบ ซึ่งเข้ากันได้กับทั้ง Valkey, Redis และ Memcached ในฐานข้อมูลแบบใช้หน่วยความจำ
  • Amazon MemoryDB เป็นบริการฐานข้อมูลแบบใช้หน่วยความจำที่มีความคงทน สามารถใช้ร่วมกับ Valkey และ Redis OSS ได้เพื่อประสิทธิภาพที่มีความเร็วสูงเป็นพิเศษ

คลังข้อมูล

คลังข้อมูลเป็นโซลูชันการวิเคราะห์ที่เพิ่มความสามารถของฐานข้อมูลแบบเชิงสัมพันธ์ในขนาดใหญ่ รวมถึงมีการรองรับการสืบค้นผ่าน SQL คลังข้อมูลใช้สำหรับการจัดเก็บและวิเคราะห์ข้อมูลเชิงสัมพันธ์ในฐานข้อมูลจำนวนมาก โซลูชันคลังสินค้าสามารถแปลงข้อมูลที่ไม่ใช่เชิงสัมพันธ์ระหว่างกระบวนการแยก แปลง และโหลด (ETL) เพื่อทำให้ข้อมูลดังกล่าวกลายเป็นข้อมูลแบบปกติ ทั้งนี้เพื่อให้พร้อมสำหรับการวิเคราะห์

Amazon Redshift เป็นโซลูชันคลังข้อมูลที่มีการจัดการซึ่งช่วยให้คุณจัดเก็บข้อมูลและปรับขนาดเวิร์กโหลดการวิเคราะห์ข้อมูลได้อย่างง่ายดาย

Data Lake

Data Lake คือพื้นที่เก็บข้อมูลส่วนกลางที่ให้คุณสามารถเก็บข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างทั้งหมดของคุณในทุกระดับ การแปลงข้อมูลอาจเกิดขึ้นก่อนหรือหลังการถ่ายโอนไปยัง Data Lake ก็ได้ Data Lake ต้องใช้บริการเพิ่มเติมสำหรับ ETL และการวิเคราะห์ เนื่องจากโดยทั่วไปแล้วจะไม่ทำการวิเคราะห์ข้อมูลดิบกัน

Amazon S3 เป็นพื้นที่เก็บข้อมูลอ็อบเจกต์ที่ออกแบบมาเพื่อดึงข้อมูลจำนวนใดก็ได้จากทุกที่ ซึ่งสามารถทำหน้าที่เป็น Data Lake ได้ S3 สามารถใช้ร่วมกับ AWS Lake Formation เพื่อให้ได้รับสิทธิ์อนุญาตการเข้าถึงข้อมูลและการแบ่งปันข้อมูลที่เก็บไว้

Data Lakehouse

Data Lakehouse เป็นการผสมผสานกันระหว่างคลังข้อมูลและ Data Lake Data Lakehouse สามารถเก็บข้อมูลได้ไม่ว่าข้อมูลนั้นจะมีโครงสร้างหรือไม่ก็ตาม ทั้งยังมีเลเยอร์รูปแบบเพื่อเพิ่มสคีมาและโครงสร้าง รวมถึงเอนจินการสืบค้นด้วย Data Lakehouse เป็นเลเยอร์ที่จำเป็นในการวิเคราะห์ข้อมูลองค์กรสมัยใหม่ เนื่องจากมีความสามารถในการดำเนินการสืบค้นข้อมูลทั้งหมดพร้อมกัน

Amazon SageMaker Lakehouse จะรวมข้อมูลจาก Data Lake ของ Amazon S3 และคลังฐานข้อมูลเชิงวิเคราะห์ของ Amazon Redshift ไว้ในที่เดียว Amazon SageMaker Lakehouse จะช่วยให้คุณสามารถเข้าถึงและสืบค้นข้อมูลของตนเองได้อย่างยืดหยุ่นภายในระบบด้วยเครื่องมือและเอนจินทั้งหมดที่ใช้งานร่วมกันได้กับ Apache Iceberg

ประเภทอื่น ๆ

จากการวิเคราะห์ในองค์กร ข้อมูลประเภทต่าง ๆ อาจไม่เหมาะเท่าไรนักกับโมเดลฐานข้อมูลแบบเชิงสัมพันธ์หรือแบบไม่ใช่เชิงสัมพันธ์ เช่น ไฟล์ดิบและตาราง ซึ่งหมายความว่าข้อมูลเหล่านั้นจะถูกเก็บไว้ในรูปแบบที่แตกต่างกัน ตัวอย่างเช่น ข้อมูลสตรีมมิ่งแบบกึ่งมีโครงสร้างบางส่วนสามารถจัดเก็บไว้ในไฟล์ Apache Avro ได้ ส่วน Amazon S3 สามารถใช้เก็บข้อมูลได้ทุกประเภท

เมื่อเลือกระบบการวิเคราะห์ข้อมูล มีแนวโน้มว่าคุณจะต้องใช้ความสามารถในการวิเคราะห์ไฟล์ประเภทเหล่านี้ร่วมกับฐานข้อมูลของคุณ

คุณปรับใช้การวิเคราะห์ฐานข้อมูลบน AWS อย่างไร

ฐานข้อมูล ประเภทข้อมูล รวมถึงพื้นที่เก็บข้อมูลและระบบการจัดการที่แตกต่างกันแต่ละระบบจะจัดการการวิเคราะห์ข้อมูลด้วยวิธีที่ไม่เหมือนกัน การวิเคราะห์เกี่ยวกับคลังข้อมูล, Data Lake และ Data Lakehouse ต้องใช้กลยุทธ์และเทคโนโลยีที่แตกต่างกัน

ตรวจสอบการกำกับดูแลข้อมูลพื้นฐานตั้งแต่จุดเริ่มต้น โดยใช้ Amazon DataZone เพื่อจัดทำแค็ตตาล็อก ค้นพบ แชร์ และกำกับดูแลข้อมูลที่เก็บไว้ใน AWS, ในองค์กร และแหล่งข้อมูลของบุคคลที่สาม

Amazon Managed Workflows สำหรับ Apache Airflow (MWAA) สามารถช่วยจัดระเบียบกระบวนการวิเคราะห์ข้อมูลผ่านการถ่ายโอนข้อมูลและการแปลงในฐานะเครื่องมือระบบอัตโนมัติสำหรับการเคลื่อนย้ายข้อมูล และยังกระตุ้นเวิร์กโฟลว์การวิเคราะห์ในคลังข้อมูล, Data Lake หรือ Data Lakehouse ของคุณอีกด้วย

ขั้นตอนที่ 1 - รวมข้อมูลจากหลาย ๆ แหล่งไว้ในระบบที่ใหญ่ขึ้นเพื่อใช้เป็นศูนย์กลาง

การถ่ายโอนข้อมูลของคุณจากแหล่งข้อมูลปัจจุบันไปยังคลังข้อมูล, Data Lake และ Data Lakehouse นั้นมีหลายวิธี โดยอาจต้องมีการแปลงข้อมูลและทำความสะอาดก่อนเก็บในพื้นที่เก็บข้อมูล อาจควรต้องพิจารณาปัจจัยอื่น ๆ ด้วย เช่น ประเภทของข้อมูลลูกค้าที่ละเอียดอ่อน สิทธิ์อนุญาตการเข้าถึง และการเข้าถึงในสถานที่จริงสำหรับข้อมูลบางอย่าง

วิธีที่ง่ายที่สุดในการถ่ายโอนข้อมูลเพื่อเตรียมการสำหรับการกำหนดค่าคลัง AWS, Data Lake หรือ Data Lakehouse คือการย้ายข้อมูลไปยัง S3 ก่อน

การสตรีมข้อมูลอาจต้องใช้บริการใหม่ ๆ เช่น Amazon Data Firehose สำหรับการส่งข้อมูลการสตรีมแบบเรียลไทม์ หรือ Amazon Kinesis Data Streams สำหรับการรับข้อมูลและการรวมข้อมูล

ขั้นตอนที่ 2 - แปลงและปรับข้อมูลให้เป็นรูปแบบปกติ

หากต้องการวิเคราะห์ข้อมูล อาจต้องมีการแปลงข้อมูลบางส่วนและปรับให้เป็นรูปแบบปกติ

AWS Glue ค้นพบและเชื่อมต่อกับแหล่งที่มาของข้อมูลอันหลากหลายกว่า 100 แหล่ง จัดการข้อมูลในแค็ตตาล็อกข้อมูลแบบรวมศูนย์ รวมไปถึงสร้างภาพ เรียกใช้ และตรวจติดตามไปป์ไลน์ข้อมูลเพื่อโหลดข้อมูลเข้ามายัง Data Lake, คลังข้อมูล และ Data Lakehouse ของคุณ AWS Glue DataBrew เป็นเครื่องมือเตรียมข้อมูลแบบแสดงเป็นภาพที่ทำให้นักวิเคราะห์ข้อมูลและนักวิทยาศาสตร์ข้อมูลสามารถทำความสะอาดและปรับข้อมูลให้เป็นรูปแบบปกติได้ง่ายขึ้น

ฟีเจอร์ของ Amazon EMR มีรันไทม์ที่ปรับประสิทธิภาพให้เหมาะสมกับการวิเคราะห์ Big Data ผ่าน Apache Spark, Trino, Apache Flink และ Hive ซึ่งทำให้เวิร์กโฟลว์ของ Data Lake และเวลาในการประมวลซับซ้อนน้อยลง

Amazon SageMaker Data Wrangler เป็นวิธีที่รวดเร็วและง่ายที่สุดในการเตรียมข้อมูลสำหรับแมชชีนเลิร์นนิง

ขั้นตอนที่ 3 - การวิเคราะห์ข้อมูลแบบรวม

เมื่อข้อมูลของคุณถูกจัดเก็บ เชื่อมต่อ และเปลี่ยนแปลง นักวิเคราะห์ข้อมูลจะใช้ประโยชน์จากคลังข้อมูล, Lake หรือ Lakehouse ของคุณเพื่อทำการวิเคราะห์ การวิเคราะห์ข้อมูลนั้นมีเทคนิคหลายแบบ โดยขึ้นอยู่กับกรณีการใช้งานของคุณ

การสืบค้น

Amazon Redshift มีความสามารถในการสืบค้นในตัวสำหรับคลังข้อมูลของคุณ Amazon Athena ช่วยให้คุณวิเคราะห์และสืบค้นทั้งข้อมูลแบบไม่มีโครงสร้าง, แบบกึ่งโครงสร้าง และแบบมีโครงสร้างที่เก็บไว้ใน Data Lake Amazon S3 บริการนี้ได้รับการปรับให้เหมาะสมสำหรับการวิเคราะห์และสำรวจข้อมูลแบบเรียลไทม์ ซึ่งช่วยให้ผู้ใช้สามารถสืบค้นและแสดงข้อมูลออกมาเป็นภาพได้แบบอินเทอร์แอคทีฟ นอกจากนี้ Amazon SageMaker Lakehouse ยังมีความสามารถในการสืบค้นในตัวอีกด้วย

ระบบธุรกิจอัจฉริยะ

Amazon QuickSight มีการวิเคราะห์ข้อมูลธุรกิจอัจฉริยะ (BI) แบบครบวงจรในวงกว้างให้บริการ ซึ่งครอบคลุมทั้งคลังข้อมูล, Data Lake และ Data Lake การแสดงข้อมูลเป็นภาพเป็นบริการสำคัญใน Amazon QuickSight

แมชชีนเลิร์นนิง

Amazon Redshift ML สามารถนำไปใช้สำหรับการวิเคราะห์ของแมชชีนเลิร์นนิงในคลังสินค้า Redshift ได้ Amazon SageMaker มีแมชชีนเลิร์นนิงและความสามารถในการวิเคราะห์อื่น ๆ เกี่ยวกับ Data Lake และ Data Lakehouse

บน Amazon SageMaker Lakehouse

ใน Amazon SageMaker Lakehouse คุณสามารถเข้าถึงและสืบค้นข้อมูลของตนเองที่เก็บไว้ในองค์กรได้ด้วยเครื่องมือที่ใช้งานร่วมกันได้กับ Apache Iceberg ทั้งหมดในสำเนาข้อมูลเดียว คุณสามารถรับประโยชน์จากการใช้เครื่องมือการวิเคราะห์และเครื่องมือที่คุณต้องการ เช่น SQL, Apache Spark, ระบบธุรกิจอัจฉริยะ (BI) และเครื่องมือ AI/ML และทำงานร่วมกับข้อมูลที่จัดเก็บไว้ใน Data Lake ของ Amazon S3 และคลังข้อมูลของ Amazon Redshift

การสตรีมข้อมูล

Amazon Kinesis สามารถรวบรวม ประมวลผล รวมถึงวิเคราะห์วิดีโอและ Data Stream แบบเรียลไทม์ได้ในลักษณะที่ปลอดภัยและปรับขนาดได้

AWS จะสนับสนุนความต้องการด้านการวิเคราะห์ข้อมูลของคุณได้อย่างไร

การวิเคราะห์ฐานข้อมูลต้องใช้มากกว่าแค่การสืบค้นข้อมูล SQL ในสภาพแวดล้อมองค์กรสมัยใหม่ ด้วยการใช้ประโยชน์จากคลังข้อมูล, Data Lake และ Lakehouse นักวิเคราะห์ข้อมูลสามารถปลดล็อกมูลค่าของข้อมูล ดำเนินการวิเคราะห์ข้อมูลในแหล่งที่มา ประเภท และฟังก์ชันต่าง ๆ

สถาปัตยกรรมการวิเคราะห์ฐานข้อมูลที่เหมาะสมช่วยให้มั่นใจได้ว่าโซลูชันของคุณสามารถปรับขนาดได้ พร้อมใช้งาน และผสานการทำงานกับบริการ ML และการวิเคราะห์เชิงคาดการณ์ที่จำเป็นในปัจจุบันได้ เริ่มต้นด้วยการสร้างบัญชีฟรีบน AWS วันนี้