ข้ามไปที่เนื้อหาหลัก

การสร้างโปรไฟล์ข้อมูลคืออะไร

การสร้างโปรไฟล์ข้อมูลคือกระบวนการตรวจสอบข้อมูลขององค์กรเพื่อทำความเข้าใจข้อมูลที่มีอยู่ วิธีการเก็บและการเชื่อมต่อระหว่างชุดข้อมูลต่าง ๆ องค์กรขนาดใหญ่ต่าง ๆ เก็บรวบรวมข้อมูลจากแหล่งที่มาหลายร้อยหรือหลายพันแหล่งซึ่งอาจนำไปสู่ความซ้ำซ้อน ความไม่สอดคล้องกัน และปัญหาความถูกต้องของข้อมูลอื่น ๆ ที่ส่งผลกระทบต่อโครงการวิเคราะห์ในอนาคต การสร้างโปรไฟล์ข้อมูลมีวัตถุประสงค์เพื่อประเมินคุณภาพข้อมูลโดยใช้เครื่องมืออัตโนมัติที่ระบุและรายงานเกี่ยวกับเนื้อหาและรูปแบบการใช้งาน เป็นขั้นตอนการประมวลผลเบื้องต้นที่สำคัญก่อนที่จะสามารถใช้ข้อมูลเพื่อการวิเคราะห์และการข่าวกรองทางธุรกิจ

โปรไฟล์ข้อมูลคืออะไร

โปรไฟล์ข้อมูลคือรายงานที่ให้ข้อมูลเชิงลึกโดยละเอียดเกี่ยวกับแอตทริบิวต์ของข้อมูลของบริษัท และปัญหาด้านคุณภาพข้อมูลที่อาจมีอยู่ รายงานนี้มุ่งเน้นไปที่ข้อมูลเมตาและข้อมูลทางสถิติ ทำให้นักวิจัยได้ภาพรวมที่ครอบคลุมเกี่ยวกับเนื้อหาของข้อมูล

มาตรการทางสถิติในโปรไฟล์ข้อมูลช่วยกำหนดคุณภาพของข้อมูลได้ ให้ข้อมูลเกี่ยวกับค่าต่ำสุดและสูงสุด ข้อมูลความถี่ การแปรผัน ค่าเฉลี่ยและโหมด เปอร์เซ็นไทล์ และข้อมูลเชิงลึกอื่น ๆ เกี่ยวกับการกระจายข้อมูล

ส่วนข้อมูลเมตาของรายงานให้ข้อมูลเชิงลึกเกี่ยวกับประเภทของข้อมูลที่บริษัทเก็บรวบรวม ประกอบด้วยด้านโครงสร้าง การวิเคราะห์คีย์นอกเพื่อทำความเข้าใจความสัมพันธ์ระหว่างชุดข้อมูล และการวิเคราะห์ความสมบูรณ์แบบอ้างอิงเพื่อตรวจสอบความสอดคล้องในตารางต่าง ๆ

เหตุใดการสร้างโปรไฟล์ข้อมูลจึงสำคัญ

นี่คือประโยชน์ของการสร้างโปรไฟล์ข้อมูล

ปรับปรุงการจัดระเบียบข้อมูล

ไม่ใช่เรื่องแปลกที่องค์กรขนาดใหญ่จะมีชุดข้อมูลหลายชุดที่แบ่งปันข้อมูลหรือมีรายละเอียดที่คล้ายคลึงกัน ด้วยการสร้างโปรไฟล์ข้อมูล ธุรกิจสามารถระบุแหล่งที่มาของข้อมูลและกำหนดว่าฟิลด์ใดที่ทับซ้อนกันได้ การระบุความซ้ำซ้อนสามารถช่วยทำความสะอาดข้อมูล ปรับปรุงการจัดระเบียบ และอำนวยความสะดวกให้กระบวนการขับเคลื่อนข้อมูลดีขึ้น มาตรฐานคุณภาพข้อมูลที่ดีขึ้นช่วยปรับปรุงกระบวนการที่ขับเคลื่อนด้วยข้อมูลทั้งหมดในธุรกิจในขณะที่ลดต้นทุนการดำเนินงานที่เกี่ยวข้องกับความพยายามซ้ำซ้อน

พัฒนาการทำงานร่วมกัน

รายงานการสร้างโปรไฟล์ข้อมูลยังสร้างข้อมูลเกี่ยวกับความเป็นเจ้าของและเส้นทางขั้นตอน องค์กรจะเข้าใจดีขึ้นว่าใครเป็นเจ้าของข้อมูลใดและข้อมูลดังกล่าวมาจากที่ใด ความรู้นี้ช่วยเพิ่มความรับผิดชอบและส่งเสริมการทำงานร่วมกันที่มีประสิทธิภาพมากขึ้น

เพิ่มประสิทธิภาพให้เวิร์กโฟลว์

การสร้างโปรไฟล์ข้อมูลครอบคลุมถึงกระบวนการอัตโนมัติที่ช่วยอำนวยความสะดวกในการระบุข้อมูลเมตาและการติดตามการไหลของข้อมูล นักวิจัยข้อมูลของคุณจะใช้เวลาน้อยลงกับกระบวนการระบุด้วยตนเองที่ยาวนาน และมุ่งเน้นไปที่งานที่ต้องใช้ความเชี่ยวชาญทางเทคนิคมากขึ้น นอกจากนี้คุณยังสามารถลบข้อมูลซ้ำซ้อนหรือข้อมูลที่ไม่ถูกต้องออกได้ และมั่นใจได้ว่าข้อมูลทั้งหมดที่ใช้เป็นไปตามมาตรฐานที่สูงขึ้น

การกำกับดูแลแบบรวมศูนย์

การสร้างโปรไฟล์ข้อมูลจะรวบรวมข้อมูลเกี่ยวกับข้อมูล โดยให้มุมมองแบบบานหน้าต่างเดียวว่าข้อมูลถูกเก็บไว้ที่ไหน ใครเป็นเจ้าของ และมีข้อมูลใดที่ทับซ้อนกัน คุณสามารถเอาชนะ Data Silo และปรับปรุงการเข้าถึงข้อมูล การใช้แนวทางองค์รวมในการบันทึกและจัดทำแผนที่ข้อมูลช่วยให้ทุกคนในองค์กรของคุณเข้าใจข้อมูลของตนเองได้ดีขึ้น การสร้างโปรไฟล์ยังแสดงให้เห็นความสัมพันธ์ระหว่างชุดข้อมูลที่แตกต่างกันและติดตามว่าข้อมูลเหล่านั้นเคลื่อนตัวผ่านระบบอย่างไร ซึ่งถือเป็นสิ่งสำคัญสำหรับการปฏิบัติตามข้อกำหนด

กรณีการใช้งานของการสร้างโปรไฟล์ข้อมูลมีอะไรบ้าง

กรณีการใช้งานของการสร้างโปรไฟล์ข้อมูลมีหลายกรณี

คุณภาพข้อมูล

หากการดำเนินการข้อมูลล้มเหลว วิธีหนึ่งที่ง่ายที่สุดวิธีในการค้นหาสาเหตุคือการสร้างโปรไฟล์ข้อมูล รายงานโปรไฟล์ข้อมูลจะระบุว่าข้อมูลไม่ครบถ้วน ไม่ถูกต้อง หรือมีอักขระที่ไม่คาดคิดซึ่งอาจทำให้เกิดข้อผิดพลาดได้ วิศวกรข้อมูลสามารถเรียกใช้โปรไฟล์ข้อมูลได้บ่อยครั้งเพื่อตรวจยืนยันว่าการดำเนินการข้อมูลทำงานตามที่คาดหวังและเพื่อให้แน่ใจว่าข้อมูลยังคงมีคุณภาพสูง

การย้ายข้อมูล

วิศวกรข้อมูลสามารถใช้รายงานโปรไฟล์ข้อมูลเพื่อระบุเมื่อระบบข้อมูลอยู่ภายใต้ความเครียด และกำหนดการปรับเปลี่ยนที่จำเป็นเพื่อประสิทธิภาพการทำงานที่ดีขึ้น รายงานโปรไฟล์ข้อมูลสามารถแนะนำการตัดสินใจย้ายไปยังระบบคลาวด์หรือการตั้งค่าใหม่ใด ๆ ได้ สถาปนิกข้อมูลสามารถรวบรวมข้อมูลที่จำเป็นได้อย่างรวดเร็วเพื่อทำงานได้อย่างมีประสิทธิภาพมากขึ้นและปรับปรุงกระบวนการพัฒนาข้อมูลให้มีประสิทธิภาพมากขึ้น

การจัดการข้อมูลหลัก

ข้อมูลหลักคือข้อมูลหลักที่ใช้ในองค์กร โดยทั่วไปจะอธิบายถึงลูกค้า ผลิตภัณฑ์ ซัพพลายเออร์ หรือสินทรัพย์สำคัญอื่น ๆ แอปพลิเคชัน Master Data Management (MDM) เป็นโซลูชันซอฟต์แวร์ที่ช่วยให้องค์กรสามารถจัดการและรักษาความสม่ำเสมอและความถูกต้องของข้อมูลหลักของตนได้ เมื่อทีมทำงานกับแอปพลิเคชัน MDM หลัก ทีมงานจะใช้โปรไฟล์ข้อมูลเพื่อทำความเข้าใจว่าระบบใดที่รวมเข้าด้วยกันโดยโครงการ ขอบเขตแอปพลิเคชัน และมีความไม่สอดคล้องกันของข้อมูลหรือไม่ ธุรกิจสามารถใช้การสร้างโปรไฟล์ข้อมูลเพื่อระบุปัญหาคุณภาพข้อมูล ค่าว่าง และข้อผิดพลาดโดยเร็วที่สุด ซึ่งจะช่วยเร่งมาตรฐานข้อมูลและสนับสนุน MDM

การจัดทำโปรไฟล์ข้อมูลมีกี่ประเภท

มีเทคนิคการจัดทำโปรไฟล์ข้อมูลที่แตกต่างกันหลายรูปแบบ

การค้นพบโครงสร้าง

การจัดทำโปรไฟล์ข้อมูลในการค้นพบโครงสร้างเป็นกลยุทธ์ที่ทำให้มั่นใจว่าข้อมูลทั้งหมดมีความสอดคล้องกันในฐานข้อมูล โดยจะตรวจสอบข้อมูลทั้งหมดในฟิลด์เฉพาะเพื่อตรวจสอบว่าอยู่ในรูปแบบที่ถูกต้องและมีโครงสร้างอย่างสม่ำเสมอกับรายการอื่น ๆ ทั้งหมดในฟิลด์ ตัวอย่างเช่น การค้นพบโครงสร้างอาจตรวจสอบหมายเลขโทรศัพท์มือถือทั้งหมดในรายการว่ามีจำนวนหลักเท่ากันหรือไม่ โดยระบุค่าที่ขาดหายไปหรือไม่เข้ากันได้

การค้นพบเนื้อหา

การจัดทำโปรไฟล์ข้อมูลในการค้นพบเนื้อหาเป็นกลยุทธ์ที่มองหาปัญหาทางระบบใด ๆ ในข้อมูล ข้อผิดพลาดเหล่านี้อาจอยู่ในรูปแบบของค่าที่ไม่ถูกต้องหรือองค์ประกอบแต่ละองค์ประกอบที่ไม่ถูกต้องภายในฐานข้อมูล

การค้นพบความสัมพันธ์

การจัดทำโปรไฟล์ข้อมูลในการค้นพบความสัมพันธ์คือการติดตามว่าชุดข้อมูลต่าง ๆ เชื่อมต่อกันอย่างไร ชุดข้อมูลใดที่ใช้งานร่วมกับชุดข้อมูลอื่น และชุดข้อมูลมีความทับซ้อนกันอย่างไร รูปแบบการจัดทำโปรไฟล์นี้จะตรวจสอบข้อมูลเมตาก่อนเพื่อพิจารณาว่าความสัมพันธ์ใดที่โดดเด่นที่สุดระหว่างชุดข้อมูล จากนั้นจะทำให้เธรดเชื่อมโยงระหว่างฟิลด์แคบลงเพื่อแสดงมุมมองของความสัมพันธ์แบบองค์รวมมากขึ้น

การค้นพบข้อมูลเมตาตา

การจัดทำโปรไฟล์ข้อมูลในการค้นพบข้อมูลเมตาเปรียบเทียบข้อมูลกับโครงสร้างที่คาดหวังโดยการประเมินข้อมูลเมตา ตรวจสอบว่าข้อมูลทำงานและเป็นไปตามที่คาดหวังหรือไม่ ตัวอย่างเช่น หากตั้งใจให้ฟิลด์หนึ่งเป็นตัวเลขแต่กลับได้รับการตอบเป็นตัวอักษร การค้นพบข้อมูลเมตาจะทำเครื่องหมายความคลาดเคลื่อนนี้เป็นข้อผิดพลาดเพื่อให้ตรวจสอบเพิ่มเติม

การจัดทำโปรไฟล์โดยอิงตามฟิลด์

การจัดทำโปรไฟล์โดยอิงตามฟิลด์เป็นกลยุทธ์ที่ระบุปัญหาคุณภาพของข้อมูลในฟิลด์เดียวโดยตรวจสอบว่าประเภทข้อมูลและลักษณะตรงกัน วิธีการนี้สามารถช่วยระบุความไม่สอดคล้องกันในข้อมูลหรือข้อยกเว้นที่อาจทำให้ข้อมูลผิดเพี้ยน

การจัดทำโปรไฟล์หลายฟิลด์ใช้กลยุทธ์ที่คล้ายกันเพื่อทำความเข้าใจความสัมพันธ์ระหว่างสองฟิลด์ที่แตกต่างกัน หรือที่เรียกว่าการจัดทำโปรไฟล์ข้ามฟิลด์หรือการจัดทำโปรไฟล์ข้ามตาราง โดยตรวจสอบว่าสองฟิลด์เข้ากันได้หากข้อมูลของฟิลด์เหล่านั้นอาศัยกัน ตัวอย่างเช่น การตรวจสอบหนึ่งสามารถตรวจสอบได้ว่าสถานะตรงกับรหัสไปรษณีย์ที่เหมาะสมในรายการที่อยู่ของลูกค้าหรือไม่

การสร้างโปรไฟล์ข้อมูลทำงานอย่างไร

นี่เป็นขั้นตอนหลักที่การจัดทำโปรไฟล์ข้อมูลจะดำเนินไป

การเตรียมการ

การเตรียมการคือการสรุปสิ่งที่คุณต้องการบรรลุผลด้วยการสร้างโปรไฟล์ข้อมูล ขั้นตอนแรกคือการระบุว่ารูปแบบการสร้างโปรไฟล์ข้อมูลใดมีประสิทธิผลสูงสุดในการบรรลุวัตถุประสงค์ทางธุรกิจของคุณ ในขั้นตอนนี้ คุณจะระบุฟิลด์ข้อมูลเมตาที่คุณต้องการวิจัย

การค้นพบข้อมูล

ถัดไป คุณจะระบุว่าข้อมูลใดอยู่บนระบบของคุณ ขั้นตอนนี้มีวัตถุประสงค์เพื่อเก็บรวบรวมข้อมูลเกี่ยวกับโครงสร้างของข้อมูลรูปแบบเนื้อหาและความสัมพันธ์ที่อาจเกิดขึ้นระหว่างชุดข้อมูล ในขั้นตอนนี้ คุณสามารถทำการวิเคราะห์ทางสถิติเพื่อกำหนดฟีเจอร์ข้อมูลบางอย่าง

การกำหนดมาตรฐาน

การกำหนดมาตรฐานช่วยให้มั่นใจว่ารูปแบบและโครงสร้างในข้อมูลทั้งหมดของคุณจะสอดคล้องกัน ในขั้นตอนนี้ คุณยังจะกำจัดข้อมูลที่ซ้ำกันและลบการซ้ำซ้อน ซึ่งจะช่วยลดปริมาณข้อมูลทั้งหมดที่ต้องทำได้รับการล้างข้อมูลในขั้นตอนถัดไป หากคุณต้องการใช้กฎทางธุรกิจเพื่อทำให้ข้อมูลของคุณเป็นไปตามมาตรฐาน นี่คือจุดที่การตรวจสอบกฎข้อมูลเกิดขึ้น

การล้างข้อมูล

การล้างข้อมูลเกี่ยวข้องกับการตรวจจับและลบข้อผิดพลาดการเสริมสร้างข้อมูลด้วยการเชื่อมต่อกับแหล่งที่มาของข้อมูลอื่น ๆ และแก้ไขความไม่สอดคล้องในชุดข้อมูลที่กว้างขึ้น

การปรับปรุง

ขั้นสุดท้าย กระบวนการสร้างโปรไฟล์ข้อมูลมุ่งเน้นไปที่การปรับปรุงซึ่งเกี่ยวข้องกับการตรวจสอบคุณภาพของข้อมูลเพื่อให้แน่ใจว่าปัญหาใด ๆ ได้รับการแก้ไขโดยเร็วที่สุด หากคุณมีเป้าหมายด้านการกำกับดูแลข้อมูลหรือกลยุทธ์ข้อมูลบางอย่าง ขั้นตอนนี้คือจุดที่คุณสามารถตรวจสอบให้แน่ใจว่ามีการปฏิบัติตามข้อกำหนดและตรวจสอบว่าข้อมูลของคุณถูกนำเข้าและกระจายอย่างถูกต้องในองค์กรของคุณ

ฟังก์ชันการสร้างโปรไฟล์ข้อมูลทั่วไปคืออะไร

นี่คือเครื่องมือและฟังก์ชันการสร้างโปรไฟล์ข้อมูลทั่วไป

ฟังก์ชันด้านคณิตศาสตร์

ฟังก์ชันด้านคณิตศาสตร์ในการสร้างโปรไฟล์ข้อมูลเป็นวิธีการคำนวณความสมบูรณ์ของข้อมูลและระบุรูปแบบใด ๆ ที่มีอยู่ทั่วทั้งชุดข้อมูล ตัวอย่างเช่น absolute value, power, log เป็นต้น

ฟังก์ชันรวม

ฟังก์ชันรวมมุ่งเน้นไปที่การเก็บรวบรวมหลายฟิลด์จากแถวหรือคอลัมน์จากนั้นส่งคืนค่าเอกพจน์เพื่อสรุปข้อมูลนั้น ตัวอย่างเช่น average, count, maximum, variance และอื่น ๆ

ฟังก์ชันข้อความ

ฟังก์ชันข้อความเป็นกลยุทธ์ในการตรวจสอบรายการข้อมูลตามตัวอักษรช่วยในการประเมินคุณภาพข้อมูลของฟิลด์สตริงเหล่านี้และโต้ตอบกับข้อมูลดังกล่าว ตัวอย่างเช่น find, char, trim เป็นต้น

ฟังก์ชันวันที่และเวลา

ฟังก์ชันวันที่และเวลาช่วยให้นักวิจัยสามารถตรวจสอบข้อมูลที่ประกอบด้วยฟิลด์เหล่านี้ คุณสามารถตรวจสอบวันที่หรือเวลาที่เฉพาะเจาะจง คำนวณความแตกต่างระหว่างวันที่ หรือส่งคืนข้อมูลเฉพาะจากฟิลด์เหล่านี้ ตัวอย่างเช่นแปลงเขตเวลา ส่งคืนค่าเดือน ปี และวันจากวันที่กำหนด เป็นต้น

ฟังก์ชันหน้าต่าง

เครื่องมือสร้างโปรไฟล์ข้อมูลที่มีฟังก์ชันหน้าต่างช่วยให้คุณสามารถตรวจสอบข้อมูลตามคอลัมน์ คุณสามารถดำเนินการจัดทำโปรไฟล์ข้ามคอลัมน์และการสร้างโปรไฟล์คอลัมน์ผ่านหน้าต่างข้อมูลแบบกลิ้ง ตัวอย่างเช่น rolling window count, max ฯลฯ                                                                                                                                                                                                                                                                                                  

ฟังก์ชันเว็บ

ฟังก์ชันเว็บทำงานบนสตริงที่มีเนื้อหา XML สำหรับข้อมูลใด ๆ ที่เชื่อมต่อกับบริการเว็บ ฟังก์ชันเหล่านี้เป็นเครื่องมือสืบสวนที่มีประสิทธิภาพ ตัวอย่างเช่นการแปลงฟิลด์ข้อมูลหรือแยกค่าจากอ็อบเจ็กต์ JSON

AWS รองรับข้อกำหนดการสร้างโปรไฟล์ข้อมูลของคุณได้อย่างไร

Amazon SageMaker Catalog ให้คะแนนคุณภาพข้อมูลที่ช่วยให้คุณเข้าใจตัววัดคุณภาพต่าง ๆ เช่น ความสมบูรณ์ ความทันเวลา และความแม่นยำของแหล่งที่มาของข้อมูลของคุณ Amazon SageMaker Catalog ผสานรวมกับการตรวจคุณภาพข้อมูลของ AWS Glue และเสนอ API เพื่อรวมตัววัดคุณภาพข้อมูลจากโซลูชันคุณภาพข้อมูลของบุคคลที่สาม ผู้ใช้ข้อมูลสามารถดูว่าตัววัดคุณภาพข้อมูลเปลี่ยนแปลงอย่างไรเมื่อเวลาผ่านไปสำหรับสินทรัพย์ที่สมัครสมาชิกไว้ เพื่อเขียนและเรียกใช้กฎคุณภาพข้อมูล คุณสามารถใช้เครื่องมือคุณภาพข้อมูลที่คุณเลือก เช่น การตรวจคุณภาพข้อมูลของ AWS Glue ด้วยตัววัดคุณภาพข้อมูลใน SageMaker Catalog ผู้บริโภคข้อมูลสามารถมองเห็นคะแนนคุณภาพข้อมูลสำหรับสินทรัพย์และคอลัมน์ได้ ช่วยสร้างความเชื่อมั่นในข้อมูลที่ใช้ในการตัดสินใจ

AWS Glue เป็นบริการการรวมข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์ที่ช่วยลดความยุ่งยากของกระบวนการค้นหา เตรียม และรวมข้อมูลสำหรับการวิเคราะห์ AI/ML และการพัฒนาแอปพลิเคชัน โดยมอบความสามารถทั้งหมดที่จำเป็นสำหรับการรวมข้อมูล ช่วยให้คุณเริ่มวิเคราะห์ข้อมูลและนำไปใช้ได้ภายในไม่กี่นาที แทนที่จะต้องใช้เวลาหลายเดือน

AWS Glue DataBrew เป็นฟีเจอร์การเตรียมข้อมูลภาพภายใน AWS Glue ที่ให้ความสามารถในการสร้างโปรไฟล์ข้อมูล คุณสามารถ:

  • เลือกจากการแปลงที่สร้างไว้ล่วงหน้ากว่า 250 รายการเพื่อทำงานการเตรียมข้อมูลแบบอัตโนมัติ ทั้งหมดนี้โดยไม่จำเป็นต้องเขียนโค้ดใด ๆ
  • กรองความผิดปกติโดยอัตโนมัติ แปลงข้อมูลเป็นรูปแบบมาตรฐาน และแก้ไขค่าที่ไม่ถูกต้อง
  • ใช้ข้อมูลที่เตรียมไว้สำหรับการวิเคราะห์และโครงการ AI/ML ทันที

การสร้างกฎคุณภาพข้อมูลด้วยตนเองโดยการเขียนโค้ดเพื่อติดตามตรวจสอบไปป์ไลน์ข้อมูลเป็นความท้าทายที่สำคัญในการสร้างโปรไฟล์ข้อมูล การตรวจคุณภาพข้อมูลของ AWS Glue เป็นอีกฟีเจอร์หนึ่งที่ประมวลผลสถิติโดยอัตโนมัติ แนะนำกฎคุณภาพข้อมูล ติดตามตรวจสอบและแจ้งเตือนคุณเมื่อตรวจพบปัญหา

เริ่มต้นใช้งานการสร้างโปรไฟล์ข้อมูลบน AWS ด้วยการสร้างบัญชีฟรีวันนี้