การชำระข้อมูลคืออะไร?
การชำระข้อมูลเป็นกระบวนการที่จำเป็นสำหรับการเตรียมข้อมูลดิบสำหรับแอปพลิเคชันแมชชีนเลิร์นนิง (ML) และระบบข่าวกรองธุรกิจ (BI) ข้อมูลดิบอาจมีข้อผิดพลาดมาก ซึ่งอาจส่งผลกระทบต่อความถูกต้องของแบบจำลอง ML และนำไปสู่การคาดการณ์ที่ไม่ถูกต้องและผลกระทบเชิงลบต่อธุรกิจได้
ขั้นตอนสำคัญของการชำระข้อมูลรวมถึงการแก้ไขและลบเขตข้อมูลที่ไม่ถูกต้องและไม่สมบูรณ์ การระบุและการลบข้อมูลซ้ำและข้อมูลที่ไม่เกี่ยวข้อง และการแก้ไขการจัดรูปแบบ ค่าที่ขาดหายไป และการสะกดคำผิด
การชำระข้อมูลสำคัญอย่างไร?
เมื่อบริษัทใช้ข้อมูลขับเคลื่อนการตัดสินใจ บริษัทต้องใช้ข้อมูลที่มีความเกี่ยวข้อง ครบถ้วน และถูกต้อง อย่างไรก็ตาม ชุดข้อมูลมักมีข้อผิดพลาดที่จะต้องนำออกก่อนทำการวิเคราะห์ ซึ่งอาจรวมถึงข้อผิดพลาดของการจัดรูปแบบ เช่น วันที่และข้อมูลการเงิน และหน่วยวัดอื่นๆ ที่เขียนไม่ถูกต้อง ซึ่งอาจส่งผลกระทบที่สำคัญต่อการคาดการณ์ได้ ค่าผิดปกติเป็นสิ่งที่น่ากังวลเป็นพิเศษ เนื่องจากผลลัพธ์จะถูกบิดเบือนในทุกกรณี ข้อผิดพลาดของข้อมูลอื่นๆ ที่พบบ่อยนั้นรวมถึงจุดข้อมูลที่เสียหาย ข้อมูลที่ขาดหายไป และการสะกดผิด ข้อมูลที่ผ่านการชำระแล้วสามารถช่วยในแบบจำลอง ML ที่มีความแม่นยำสูง
ข้อมูลที่สะอาดและถูกต้องเป็นสิ่งสำคัญมากสำหรับการฝึกแบบจำลอง ML เนื่องจากการใช้ชุดข้อมูลที่ไม่ดีในการฝึกอาจส่งผลให้เกิดการคาดการณ์ที่ผิดพลาดในแบบจำลองที่นำมาใช้ นี่คือสาเหตุหลักที่นักวิทยาศาสตร์ข้อมูลใช้เวลาส่วนใหญ่ไปกับการเตรียมข้อมูลสำหรับ ML
คุณจะตรวจสอบความสะอาดของข้อมูลของคุณได้อย่างไร
กระบวนการชำระข้อมูลประกอาบด้วยขั้นตอนในการระบุและแก้ไขปัญหาหลายขั้นตอน ขั้นตอนแรกคือการวิเคราะห์ข้อมูลเพื่อระบุหาข้อผิดพลาด ซึ่งอาจต้องใช้เครื่องมือวิเคราะห์เชิงคุณภาพที่ใช้กฎ รูปแบบ และข้อจำกัดต่างๆ เพื่อระบุค่าที่ไม่ถูกต้อง ขั้นตอนต่อไปคือการลบหรือแก้ไขข้อผิดพลาด
ขั้นตอนการชำระข้อมูลทั่วไปจะรวมการแก้ไขสิ่งต่อไปนี้:
- ข้อมูลซ้ำ: ทิ้งข้อมูลที่ซ้ำ
- ข้อมูลที่ไม่เกี่ยวข้อง: ระบุเขตข้อมูลที่สำคัญสำหรับการวิเคราะห์เฉพาะกรณี และลบข้อมูลที่ไม่เกี่ยวข้องออกจากการวิเคราะห์
- ค่าผิดปกติ: ค่าผิดปกติสามารถส่งผลต่อประสิทธิภาพของแบบจำลองได้มาก ดังนั้นจึงต้องระบุค่าผิดปกติและพิจารณาดำเนินการให้เหมาะสม
- ข้อมูลที่ขาดหายไป: ระบุและทิ้งข้อมูลหรือเติมข้อมูลที่ขาดหายไป
- ข้อผิดพลาดเชิงโครงสร้าง: แก้ไขการสะกดผิดและความไม่สอดคล้องกันอื่นๆ และทำให้ข้อมูลสอดคล้องกับรูปแบบหรือแบบแผนทั่วไป
AWS สามารถช่วยชำระข้อมูลได้อย่างไร
Amazon SageMaker Data Wrangler เป็นคุณสมบัติหนึ่งของ Amazon SageMaker ที่จะช่วยคุณเตรียมข้อมูลสำหรับ ML ได้อย่างรวดเร็วและง่ายดาย ด้วย Amazon SageMaker Data Wrangler คุณสามารถดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์ของการเตรียมข้อมูล รวมถึงการเลือกข้อมูล การชำระข้อมูล การสำรวจ การตรวจจับความเอนเอียง และการแสดงผลเป็นภาพจากอินเทอร์เฟซทางภาพเดียว
เมื่อใช้เครื่องมือคัดเลือกข้อมูล SageMaker Data Wrangler คุณจะสามารถเลือกข้อมูลดิบที่คุณต้องการจากแหล่งที่มาของข้อมูลหลายแหล่ง แล้วนำเข้าข้อมูลได้ด้วยคลิกเดียว เมื่อนำเข้าข้อมูลแล้ว คุณสามารถใช้รายงานคุณภาพข้อมูลและมุมมองเชิงลึกของคุณภาพข้อมูล เพื่อตรวจสอบคุณภาพของข้อมูลและตรวจหาสิ่งผิดปกติโดยอัตโนมัติ เช่น แถวข้อมูลซ้ำและการรั่วไหลของเป้าหมาย SageMaker Data Wrangler ประกอบด้วยเครื่องมือแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมฟีเจอร์ต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ
เพื่อเริ่มต้นใช้งาน SageMaker Data Wrangler โปรดดูการสอนใช้งาน