การล้างข้อมูลคืออะไร

การชำระข้อมูลคืออะไร?

การชำระข้อมูลเป็นกระบวนการที่จำเป็นสำหรับการเตรียมข้อมูลดิบสำหรับแอปพลิเคชันแมชชีนเลิร์นนิง (ML) และระบบข่าวกรองธุรกิจ (BI) ข้อมูลดิบอาจมีข้อผิดพลาดมาก ซึ่งอาจส่งผลกระทบต่อความถูกต้องของแบบจำลอง ML และนำไปสู่การคาดการณ์ที่ไม่ถูกต้องและผลกระทบเชิงลบต่อธุรกิจได้

ขั้นตอนสำคัญของการชำระข้อมูลรวมถึงการแก้ไขและลบเขตข้อมูลที่ไม่ถูกต้องและไม่สมบูรณ์ การระบุและการลบข้อมูลซ้ำและข้อมูลที่ไม่เกี่ยวข้อง และการแก้ไขการจัดรูปแบบ ค่าที่ขาดหายไป และการสะกดคำผิด

การชำระข้อมูลสำคัญอย่างไร?

เมื่อบริษัทใช้ข้อมูลขับเคลื่อนการตัดสินใจ บริษัทต้องใช้ข้อมูลที่มีความเกี่ยวข้อง ครบถ้วน และถูกต้อง อย่างไรก็ตาม ชุดข้อมูลมักมีข้อผิดพลาดที่จะต้องนำออกก่อนทำการวิเคราะห์ ซึ่งอาจรวมถึงข้อผิดพลาดของการจัดรูปแบบ เช่น วันที่และข้อมูลการเงิน และหน่วยวัดอื่นๆ ที่เขียนไม่ถูกต้อง ซึ่งอาจส่งผลกระทบที่สำคัญต่อการคาดการณ์ได้ ค่าผิดปกติเป็นสิ่งที่น่ากังวลเป็นพิเศษ เนื่องจากผลลัพธ์จะถูกบิดเบือนในทุกกรณี ข้อผิดพลาดของข้อมูลอื่นๆ ที่พบบ่อยนั้นรวมถึงจุดข้อมูลที่เสียหาย ข้อมูลที่ขาดหายไป และการสะกดผิด ข้อมูลที่ผ่านการชำระแล้วสามารถช่วยในแบบจำลอง ML ที่มีความแม่นยำสูง

ข้อมูลที่สะอาดและถูกต้องเป็นสิ่งสำคัญมากสำหรับการฝึกแบบจำลอง ML เนื่องจากการใช้ชุดข้อมูลที่ไม่ดีในการฝึกอาจส่งผลให้เกิดการคาดการณ์ที่ผิดพลาดในแบบจำลองที่นำมาใช้ นี่คือสาเหตุหลักที่นักวิทยาศาสตร์ข้อมูลใช้เวลาส่วนใหญ่ไปกับการเตรียมข้อมูลสำหรับ ML

คุณจะตรวจสอบความสะอาดของข้อมูลของคุณได้อย่างไร

กระบวนการชำระข้อมูลประกอาบด้วยขั้นตอนในการระบุและแก้ไขปัญหาหลายขั้นตอน ขั้นตอนแรกคือการวิเคราะห์ข้อมูลเพื่อระบุหาข้อผิดพลาด ซึ่งอาจต้องใช้เครื่องมือวิเคราะห์เชิงคุณภาพที่ใช้กฎ รูปแบบ และข้อจำกัดต่างๆ เพื่อระบุค่าที่ไม่ถูกต้อง ขั้นตอนต่อไปคือการลบหรือแก้ไขข้อผิดพลาด

ขั้นตอนการชำระข้อมูลทั่วไปจะรวมการแก้ไขสิ่งต่อไปนี้:

ข้อมูลซ้ำ: ทิ้งข้อมูลที่ซ้ำ
ข้อมูลที่ไม่เกี่ยวข้อง: ระบุเขตข้อมูลที่สำคัญสำหรับการวิเคราะห์เฉพาะกรณี และลบข้อมูลที่ไม่เกี่ยวข้องออกจากการวิเคราะห์
ค่าผิดปกติ: ค่าผิดปกติสามารถส่งผลต่อประสิทธิภาพของแบบจำลองได้มาก ดังนั้นจึงต้องระบุค่าผิดปกติและพิจารณาดำเนินการให้เหมาะสม
ข้อมูลที่ขาดหายไป: ระบุและทิ้งข้อมูลหรือเติมข้อมูลที่ขาดหายไป
ข้อผิดพลาดเชิงโครงสร้าง: แก้ไขการสะกดผิดและความไม่สอดคล้องกันอื่นๆ และทำให้ข้อมูลสอดคล้องกับรูปแบบหรือแบบแผนทั่วไป

AWS สามารถช่วยชำระข้อมูลได้อย่างไร

Amazon SageMaker Data Wrangler เป็น คุณสมบัติของ Amazon SageMaker ที่ช่วยให้คุณสามารถเตรียมข้อมูลสำหรับ ML ได้อย่างรวดเร็วและง่ายดาย ด้วย Amazon SageMaker Data Wrangler คุณสามารถดำเนินการแต่ละขั้นตอนของเวิร์กโฟลว์ของการเตรียมข้อมูล รวมถึงการเลือกข้อมูล การชำระข้อมูล การสำรวจ การตรวจจับความเอนเอียง และการแสดงผลเป็นภาพจากอินเทอร์เฟซทางภาพเดียว

เมื่อใช้เครื่องมือคัดเลือกข้อมูล SageMaker Data Wrangler คุณจะสามารถเลือกข้อมูลดิบที่คุณต้องการจากแหล่งที่มาของข้อมูลหลายแหล่ง แล้วนำเข้าข้อมูลได้ด้วยคลิกเดียว เมื่อนำเข้าข้อมูลแล้ว คุณสามารถใช้รายงานคุณภาพข้อมูลและมุมมองเชิงลึกของคุณภาพข้อมูล เพื่อตรวจสอบคุณภาพของข้อมูลและตรวจหาสิ่งผิดปกติโดยอัตโนมัติ เช่น แถวข้อมูลซ้ำและการรั่วไหลของเป้าหมาย SageMaker Data Wrangler ประกอบด้วยเครื่องมือแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมฟีเจอร์ต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ

หากต้องการเริ่มต้นใช้งาน SageMaker Data Wrangler ให้สำรวจบทช่วยสอน

ขั้นต่อไปของ Data Cleansing

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

เรียนรู้เพิ่มเติมเกี่ยวกับบริการแมชชีนเลิร์นนิง

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน

เริ่มต้นสร้างใน Console

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

กำลังโหลด

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages