การเตรียมข้อมูลคืออะไร

การเตรียมข้อมูลเป็นกระบวนการจัดเตรียมข้อมูลดิบเพื่อให้เหมาะกับการประมวลผลและการวิเคราะห์เพิ่มเติม ขั้นตอนที่สำคัญ ได้แก่ การเก็บรวบรวม การทำความสะอาด และการระบุประเภทข้อมูลสำหรับข้อมูลดิบในรูปแบบที่เหมาะสมสำหรับอัลกอริทึมของแมชชีนเลิร์นนิ่ง (ML) แล้วจึงสำรวจและแสดงผลข้อมูลต่อไป การเตรียมข้อมูลอาจใช้เวลาถึง 80% ของเวลาที่ใช้ไปกับโปรเจกต์ ML การใช้เครื่องมือการจัดเตรียมข้อมูลเฉพาะทางมีความสำคัญต่อการปรับปรุงประสิทธิภาพของกระบวนการนี้

ML และการเตรียมข้อมูลมีความสัมพันธ์กันอย่างไร

การไหลของข้อมูลผ่านองค์กรไม่เหมือนที่เคยเป็นมาก่อน เพราะข้อมูลไหลมาจากทุกสิ่งทุกอย่าง ตั้งแต่สมาร์ทโฟนไปจนถึงเมืองอัจฉริยะ และอยู่ทั้งในรูปข้อมูลที่มีโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง ปัจจุบันนี้ข้อมูลที่ไม่มีโครงสร้างคิดเป็น 80% ของข้อมูลทั้งหมด ML สามารถวิเคราะห์ข้อมูลที่มีโครงสร้าง และยังค้นพบรูปแบบของข้อมูลที่ไม่มีโครงสร้างได้ด้วย ML คือกระบวนการที่คอมพิวเตอร์เรียนรู้ที่จะแปลผลข้อมูล แล้วทำการตัดสินใจและแนะนำโดยอ้างอิงจากข้อมูลนั้น ในระหว่างกระบวนการเรียนรู้¬—และหลังจากนั้นเมื่อใช้ข้อมูลเพื่อคาดการณ์—ข้อมูลที่ไม่ถูกต้อง มีอคติ หรือไม่ครบถ้วนสามารถส่งผลให้การคาดการณ์ไม่แม่นยำได้

เหตุใดการเตรียมข้อมูลจึงมีความสำคัญสำหรับ ML

ข้อมูลเป็นขุมพลังให้กับ ML การใช้ประโยชน์จากข้อมูลนี้เพื่อนำเสนอธุรกิจของคุณในรูปแบบใหม่ แม้ว่าจะมีความท้าทาย แต่ก็มีความสำคัญ เพื่อให้ตอบโจทย์ผู้บริโภคได้อย่างต่อเนื่องในปัจจุบันและในอนาคต มันคือการแข่งขันว่าใครมีข้อมูลมากที่สุด และใครที่สามารถนำข้อมูลของตนมาใช้เพื่อประกอบการตัดสินใจได้ดีขึ้นจะตอบสนองต่อโอกาสใหม่ ๆ ที่ไม่มีใครคาดคิดและยังไม่ค้นพบได้เร็วกว่า กระบวนการที่สำคัญแต่เป็นเรื่องน่าเบื่อนี้เป็นข้อกำหนดเบื้องต้นในการสร้างแบบจำลองและการวิเคราะห์ ML ที่แม่นยำ อีกทั้งยังเป็นส่วนที่ต้องใช้เวลามากที่สุดในโปรเจกต์ ML ด้วย เพื่อลดการลงทุนด้านเวลานี้ นักวิทยาศาสตร์ข้อมูลจึงสามารถใช้เครื่องมือต่าง ๆ ที่ช่วยทำให้การเตรียมข้อมูลนี้ดำเนินไปโดยอัตโนมัติได้หลายวิธี

คุณเตรียมข้อมูลของคุณอย่างไร

การเตรียมข้อมูลจะเกิดขึ้นหลังผ่านขั้นตอนหลายอย่างที่เริ่มด้วยการเก็บรวบรวมข้อมูลที่ถูกต้อง ตามด้วยการทำความสะอาด การระบุประเภทข้อมูล การสอบทวน และการสร้างเป็นภาพ

รวบรวมข้อมูล

การเก็บรวบรวมข้อมูลคือกระบวนการประกอบรวมข้อมูลทั้งหมดที่คุณต้องใช้สำหรับ ML การเก็บรวบรวมข้อมูลอาจเป็นขั้นตอนที่น่าเบื่อ เพราะข้อมูลอยู่ในแหล่งที่มาของข้อมูลมากมาย ซึ่งรวมถึงบนแล็ปท็อป ในคลังข้อมูล ในระบบคลาวด์ ข้างในแอปพลิเคชัน และบนอุปกรณ์ การค้นหาวิธีเพื่อเชื่อมต่อเข้ากับแหล่งที่มาของข้อมูลต่าง ๆ จึงอาจเป็นเรื่องท้าทาย นอกจากนี้ปริมาณของข้อมูลยังเพิ่มขึ้นอย่างทวีคูณ จึงมีข้อมูลมากมายให้ต้องค้นหา อีกทั้งข้อมูลยังมีรูปแบบและประเภทที่แตกต่างกันมากมาย ขึ้นอยู่กับแหล่งที่มาของข้อมูล ตัวอย่างเช่น ข้อมูลวิดีโอและข้อมูลที่เป็นตารางจะนำมาใช้ด้วยกันไม่ได้ง่าย ๆ

ทำความสะอาดข้อมูล

การทำความสะอาดข้อมูลแก้ไขข้อผิดพลาดและเติมข้อมูลที่หายไปเพื่อเป็นขั้นตอนหนึ่งในการรับรองคุณภาพของข้อมูล หลังจากที่คุณทำความสะอาดข้อมูลแล้ว คุณจะต้องแปลงข้อมูลให้อยู่ในรูปแบบที่สอดคล้องกันและสามารถอ่านได้ กระบวนการนี้สามารถรวมถึงการเปลี่ยนแปลงรูปแบบของช่องข้อมูล เช่น วันที่และสกุลเงิน การปรับเปลี่ยนวิธีการกำหนดชื่อ และการแก้ไขค่าและหน่วยวัดเพื่อให้สอดคล้องกัน

ระบุประเภทข้อมูล

การระบุประเภทข้อมูลเป็นกระบวนการระบุข้อมูลดิบ (ภาพ ไฟล์ข้อความ คลิปวิดีโอ ฯลฯ) และเป็นการระบุประเภทที่สื่อความหมายและให้ข้อมูลสำคัญหนึ่งประเภทขึ้นไปเพื่อให้บริบท เพื่อให้แบบจำลอง ML สามารถเรียนรู้จากข้อมูลดังกล่าวได้ เช่น การระบุประเภทอาจระบุว่ารูปถ่ายรูปหนึ่งเป็นรูปของนกหรือรถยนต์ คำไหนที่เปล่งออกมาในการบันทึกเสียง หรือพบความผิดปกติในภาพเอ็กเรย์หรือไม่ การระบุประเภทข้อมูลเป็นขั้นตอนที่จำเป็นสำหรับการใช้งานที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์ การประมวลผลภาษาธรรมชาติ และการรู้จำคำพูด

สอบทวนและสร้างเป็นภาพ

หลังจากที่ทำความสะอาดและระบุประเภทข้อมูลแล้ว ทีม ML มักสำรวจข้อมูลเพื่อให้แน่ใจว่าข้อมูลถูกต้องและพร้อมสำหรับ ML การสร้างเป็นภาพ เช่น ฮิสโตแกรม แผนภาพการกระจาย กราฟรูปกล่อง แผนภูมิเส้น และกราฟแท่ง ต่างเป็นเครื่องมือที่เป็นประโยชน์ในการยืนยันว่าข้อมูลถูกต้อง นอกจากนี้ การสร้างเป็นภาพยังช่วยให้ทีมวิทยาศาสตร์ข้อมูลทำการวิเคราะห์ข้อมูลเชิงสำรวจได้อีกด้วย กระบวนการนี้ใช้การสร้างเป็นภาพเพื่อค้นพบรูปแบบ มองหาความผิดปกติ ทดสอบสมมติฐาน หรือตรวจสอบข้อตกลงเบื้องต้นทางสถิติ การวิเคราะห์ข้อมูลเชิงสำรวจไม่จำเป็นต้องมีการสร้างโมเดลอย่างเป็นทางการ แต่ทีมวิทยาศาสตร์ข้อมูลสามารถใช้การสร้างเป็นภาพเพื่อถอดรหัสข้อมูลแทนได้

AWS สามารถช่วยคุณได้อย่างไร

เครื่องมือเตรียม@@ ข้อมูล Amazon SageMaker ช่วยให้องค์กรได้รับข้อมูลเชิงลึกจากทั้งข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ตัวอย่างเช่น คุณสามารถใช้ Amazon SageMaker Data Wrangler เพื่อลดความซับซ้อนในการเตรียมข้อมูลที่มีโครงสร้างด้วยการแสดงภาพในตัวผ่านอินเทอร์เฟซภาพแบบไม่มีรหัส SageMaker Data Wrangler รวมถึงการแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมคุณสมบัติต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ นอกจากนี้คุณยังสามารถเอาการแปลงข้อมูลแบบกำหนดเองของคุณใน Python หรือ Apache Spark มาใช้ได้ด้วยหากคุณต้องการ สำหรับข้อมูลที่ไม่มีโครงสร้าง คุณจะจำเป็นต้องมีชุดข้อมูลขนาดใหญ่ที่มีคุณภาพสูงและมีการระบุประเภทข้อมูล การใช้ Amazon SageMaker Ground Truth Plus คุณสามารถสร้างชุดข้อมูลการฝึกอบรม ML คุณภาพสูงในขณะที่ลดต้นทุนการติดฉลากข้อมูลได้ถึง 40% โดยไม่ต้องสร้างแอปพลิเคชันการติดฉลากหรือจัดการพนักงานการติดฉลากด้วยตัวคุณเอง

สำหรับนักวิเคราะห์หรือผู้ใช้ธุรกิจที่ต้องการเตรียมข้อมูลภายในโน้ตบุ๊ค คุณสามารถเรียกดู ค้นพบ และเชื่อมต่อกับสภาพแวดล้อมการประมวลผลข้อมูล Spark ที่ทำงานบน Amazon EMR จากโน้ตบุ๊ค Amazon SageMaker Studio ของคุณได้ด้วยการคลิกเพียงไม่กี่ครั้ง เมื่อเชื่อมต่อแล้ว คุณสามารถทำการโต้ตอบเพื่อสืบค้น สำรวจ และสร้างข้อมูลเป็นภาพ และรันงาน Spark โดยใช้ภาษาที่คุณเลือก (SQL, Python หรือ Scala) เพื่อสร้างการเตรีบมข้อมูลและเวิร์กโฟลว์ ML ที่ครบสมบูรณ์

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเกี่ยวกับผลิตภัณฑ์เพิ่มเติม

เรียนรู้เพิ่มเติม

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน

เริ่มต้นสร้างใน Console

เริ่มต้นสร้างด้วย AWS ในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

กำลังโหลด

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

การเตรียมข้อมูลคืออะไร