การเตรียมข้อมูลคืออะไร

การเตรียมข้อมูลเป็นกระบวนการจัดเตรียมข้อมูลดิบเพื่อให้เหมาะกับการประมวลผลและการวิเคราะห์เพิ่มเติม ขั้นตอนที่สำคัญ ได้แก่ การเก็บรวบรวม การทำความสะอาด และการระบุประเภทข้อมูลสำหรับข้อมูลดิบในรูปแบบที่เหมาะสมสำหรับอัลกอริทึมของแมชชีนเลิร์นนิ่ง (ML) แล้วจึงสำรวจและแสดงผลข้อมูลต่อไป การเตรียมข้อมูลอาจใช้เวลาถึง 80% ของเวลาที่ใช้ไปกับโปรเจกต์ ML การใช้เครื่องมือการเตรียมข้อมูลเฉพาะทางมีความสำคัญต่อการปรับปรุงประสิทธิภาพของกระบวนการนี้

ML และการเตรียมข้อมูลมีความสัมพันธ์กันอย่างไร

การไหลของข้อมูลผ่านองค์กรไม่เหมือนที่เคยเป็นมาก่อน เพราะข้อมูลไหลมาจากทุกสิ่งทุกอย่าง ตั้งแต่สมาร์ทโฟนไปจนถึงเมืองอัจฉริยะ และอยู่ทั้งในรูปข้อมูลที่มีโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง ปัจจุบันนี้ข้อมูลที่ไม่มีโครงสร้างคิดเป็น 80% ของข้อมูลทั้งหมด ML สามารถวิเคราะห์ข้อมูลที่มีโครงสร้าง และยังค้นพบรูปแบบของข้อมูลที่ไม่มีโครงสร้างได้ด้วย ML คือกระบวนการที่คอมพิวเตอร์เรียนรู้ที่จะแปลผลข้อมูล แล้วทำการตัดสินใจและแนะนำโดยอ้างอิงจากข้อมูลนั้น ในระหว่างกระบวนการเรียนรู้¬—และหลังจากนั้นเมื่อใช้ข้อมูลเพื่อคาดการณ์—ข้อมูลที่ไม่ถูกต้อง มีอคติ หรือไม่ครบถ้วนสามารถส่งผลให้การคาดการณ์ไม่แม่นยำได้

เหตุใดการเตรียมข้อมูลจึงมีความสำคัญสำหรับ ML

ข้อมูลเป็นขุมพลังให้กับ ML การใช้ประโยชน์จากข้อมูลนี้เพื่อนำเสนอธุรกิจของคุณในรูปแบบใหม่ แม้ว่าจะมีความท้าทาย แต่ก็มีความสำคัญ เพื่อให้ตอบโจทย์ผู้บริโภคได้อย่างต่อเนื่องในปัจจุบันและในอนาคต มันคือการแข่งขันว่าใครมีข้อมูลมากที่สุด และใครที่สามารถนำข้อมูลของตนมาใช้เพื่อประกอบการตัดสินใจได้ดีขึ้นจะตอบสนองต่อโอกาสใหม่ ๆ ที่ไม่มีใครคาดคิดและยังไม่ค้นพบได้เร็วกว่า กระบวนการที่สำคัญแต่เป็นเรื่องน่าเบื่อนี้เป็นข้อกำหนดเบื้องต้นในการสร้างแบบจำลองและการวิเคราะห์ ML ที่แม่นยำ อีกทั้งยังเป็นส่วนที่ต้องใช้เวลามากที่สุดในโปรเจกต์ ML ด้วย เพื่อลดการลงทุนด้านเวลานี้ นักวิทยาศาสตร์ข้อมูลจึงสามารถใช้เครื่องมือต่าง ๆ ที่ช่วยทำให้การเตรียมข้อมูลนี้ดำเนินไปโดยอัตโนมัติได้หลายวิธี

คุณเตรียมข้อมูลของคุณอย่างไร

การเตรียมข้อมูลจะเกิดขึ้นหลังผ่านขั้นตอนหลายอย่างที่เริ่มด้วยการเก็บรวบรวมข้อมูลที่ถูกต้อง ตามด้วยการทำความสะอาด การระบุประเภทข้อมูล การสอบทวน และการสร้างเป็นภาพ

รวบรวมข้อมูล

การเก็บรวบรวมข้อมูลคือกระบวนการประกอบรวมข้อมูลทั้งหมดที่คุณต้องใช้สำหรับ ML การเก็บรวบรวมข้อมูลอาจเป็นขั้นตอนที่น่าเบื่อ เพราะข้อมูลอยู่ในแหล่งที่มาของข้อมูลมากมาย ซึ่งรวมถึงบนแล็ปท็อป ในคลังข้อมูล ในระบบคลาวด์ ข้างในแอปพลิเคชัน และบนอุปกรณ์ การค้นหาวิธีเพื่อเชื่อมต่อเข้ากับแหล่งที่มาของข้อมูลต่าง ๆ จึงอาจเป็นเรื่องท้าทาย นอกจากนี้ปริมาณของข้อมูลยังเพิ่มขึ้นอย่างทวีคูณ จึงมีข้อมูลมากมายให้ต้องค้นหา อีกทั้งข้อมูลยังมีรูปแบบและประเภทที่แตกต่างกันมากมาย ขึ้นอยู่กับแหล่งที่มาของข้อมูล ตัวอย่างเช่น ข้อมูลวิดีโอและข้อมูลที่เป็นตารางจะนำมาใช้ด้วยกันไม่ได้ง่าย ๆ

ทำความสะอาดข้อมูล

การทำความสะอาดข้อมูลแก้ไขข้อผิดพลาดและเติมข้อมูลที่หายไปเพื่อเป็นขั้นตอนหนึ่งในการรับรองคุณภาพของข้อมูล หลังจากที่คุณทำความสะอาดข้อมูลแล้ว คุณจะต้องแปลงข้อมูลให้อยู่ในรูปแบบที่สอดคล้องกันและสามารถอ่านได้ กระบวนการนี้สามารถรวมถึงการเปลี่ยนแปลงรูปแบบของช่องข้อมูล เช่น วันที่และสกุลเงิน การปรับเปลี่ยนวิธีการกำหนดชื่อ และการแก้ไขค่าและหน่วยวัดเพื่อให้สอดคล้องกัน

ระบุประเภทข้อมูล

การระบุประเภทข้อมูลเป็นกระบวนการระบุข้อมูลดิบ (ภาพ ไฟล์ข้อความ คลิปวิดีโอ ฯลฯ) และเป็นการระบุประเภทที่สื่อความหมายและให้ข้อมูลสำคัญหนึ่งประเภทขึ้นไปเพื่อให้บริบท เพื่อให้แบบจำลอง ML สามารถเรียนรู้จากข้อมูลดังกล่าวได้ เช่น การระบุประเภทอาจระบุว่ารูปถ่ายรูปหนึ่งเป็นรูปของนกหรือรถยนต์ คำไหนที่เปล่งออกมาในการบันทึกเสียง หรือพบความผิดปกติในภาพเอ็กเรย์หรือไม่ การระบุประเภทข้อมูลเป็นขั้นตอนที่จำเป็นสำหรับการใช้งานที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์ การประมวลผลภาษาธรรมชาติ และการรู้จำคำพูด

สอบทวนและสร้างเป็นภาพ

หลังจากที่ทำความสะอาดและระบุประเภทข้อมูลแล้ว ทีม ML มักสำรวจข้อมูลเพื่อให้แน่ใจว่าข้อมูลถูกต้องและพร้อมสำหรับ ML การสร้างเป็นภาพ เช่น ฮิสโตแกรม แผนภาพการกระจาย กราฟรูปกล่อง แผนภูมิเส้น และกราฟแท่ง ต่างเป็นเครื่องมือที่เป็นประโยชน์ในการยืนยันว่าข้อมูลถูกต้อง นอกจากนี้ การสร้างเป็นภาพยังช่วยให้ทีมวิทยาศาสตร์ข้อมูลทำการวิเคราะห์ข้อมูลเชิงสำรวจได้อีกด้วย กระบวนการนี้ใช้การสร้างเป็นภาพเพื่อค้นพบรูปแบบ มองหาความผิดปกติ ทดสอบสมมติฐาน หรือตรวจสอบข้อตกลงเบื้องต้นทางสถิติ การวิเคราะห์ข้อมูลเชิงสำรวจไม่จำเป็นต้องมีการสร้างแบบจำลองอย่างเป็นทางการ แต่ทีมวิทยาศาสตร์ข้อมูลสามารถใช้การสร้างเป็นภาพเพื่อถอดรหัสข้อมูลแทนได้ 

AWS สามารถช่วยคุณได้อย่างไร

เครื่องมือการเตรียมข้อมูล Amazon SageMaker ช่วยองค์กรให้ได้รับข้อมูลเชิงลึกทั้งจากข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ตัวอย่างเช่น คุณสามารถใช้ Amazon SageMaker Data Wrangler เพื่อทำให้การเตรีบมข้อมูลที่มีโครงสร้างง่ายขึ้นด้วยการสร้างข้อมูลเป็นภาพในตัวผ่านอินเทอร์เฟซแบบภาพและไม่ใช้โค้ด SageMaker Data Wrangler รวมถึงการแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมคุณสมบัติต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ นอกจากนี้คุณยังสามารถเอาการแปลงข้อมูลแบบกำหนดเองของคุณใน Python หรือ Apache Spark มาใช้ได้ด้วยหากคุณต้องการ สำหรับข้อมูลที่ไม่มีโครงสร้าง คุณจะจำเป็นต้องมีชุดข้อมูลขนาดใหญ่ที่มีคุณภาพสูงและมีการระบุประเภทข้อมูล เมื่อใช้ Amazon SageMaker Ground Truth Plus คุณจะสามารถสร้างชุดข้อมูลสำหรับฝึกอบรม ML คุณภาพสูงได้ในขณะที่ลดต้นทุนในการระบุประเภทข้อมูลได้สูงสุด 40% โดยไม่จำเป็นต้องสร้างแอปพลิเคชันการติดป้ายหรือบริหารจัดการบุคลากรในการติดป้ายด้วยตัวคุณเอง

สำหรับนักวิเคราะห์หรือผู้ใช้ธุรกิจที่ต้องการเตรียมข้อมูลภายในโน้ตบุ้ค คุณสามารถเรียกดู ค้นพบ และเชื่อมต่อกับสภาพแวดล้อมการประมวลผลข้อมูล Spark ซึ่งทำงานบน Amazon EMR จากโน้ตบุ้ค Amazon SageMaker Studio ของคุณโดยใข้แค่ไม่กี่คลิกตามที่ปรากฏแก่สายตา เมื่อเชื่อมต่อแล้ว คุณสามารถทำการโต้ตอบเพื่อสืบค้น สำรวจ และสร้างข้อมูลเป็นภาพ และรันงาน Spark โดยใช้ภาษาที่คุณเลือก (SQL, Python หรือ Scala) เพื่อสร้างการเตรีบมข้อมูลและเวิร์กโฟลว์ ML ที่ครบสมบูรณ์

ขั้นตอนถัดไปในการเตรียมข้อมูล

Standard Product Icons (Features) Squid Ink
ดูแหล่งข้อมูลที่เกี่ยวข้องกับผลิตภัณฑ์เพิ่มเติม
เรียนรู้เพิ่มเติมเกี่ยวกับการเตรียมข้อมูล้วย AWS 
Sign up for a free account
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน 
Standard Product Icons (Start Building) Squid Ink
เริ่มต้นการสร้างใน Console

เริ่มต้นสร้างด้วยแมชชีนเลิร์นนิงใน AWS Management Console

ลงชื่อเข้าใช้