กระบวนการสร้างฟีเจอร์ใหม่คืออะไร
ฟีเจอร์ของโมเดลคืออินพุตที่โมเดลแมชชีนเลิร์นนิง (ML) ใช้ระหว่างการฝึกและการอนุมานเพื่อคาดการณ์ ความแม่นยำของโมเดล ML ขึ้นอยู่กับชุดและองค์ประกอบของฟีเจอร์ที่แม่นยำ ตัวอย่างเช่น ในแอปพลิเคชัน ML ที่แนะนำรายการเพลง ฟีเจอร์อาจรวมถึงการจัดอันดับเพลง เพลงที่เคยฟังก่อนหน้านี้ และเวลาในการฟังเพลง การสร้างฟีเจอร์ต้องใช้ความพยายามทางวิศวกรรมอย่างมาก กระบวนการสร้างฟีเจอร์ใหม่เกี่ยวข้องกับการแยกและการแปลงตัวแปรจากข้อมูลดิบ เช่น รายการราคา คำอธิบายสินค้า และปริมาณยอดขาย เพื่อให้คุณสามารถใช้ฟีเจอร์สำหรับการฝึกและการคาดการณ์ได้ ขั้นตอนที่จำเป็นในการสร้างฟีเจอร์ใหม่ ได้แก่ การแยกข้อมูลและการล้างข้อมูล ตามด้วยการสร้างและการจัดเก็บฟีเจอร์
กระบวนการสร้างฟีเจอร์ใหม่มีความท้าทายอะไรบ้าง
กระบวนการสร้างฟีเจอร์ใหม่มีความท้าทายเพราะต้องอาศัยการรวมกันระหว่างการวิเคราะห์ข้อมูล ความรู้ในสาขาธุรกิจ และสัญชาตญาณบางอย่าง เมื่อสร้างฟีเจอร์ การไปที่ข้อมูลที่มีโดยทันทีอาจจะเป็นเรื่องน่าดึงดูดใจ แต่บ่อยครั้งคุณควรเริ่มด้วยการพิจารณาว่าข้อมูลใดที่จำเป็นต้องมีบ้าง โดยพูดคุยกับผู้เชี่ยวชาญ ระดมสมอง และทำการวิจัยภายนอก หากไม่ผ่านขั้นตอนนี้ คุณอาจพลาดตัวแปรที่เป็นตัวคาดการณ์ที่สำคัญ
การแยกข้อมูล
การสร้างฟีเจอร์
การจัดเก็บฟีเจอร์
AWS สามารถช่วยในกระบวนการสร้างฟีเจอร์ใหม่ได้อย่างไร
ด้วย Amazon SageMaker Data Wrangler คุณจะสามารถทำให้กระบวนการสร้างฟีเจอร์ใหม่ง่ายลงด้วยการใช้อินเทอร์เฟซแบบภาพเพียงอินเทอร์เฟซเดียว เมื่อใช้เครื่องมือคัดเลือกข้อมูล SageMaker Data Wrangler คุณจะสามารถเลือกข้อมูลดิบที่คุณต้องการจากแหล่งที่มาของข้อมูลต่าง ๆ แล้วนำเข้าข้อมูลได้ด้วยคลิกเดียว SageMaker Data Wrangler ประกอบด้วยการแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมฟีเจอร์ต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ หลังจากที่เตรียมข้อมูลแล้ว คุณสามารถสร้างเวิร์กโฟลว์ ML ที่เป็นอัตโนมัติโดยสมบูรณ์ด้วย Amazon SageMaker Pipelines แล้วบันทึกสำหรับนำกลับมาใช้ใน Amazon SageMaker Feature Store SageMaker Feature Store คือคลังที่สร้างตามวัตถุประสงค์ที่คุณสามารถจัดเก็บและเข้าถึงฟีเจอร์ ดังนั้นการตั้งชื่อ จัดระเบียบ และนำกลับมาใช้ในทีมต่าง ๆ จึงทำได้ง่ายขึ้น SageMaker Feature Store ให้ร้านค้าหนึ่งเดียวสำหรับฟีเจอร์ในระหว่างการฝึกและการอนุมานในเวลาจริง โดยไม่ต้องเขียนโค้ดเพิ่มเติมหรือสร้างกระบวนการด้วยมือเพื่อให้ฟีเจอร์สอดคล้องกัน