รีเกรสชันโลจิสติกคืออะไร
รีเกรสชันโลจิสติก คือเทคนิคการวิเคราะห์ข้อมูลที่ใช้วิชาคณิตศาสตร์เพื่อหาความสัมพันธ์ระหว่างสองปัจจัยข้อมูล จากนั้นจะใช้ความสัมพันธ์นี้เพื่อคาดการณ์ค่าของปัจจัยเหล่านั้นโดยอาศัยปัจจัยอื่นๆ การคาดการณ์มักจะมีจำนวนผลลัพธ์ที่จำกัด เช่น ใช่หรือไม่ เป็นต้น
ตัวอย่างเช่น สมมติว่าคุณต้องการที่จะคาดการณ์ว่าผู้เข้าชมเว็บไซต์ของคุณจะคลิกปุ่มชำระเงินในรถเข็นช้อปปิ้งของพวกเขาหรือไม่ การวิเคราะห์รีเกรสชันโลจิสติกจะพิจารณาพฤติกรรมของผู้เข้าชมในอดีต เช่น เวลาที่ใช้บนเว็บไซต์และจำนวนสินค้าในรถเข็น เป็นต้น โดยกำหนดว่า ในอดีตหากผู้เข้าชมใช้เวลามากกว่า 5 นาทีบนเว็บไซต์และเพิ่มสินค้าลงในรถเข็นมากกว่า 3 รายการ จากนั้นพวกเขาคลิกปุ่มชำระเงิน ด้วยการใช้ข้อมูลนี้ ฟังก์ชันรีเกรสชันโลจิสติกสามารถคาดการณ์พฤติกรรมของผู้เข้าชมเว็บไซต์รายใหม่ได้
เหตุใดรีเกรสชันโลจิสติกจึงสำคัญ
รีเกรสชันโลจิสติกเป็นเทคนิคที่สำคัญในสาขาปัญญาประดิษฐ์และแมชชีนเลิร์นนิ่ง (AI/ML) โมเดล ML เป็นโปรแกรมซอฟต์แวร์ที่คุณสามารถฝึกเพื่อดำเนินการประมวลผลข้อมูลที่ซับซ้อนได้โดยไม่มีการแทรกแซงของมนุษย์ โมเดล ML ที่สร้างขึ้นโดยใช้รีเกรสชันโลจิสติกช่วยให้องค์กรได้รับข้อมูลเชิงลึกที่ได้จากข้อมูลในการทำงานของพวกเขา โดยพวกเขาสามารถใช้ข้อมูลเชิงลึกเหล่านี้สำหรับการวิเคราะห์เชิงคาดการณ์เพื่อลดต้นทุนการดำเนินงาน เพิ่มประสิทธิภาพ และปรับขนาดได้เร็วขึ้น ยกตัวอย่างเช่น ธุรกิจจะสามารถพบรูปแบบที่ช่วยปรับปรุงการรักษาพนักงานเดิมหรือนำไปสู่การออกแบบผลิตภัณฑ์ที่มีกำไรมากขึ้น
ด้านล่างนี้ เราได้ทำรายการประโยชน์บางประการของการใช้รีเกรสชันโลจิสติกที่ดีกว่าเทคนิค ML อื่นๆ
ความเรียบง่าย
โมเดลรีเกรสชันโลจิสติกเป็นคณิตศาสตร์ที่ซับซ้อนน้อยกว่าวิธี ML อื่นๆ ดังนั้นคุณสามารถใช้เทคนิคนี้ได้แม้ไม่มีใครในทีมของคุณมีความเชี่ยวชาญเกี่ยวกับ ML ในเชิงลึกก็ตาม
ความเร็ว
โมเดลรีเกรสชันโลจิสติกสามารถประมวลผลข้อมูลปริมาณมากด้วยความเร็วสูงได้เพราะต้องการความสามารถในการคำนวณน้อยกว่า เช่น หน่วยความจำและกำลังประมวลผล ซึ่งทำให้เหมาะสำหรับองค์กรที่เริ่มต้นโครงการ ML เพื่อความสำเร็จอย่างรวดเร็ว
ความยืดหยุ่น
คุณสามารถใช้รีเกรสชันโลจิสติกเพื่อหาคำตอบสำหรับคำถามที่มีคำตอบสองข้อหรือมากกว่าได้ นอกจากนี้คุณยังสามารถใช้เพื่อประมวลผลข้อมูลล่วงหน้าได้อีกด้วย ตัวอย่างเช่น คุณสามารถเรียงลำดับข้อมูลที่มีช่วงค่ากว้าง เช่น การทำธุรกรรมธนาคารมาเป็นช่วงค่าที่แคบและจำกัดลงด้วยรีเกรสชันโลจิสติกได้ จากนั้น คุณสามารถประมวลผลชุดข้อมูลนี้ที่มีขนาดเล็กโดยใช้เทคนิค ML อื่นๆ เพื่อการวิเคราะห์ที่ถูกต้องมากขึ้น
การแสดงผล
รีเกรสชันโลจิสติกทำให้นักพัฒนาสามารถมองเห็นกระบวนการซอฟต์แวร์ภายในได้มากขึ้นกว่าเทคนิคการวิเคราะห์ข้อมูลอื่นๆ การแก้ไขปัญหาและการแก้ไขข้อผิดพลาดยังง่ายขึ้นเนื่องจากการคำนวณมีความซับซ้อนน้อยกว่า
การใช้งานรีเกรสชันโลจิสติกมีอะไรบ้าง
รีเกรสชันโลจิสติกมีการใช้งานในโลกความเป็นที่แตกต่างกันไปในอุตสาหกรรมมากมาย
การผลิต
บริษัทผู้ผลิตใช้การวิเคราะห์รีเกรสชันโลจิสติกเพื่อประเมินความน่าจะเป็นของความล้มเหลวของชิ้นส่วนในเครื่องจักร และจากนั้นแผนตารางการบำรุงรักษาตามการประมาณการนี้เพื่อลดความล้มเหลวในอนาคต
การดูแลสุขภาพ
นักวิจัยทางการแพทย์วางแผนการดูแลป้องกันและรักษาโดยพยากรณ์โอกาสการเกิดโรคในคนไข้ พวกเขาใช้รูปแบบรีเกรสชันโลจิสติกเพื่อเปรียบเทียบผลกระทบของประวัติครอบครัวหรือยีนที่มีต่อโรค
การเงิน
บริษัทการเงินต้องวิเคราะห์ธุรกรรมทางการเงินเพื่อการฉ้อโกงและประเมินการขอสินเชื่อและการขอประกันภัยสำหรับความเสี่ยง ปัญหาเหล่านี้เหมาะสำหรับรีเกรสชันโลจิสติกเพราะมีผลลัพธ์ที่ไม่ต่อเนื่อง เช่น ความเสี่ยงสูงหรือความเสี่ยงต่ำ และหลอกลวงหรือไม่หลอกลวง
การตลาด
เครื่องมือโฆษณาออนไลน์ใช้รูปแบบรีเกรสชันโลจิสติกเพื่อคาดการณ์ว่าผู้ใช้จะคลิกโฆษณาหรือไม่ เป็นผลให้นักการตลาดสามารถวิเคราะห์การตอบสนองของผู้ใช้คำและภาพที่แตกต่างกัน และสร้างโฆษณาที่มีประสิทธิภาพสูงกับที่ลูกค้าจะมีส่วนร่วมได้
การวิเคราะห์รีเกรสชันทำงานอย่างไร
รีเกรสชันโลจิสติกเป็นหนึ่งในเทคนิคการวิเคราะห์รีเกรสชันที่แตกต่างกันหลายอย่างที่นักวิทยาศาสตร์ข้อมูลนิยมใช้ในแมชชีนเลิร์นนิง (ML) เพื่อให้เข้าใจถึงรีเกรสชันโลจิสติก ก่อนอื่นเราต้องเข้าใจการวิเคราะห์รีเกรสชันขั้นพื้นฐาน ด้านล่างนี้เราจะใช้ตัวอย่างของการวิเคราะห์รีเกรสชันเชิงเส้นเพื่อแสดงให้เห็นถึงวิธีการวิเคราะห์รีเกรสชัน
ระบุคำถาม
การวิเคราะห์ข้อมูลใดๆ เริ่มต้นด้วยคำถามทางธุรกิจ สำหรับรีเกรสชันโลจิสติกคุณควรตีกรอบคำถามเพื่อให้ได้มาซึ่งผลลัพธ์เฉพาะ
- วันที่ฝนตกส่งผลกระทบต่อยอดขายรายเดือนของเราหรือไม่ (ใช่หรือไม่)
- ประเภทของกิจกรรมบัตรเครดิตใดที่ลูกค้ากำลังดำเนิน (ถูกต้อง ฉ้อโกง หรืออาจฉ้อโกง)
การเก็บรวบรวมข้อมูลประวัติ
หลังจากระบุคำถามแล้วคุณต้องระบุปัจจัยข้อมูลที่เกี่ยวข้อง จากนั้นคุณจะเก็บรวบรวมข้อมูลที่ผ่านมาของทุกปัจจัย ตัวอย่างเช่น ในการตอบคำถามแรกที่แสดงข้างต้น คุณควรรวบรวมจำนวนวันที่ฝนตกและข้อมูลการขายรายเดือนของคุณแต่ละเดือนในช่วง 3 ปีที่ผ่านมา
ฝึกโมเดลวิเคราะห์รีเกรสชัน
คุณจะประมวลผลข้อมูลประวัติโดยใช้ซอฟต์แวร์รีเกรสชัน ซอฟแวร์จะประมวลผลจุดข้อมูลต่างๆ และเชื่อมต่อทางคณิตศาสตร์โดยใช้สมการ ยกตัวอย่างเช่น ถ้าจำนวนวันที่ฝนตกเป็นเวลาสามเดือนคือ 3, 5, และ 8 และจำนวนยอดขายในเดือนนั้นคือ 8, 12, และ 18 อัลกอริธึมรีเกรสชันจะเชื่อมโยงปัจจัยดังกล่าวเป็นสมการดังนี้
จำนวนการขาย = 2* (จำนวนวันที่ฝนตก) + 2
ทำการคาดคะเนสำหรับค่าที่ไม่รู้จัก
สำหรับค่าที่ไม่รู้จัก ซอฟต์แวร์จะใช้สมการในการคาดคะแน ถ้าคุณรู้ว่าฝนจะตกเป็นเวลาหกวันในเดือนกรกฎาคม, ซอฟแวร์จะประมาณการมูลค่าการขายเดือนกรกฎาคมเป็น 14
โมเดลรีเกรสชันโลจิสติกทำงานอย่างไร
เพื่อให้เข้าใจถึงรูปแบบรีเกรสชันโลจิสติก ก่อนอื่นจะต้องเข้าใจสมการและตัวแปร
สมการ
ในทางคณิตศาสตร์ สมการจะมีความสัมพันธ์ระหว่างตัวแปรสองตัวคือ x และ y คุณสามารถใช้สมการเหล่านี้หรือฟังก์ชั่นในการพล็อตกราฟพร้อมแกน x และแกน y โดยการวางในค่าที่แตกต่างกันของ x และ y ได้ ตัวอย่างเช่น ถ้าคุณพล็อตกราฟสำหรับฟังก์ชั่น y = 2* x คุณจะได้รับเส้นตรงที่แสดงด้านล่าง ดังนั้นฟังก์ชั่นนี้จะเรียกว่าฟังก์ชั่นเชิงเส้น
ตัวแปร
ในสถิติ ตัวแปรเป็นปัจจัยข้อมูลหรือคุณลักษณะที่มีค่าแตกต่างกัน สำหรับการวิเคราะห์ต่างๆ ตัวแปรบางอย่างเป็นตัวแปรที่เป็นอิสระหรือตัวแปรอธิบาย คุณลักษณะเหล่านี้เป็นเหตุของผลที่ตามมา ตัวแปรอื่นๆ ขึ้นอยู่กับตัวแปรอ้างอิงหรือตอบสนอง โดยค่าขึ้นอยู่กับตัวแปรอิสระ โดยทั่วไปแล้ว รีเกรสชันโลจิสติกจะดูว่าตัวแปรอิสระมีผลต่อตัวแปรขึ้นตัวหนึ่งอย่างไร โดยดูที่ค่าข้อมูลประวัติของตัวแปรทั้งสอง
ในตัวอย่างของเราข้างต้น x เรียกว่าตัวแปรอิสระตัวแปรทำนายหรือตัวแปรอธิบายเพราะมันมีค่าที่รู้จักกัน Y เรียกว่าตัวอ้างอิง ตัวแปรผล หรือตัวแปรตอบสนองเพราะไม่รู้จักค่า
ฟังก์ชั่นรีเกรสชันโลจิสติก
รีเกรสชันโลจิสติก (Logistic regression) เป็นแบบจำลองทางสถิติที่ใช้ฟังก์ชันโลจิสติก หรือฟังก์ชันโลจิตในวิชาคณิตศาสตร์เป็นสมการระหว่าง x และ y ฟังก์ชั่นโลจิตจะแมป Y เป็นฟังก์ชั่น Sigmoid ของ x
ถ้าคุณพล็อตสมการรีเกรสชันโลจิสติกนี้คุณจะได้รับเส้นโค้ง S-ที่แสดงด้านล่าง
ดังที่คุณเห็น ฟังก์ชันโลจิตจะตอบกลับเฉพาะค่าระหว่าง 0 และ 1 สำหรับตัวแปรอ้างอิง โดยไม่คำนึงถึงค่าของตัวแปรอิสระ นี่คือวิธีรีเกรสชันโลจิสติกประมาณค่าของตัวแปรอ้างอิง วิธีรีเกรสชันโลจิสติกยังสร้างโมเดลสมการแบบจำลองระหว่างตัวแปรอิสระหลายและตัวแปรอ้างอิงหนึ่งตัวด้วย
การวิเคราะห์รีเกรสชันโลจิสติกที่มีตัวแปรอิสระหลายตัว
ในหลายกรณี ตัวแปรอธิบายหลายตัวมีผลต่อค่าของตัวแปรอ้างอิง เพื่อจำลองชุดข้อมูลอินพุตดังกล่าว สูตรรีเกรสชันโลจิสติกสมมติความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระที่แตกต่างกัน คุณสามารถปรับเปลี่ยนฟังก์ชั่น Sigmoid และคำนวณตัวแปรเอาท์พุทสุดท้ายเป็น
y = f(β0 + β1x1 + β2x2+… βnxn)
สัญลักษณ์ β หมายถึงค่าสัมประสิทธิ์รีเกรสชัน โมเดลโลจิตสามารถคำนวณย้อนค่าสัมประสิทธิ์เหล่านี้ได้เมื่อคุณป้อนชุดข้อมูลทดลองขนาดใหญ่ของค่าอ้างอิงและค่าอิสระที่เพียงพอ
Log Odds
โมเดลโลจิตยังสามารถกำหนดอัตราส่วนของความสำเร็จหรือล้มเหลวหรือ Log Odds ได้อีกด้วย ตัวอย่างเช่น ถ้าคุณกำลังเล่นโป๊กเกอร์กับเพื่อนของคุณ และคุณชนะสี่ตาจาก 10 ตาอัตราต่อรองของคุณในการชนะคือสี่หก หรือสี่ในหก ซึ่งเป็นอัตราส่วนของความสำเร็จกับความล้มเหลว ในทางกลับกันความน่าจะเป็นในการชนะจะเท่ากับสี่จากสิบ
ในทางคณิตศาสตร์ อัตราต่อรองของคุณในแง่ของความน่าจะเป็นคือ p/(1 - p) และ Log Odd เท่ากับ Log (p/(1 - p)) คุณสามารถแสดงฟังก์ชั่นโลจิสติกเป็น Log Odd ได้ดังที่แสดงด้านล่าง:
ประเภทของการวิเคราะห์รีเกรสชันโลจิสติกส์มีอะไรบ้าง
วิธีการวิเคราะห์รีเกรสชันโลจิสติกนั้นมีสามประการ ขึ้นอยู่กับผลลัพธ์ของค่าอ้างอิง
รีเกรสชันโลจิสติกไบนารี
รีเกรสชันโลจิสติกแบบไบนารีทำงานได้ดีสำหรับปัญหาการจำแนกประเภทแบบไบนารีที่มีเพียงสองผลลัพธ์ที่เป็นไปได้ ตัวแปรอ้างอิงสามารถมีได้เพียงสองค่า เช่น ใช่และไม่หรือ 0 และ 1
แม้ว่าฟังก์ชันโลจิสติกจะคำนวณช่วงของค่าระหว่าง 0 ถึง 1 แต่แบบโมเดลรีเกรสชันไบนารีจะปัดเศษคำตอบให้เป็นค่าที่ใกล้เคียงที่สุด โดยทั่วไปคำตอบที่ต่ำกว่า 0.5 จะปัดเศษเป็น 0 และคำตอบเหนือ 0.5 จะถูกปัดเศษเป็น 1 เพื่อให้ฟังก์ชันโลจิสติกส่งกลับผลลัพธ์ไบนารี
รีเกรสชันโลจิสติกมัลจิโนเมียล
รีเกรสชันมัลติโนเมียลสามารถวิเคราะห์ปัญหาที่มีผลลัพธ์ที่เป็นไปได้หลายคำตอบ ตราบใดที่จำนวนของผลลัพธ์นั้นจำกัด ยกตัวอย่างเช่น สามารถพยากรณ์ได้ว่า ราคาบ้านจะเพิ่มขึ้น 25%, 50%, 75% หรือ 100% ตามข้อมูลประชากร แต่ก็ไม่สามารถพยากรณ์ค่าบ้านที่แน่นอนได้
รีเกรสชันโลจิสติกมัลติโนเมียลทำงานโดยการแมปค่าผลลัพธ์กับเป็นค่าระหว่าง 0 และ 1 เนื่องจากฟังก์ชั่นโลจิสติกสามารถตอบกลับเป็นช่วงของข้อมูลอย่างต่อเนื่องได้ เช่น 0.1, 0.11, 0.12 และอื่นๆ รีเกรสชันมัลติโนเมียลนั้นยังจัดกลุ่มเอาต์พุตเป็นค่าทึี่ใกล้เคียงที่สุดอีกด้วย
รีเกรสชันโลจิสติกออร์ดินัล
รีเกรสชันโลจิสติกออร์ดินัลหรือรูปแบบโลจิตตามลำดับเป็นรีเกรสชันมัลติโนเมียลแบบพิเศษสำหรับปัญหาที่ตัวเลขแทนบ่งบอกถึงการจัดอันดับมากกว่าค่าจริง ตัวอย่างเช่น คุณจะใช้รีเกรสชันออร์ดินัลเพื่อคาดการณ์คำตอบของคำถามแบบสำรวจที่ขอให้ลูกค้าจัดอันดับบริการของคุณเป็นแย่ พอใช้ ดี หรือยอดเยี่ยม ตามตัวเลข เช่นเดียวกับจำนวนสินค้าที่พวกเขาซื้อจากคุณตลอดทั้งปี
เมื่อเปรียบเทียบกับวิธี ML อื่นๆ วิธีรีเกรสชันโลจิสติกเป็นเช่นไร
สองเทคนิคการวิเคราะห์ข้อมูลทั่วไปคือการวิเคราะห์รีเกรสชันเชิงเส้นและดีปเลิร์นนิง
การวิเคราะห์รีเกรสชันเชิงเส้น
ตามที่อธิบายไว้ข้างต้น รูปแบบรีเกรสชันเชิงเส้นจะแสดงความสัมพันธ์ระหว่างตัวแปรอ้างอิงและอิสระโดยใช้การรวมเชิงเส้น สมการรีเกรสชันเชิงเส้นคือ
y= β0X0 + β1X1 + β2X2+… βnXn+ ε ซึ่ง β1 ถึง βn และ ε เป็นค่าสัมประสิทธิ์รีเกรสชัน
รีเกรสชันโลจิสติกกับรีเกรสชันเชิงเส้น
รีเกรสชันเชิงเส้นคาดการณ์ตัวแปรอ้างอิงต่อเนื่องโดยใช้ชุดตัวแปรอิสระที่กำหนดไว้ ตัวแปรต่อเนื่องนั้นจะมีช่วงของค่า เช่น ราคาหรืออายุ ดังนั้นรีเกรสชันเชิงเส้นสามารถคาดการณ์ค่าที่แท้จริงของตัวแปรอ้างอิงได้ สามารถตอบคำถามเช่น “ราคาข้าวจะเป็นอย่างไรในอีก 10 ปีจากนี้“
ซึ่งแตกต่างจากรีเกรสชันเชิง เส้นรีเกรสชันโลจิสติกเป็นอัลกอริธึมการจัดหมวดหมู่ ซึ่งไม่สามารถคาดการณ์ค่าที่แท้จริงของข้อมูลต่อเนื่องได้ สามารถตอบคำถาม เช่น “ราคาข้าวจะเพิ่มขึ้น 50% ใน 10 ปีหรือไม่“
ดีปเลิร์นนิ่ง
ดีปเลิร์นนิงใช้นิวรัลเน็ตเวิร์กหรือส่วนประกอบซอฟต์แวร์ที่จำลองสมองมนุษย์เพื่อวิเคราะห์ข้อมูล การคำนวณดีปเลิร์นนิงขึ้นอยู่กับแนวคิดทางคณิตศาสตร์ของเวกเตอร์
เปรียบเทียบรีเกรสชันโลจิสติกกับดีปเลิร์นนิง
รีเกรสชันโลจิสติกมีความซับซ้อนน้อยกว่าและคำนวณน้อยกว่าดีปเลิร์นนิง ที่สำคัญกว่านั้น การคำนวณดีปเลิร์นนิงไม่สามารถตรวจสอบหรือแก้ไขได้โดยนักพัฒนาเนื่องจากธรรมชาติที่ซับซ้อนและใช้งานระบบ ในขณะเดียวกัน การคำนวณรีเกรสชันโลจิสติกมีความโปร่งใสและแก้ไขปัญหาได้ง่ายกว่า
คุณจะเรียกใช้การวิเคราะห์รีเกรสชันโลจิสติกบน AWS ได้อย่างไร
คุณสามารถเรียกใช้รีเกรสชันโลจิสติกบน AWS ได้โดยใช้ Amazon SageMaker SageMaker เป็นบริกาแมชชีนเลิร์นนิง (ML) ที่มีการจัดการอย่างสมบูรณ์พร้อมด้วยอัลกอริทึมในตัวสำหรับรีเกรสชันเชิงเส้นและรีเกรสชันโลจิสติกในแพ็คเกจซอฟต์แวร์ทางสถิติอื่นๆ
- นักวิทยาศาสตร์ข้อมูลทุกคนสามารถใช้ SageMaker เพื่อเตรียม สร้าง ฝึก และปรับใช้รูปแบบรีเกรสชันโลจิสติกได้อย่างรวดเร็ว
- SageMaker กำจัดภาระหนักในแต่ละขั้นตอนของกระบวนการรีเกรสชันโลจิสติกเพื่อช่วยให้พัฒนาโมเดลคุณภาพสูงได้ง่ายขึ้น
- SageMaker มีส่วนประกอบทั้งหมดที่คุณต้องการสำหรับการรีเกรสชันโลจิสติกในชุดเครื่องมือเดียว เพื่อให้คุณสามารถผลิตโมเดลได้เร็วขึ้น ง่ายขึ้น และด้วยต้นทุนที่ต่ำกว่า
เริ่มต้นกับรีเกรสชันโลจิสติกโดยการสร้าง บัญชี AWS เลยวันนี้