รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกแตกต่างกันอย่างไร


รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกแตกต่างกันอย่างไร

รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกเป็นเทคนิคของแมชชีนเลิร์นนิงที่ทำการคาดการณ์ด้วยการวิเคราะห์ข้อมูลในอดีต ตัวอย่างเช่น การดูที่แนวโน้มการซื้อของลูกค้าในอดีตจะช่วยให้การวิเคราะห์รีเกรสชันสามารถประมาณการยอดขายในอนาคตได้ เพื่อให้คุณดำเนินการซื้อสินค้าคงคลังได้อย่างมีข้อมูลมากขึ้น เทคนิครีเกรสชันเชิงเส้นสร้างโมเดลปัจจัยที่ไม่รู้จักบนหลายปัจจัยที่รู้จักในรูปแบบคณิตศาสตร์เพื่อประมาณค่าที่ไม่รู้จักแน่นอน ในทำนองเดียวกัน รีเกรสชันทางโลจิสติกจะใช้คณิตศาสตร์ในการค้นหาความสัมพันธ์ระหว่างปัจจัยข้อมูลสองอย่างนี้ จากนั้นจะใช้ความสัมพันธ์นี้เพื่อคาดการณ์ค่าของปัจจัยเหล่านั้นโดยอาศัยปัจจัยอื่นๆ การคาดการณ์มักจะมีจำนวนผลลัพธ์ที่จำกัด เช่น ใช่หรือไม่ เป็นต้น

อ่านเกี่ยวกับรีเกรสชันเชิงเส้น »

อ่านเกี่ยวกับรีเกรสชันทางโลจิสติก »

การดำเนินการคาดการณ์ระหว่างรีเกรสชันเชิงเส้นกับรีเกรสชันทางโลจิสติก

ทั้งรีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกใช้โมเดลทางคณิตศาสตร์ในการคาดการณ์ค่าของตัวแปรเอาต์พุตจากตัวแปรอินพุตอย่างน้อย 1 รายการ ตัวแปรเอาต์พุตเป็นตัวแปรอ้างอิง และตัวแปรอินพุตเป็นตัวแปรอิสระ

รีเกรสชันเชิงเส้น

ตัวแปรอิสระแต่ละรายการมีความสัมพันธ์โดยตรงกับตัวแปรอ้างอิง และไม่มีความสัมพันธ์กับตัวแปรอิสระอื่นๆ ความสัมพันธ์นี้เรียกว่า ความสัมพันธ์เชิงเส้น ตัวแปรอ้างอิงมักจะเป็นค่าจากช่วงของค่าต่อเนื่อง

สูตรหรือฟังก์ชันเชิงเส้นสำหรับสร้างโมเดลรีเกรสชันเชิงเส้นคือ

y= β0 + β1X1 + β2X2+… βnXn+ ε

ตัวแปรแต่ละตัวหมายถึง

  • y เป็นตัวแปรอ้างอิงที่คาดการณ์
  • β0 เป็นจุดตัดแกน y เมื่อตัวแปรอินพุตอิสระทั้งหมดเท่ากับ 0
  • β1X1 เป็นค่าสัมประสิทธิ์รีเกรสชัน (B1) ของตัวแปรอิสระตัวแรก (X1) ค่าผลกระทบของตัวแปรอิสระตัวแรกต่อตัวแปรอ้างอิง
  • βnXn เป็นค่าสัมประสิทธิ์รีเกรสชัน (BN) ของตัวแปรอิสระตัวสุดท้าย (XN) เมื่อมีค่าอินพุตหลายค่า
  • ε เป็นข้อผิดพลาดของโมเดล

ตัวอย่างของรีเกรสชันเชิงเส้นคือ การคาดการณ์ราคาบ้าน (ตัวแปรอ้างอิง) โดยอิงจากจำนวนห้อง ละแวกใกล้เคียง และอายุ (ตัวแปรอิสระ)

รีเกรสชันทางโลจิสติก  

ค่าของตัวแปรอ้างอิงเป็นหนึ่งจากรายการของหมวดหมู่จำกัดที่ใช้การจำแนกประเภทแบบไบนารี เหล่านี้เรียกว่าตัวแปรเชิงกลุ่ม ตัวอย่างคือผลที่ได้จากการทอยลูกเต๋า 6 ด้าน ความสัมพันธ์นี้เรียกว่า ความสัมพันธ์ทางโลจิสติก

สูตรสำหรับรีเกรสชันทางโลจิสติกใช้การแปลงโลจิตหรือลอการิทึมของอัตราต่อรองตามปกติ กับความน่าจะเป็นของความสำเร็จหรือความล้มเหลวของตัวแปรเชิงกลุ่มที่เฉพาะเจาะจง

y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

ตัวแปรแต่ละตัวหมายถึง

  • y คือความน่าจะเป็นของความสำเร็จของตัวแปรเชิงกลุ่ม y
  • e (x) เป็นจำนวนของออยเลอร์ ความผกผันของฟังก์ชันลอการิทึมตามปกติหรือฟังก์ชัน Sigmoid ใน (x)
  • Β0, β1X1…βnXn มีความหมายเช่นเดียวกับรีเกรสชันเชิงเส้นในส่วนก่อนหน้า

ตัวอย่างของรีเกรสชันทางโลจิสติกคือ การคาดการณ์โอกาสที่ราคาบ้านจะสูงกว่า 500,000 USD (ตัวแปรอ้างอิง) โดยอิงจากจำนวนห้อง ละแวกใกล้เคียง และอายุ (ตัวแปรอิสระ)

รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกเหมือนกันอย่างไร

รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกมีจุดเหมือนบางอย่างและมีพื้นที่การใช้งานในวงกว้างที่คล้ายกัน

การวิเคราะห์ทางสถิติ

รีเกรสชันทางโลจิสติกและเชิงเส้นมีทั้งรูปแบบของการวิเคราะห์ทางสถิติหรือข้อมูล และอยู่ในขอบเขตด้านวิทยาศาสตร์ข้อมูล ทั้งสองใช้โมเดลทางคณิตศาสตร์เพื่อเชื่อมโยงชุดตัวแปรอิสระหรือตัวแปรที่รู้จักกับตัวแปรอ้างอิง คุณสามารถเสนอทั้งรีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้นเป็นสมการทางคณิตศาสตร์ได้ นอกจากนี้ คุณยังสามารถเสนอโมเดลบนกราฟได้

เทคนิคแมชชีนเลิร์นนิง

ทั้งโมเดลรีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกมีการใช้งานในแมชชีนเลิร์นนิงแบบมีผู้ดูแล

แมชชีนเลิร์นนิงแบบมีผู้ดูแลต้องมีการฝึกโมเดลโดยการป้อนชุดข้อมูลที่มีป้ายกำกับ นักวิจัยที่เป็นมนุษย์ทราบและรวบรวมตัวแปรอ้างอิงและตัวแปรอิสระ เมื่อป้อนข้อมูลในอดีตที่ทราบ สมการทางคณิตศาสตร์จะถูกดำเนินการวิศวกรรมย้อนกลับ ในท้ายที่สุด การคาดการณ์ในการคำนวณตัวแปรอ้างอิงที่ไม่ทราบจากตัวแปรอิสระที่ทราบจะออกมาถูกต้อง

การเรียนรู้แบบมีผู้ดูแลแตกต่างจากการเรียนรู้แบบไม่มีผู้ดูแลที่ข้อมูลไม่ได้ติดป้ายกำกับ

อ่านเรื่องแมชชีนเลิร์นนิง »

ความยากในการฝึก

ทั้งรีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้นต้องมีข้อมูลที่ติดป้ายกำกับจำนวนมากสำหรับโมเดลเพื่อให้คาดการณ์ได้ถูกต้อง ซึ่งอาจเป็นงานที่ยากลำบากสำหรับมนุษย์ ตัวอย่างเช่น หากคุณต้องการติดป้ายกำกับว่าภาพมีรถ ภาพทั้งหมดจะต้องมีแท็กของตัวแปร เช่น ขนาดรถ มุมภาพ และสิ่งกีดขวาง 

ความแม่นยำในการคาดการณ์แบบจำกัด

โมเดลทางสถิติที่ระบุข้อมูลอินพุตในข้อมูลเอาต์พุตไม่จำเป็นต้องบ่งบอกถึงความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรอ้างอิงกับตัวแปรอิสระ สำหรับทั้งรีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้น ความสัมพันธ์ไม่ได้เป็นสาเหตุ

ตัวอย่างเช่นการกำหนดราคาบ้านจากส่วนก่อนหน้า สมมติว่าชื่อของเจ้าของบ้านอยู่ในรายการตัวแปรอิสระ แล้วชื่อ John Doe สัมพันธ์กับราคาขายบ้านที่ต่ำ ในขณะที่รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกจะคาดการณ์ราคาบ้านที่ต่ำเสมอหากชื่อของเจ้าของคือ John Doe ตรรกะจะระบุว่าความสัมพันธ์กับข้อมูลอินพุตนี้ไม่ถูกต้อง

ความแตกต่างระหว่างรีเกรสชันเชิงเส้นกับรีเกรสชันทางโลจิสติก

รีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้นมีความแตกต่างกันมากที่สุดในด้านวิธีการทางคณิตศาสตร์

ค่าเอาต์พุต

เอาต์พุตรีเกรสชันเชิงเส้นเป็นขนาดค่าต่อเนื่อง ตัวอย่างเช่น ตัวเลข กิโลเมตร ราคา และน้ำหนัก

ในทางตรงกันข้าม เอาต์พุตโมเดลรีเกรสชันทางโลจิสติกคือความน่าจะเป็นของการเกิดเหตุการณ์แบบกลุ่มที่คงที่ ตัวอย่างเช่น 0.76 อาจหมายถึงโอกาส 76% ที่จะสวมเสื้อสีน้ำเงิน และ 0.22 อาจหมายถึงโอกาส 22% ที่จะโหวต “ใช่”

ความสัมพันธ์ของตัวแปร

ในการวิเคราะห์รีเกรสชัน เส้นรีเกรสชันเป็นรูปทรงเส้นกราฟที่แสดงความสัมพันธ์ระหว่างแต่ละตัวแปรอิสระและตัวแปรอ้างอิงแต่ละรายการ

ในรีเกรสชันเชิงเส้น เส้นรีเกรสชันเชิงเส้นจะเป็นเส้นตรง การเปลี่ยนแปลงตัวแปรอิสระจะส่งผลโดยตรงต่อตัวแปรอ้างอิง

ในรีเกรสชันทางโลจิสติก เส้นรีเกรสชันเป็นเส้นโค้งรูปตัว S หรือที่เรียกว่าเส้นโค้ง Sigmoid

ประเภทการกระจายทางคณิตศาสตร์

รีเกรสชันเชิงเส้นใช้การกระจายปกติหรือ Gaussian ของตัวแปรอ้างอิง การกระจายปกติปรากฏเป็นเส้นต่อเนื่องบนกราฟ

รีเกรสชันทางโลจิสติกใช้การกระจายแบบทวินาม การกระจายแบบทวินามมักจะปรากฏเป็นกราฟแท่ง

เมื่อใดที่ควรใช้รีเกรสชันเชิงเส้นหรือรีเกรสชันทางโลจิสติก

คุณสามารถใช้รีเกรสชันเชิงเส้นเมื่อต้องการคาดการณ์ตัวแปรอ้างอิงต่อเนื่องจากขนาดของค่า ใช้รีเกรสชันทางโลจิสติกเมื่อคุณต้องการผลลัพธ์แบบไบนารี (ตัวอย่างเช่น ใช่หรือไม่)

ตัวอย่างของรีเกรสชันเชิงเส้นมีดังนี้ 

  • การคาดการณ์ความสูงของผู้ใหญ่ โดยอิงจากความสูงของแม่และพ่อ
  • การคาดการณ์ปริมาณการขายฟักทอง โดยอิงจากราคา ช่วงเวลาของปี และตำแหน่งที่ตั้งร้าน
  • การคาดการณ์ราคาตั๋วสายการบิน โดยอิงจากต้นทาง ปลายทาง ช่วงเวลาของปี และสายการบิน
  • การคาดการณ์จำนวนการกดถูกใจในโซเชียลมีเดีย โดยอิงจากผู้โพสต์ จำนวนผู้ติดตามจริง เนื้อหาโพสต์ และเวลาในวันที่โพสต์

ตัวอย่างของรีเกรสชันทางโลจิสติกมีดังนี้

  • การคาดการณ์ว่าบุคคลจะเป็นโรคหัวใจหรือไม่ โดยอิงจากค่าดัชนีมวลกาย สถานะการสูบบุหรี่ และความบกพร่องทางพันธุกรรม
  • การคาดการณ์ว่าเสื้อผ้าขายปลีกรายการใดจะนิยมมากที่สุด โดยอิงจากสี ขนาด ประเภท และราคา
  • การคาดการณ์ว่าพนักงานจะลาออกในปีนั้นหรือไม่ โดยอิงจากอัตราค่าจ้าง จำนวนวันที่ทำงาน จำนวนการประชุม จำนวนอีเมลที่ส่ง ทีม และการดำรงตำแหน่ง
  • การคาดการณ์ว่าสมาชิกทีมฝ่ายขายคนใดจะทำสัญญาได้มากกว่า 1 ล้านดอลลาร์สหรัฐในหนึ่งปี โดยอิงจากยอดขายปีก่อน การดำรงตำแหน่ง และอัตราค่าคอมมิชชั่น

สรุปความแตกต่างระหว่างรีเกรสชันเชิงเส้นกับรีเกรสชันทางโลจิสติก

 

รีเกรสชันเชิงเส้น

รีเกรสชันทางโลจิสติก

คืออะไร

วิธีการทางสถิติเพื่อคาดการณ์ค่าเอาต์พุตจากชุดของค่าอินพุต

วิธีการทางสถิติเพื่อคาดการณ์ความน่าจะเป็นของค่าเอาต์พุตที่มาจากบางหมวดหมู่จากชุดตัวแปรเชิงกลุ่ม

ความสัมพันธ์

ความสัมพันธ์เชิงเส้นที่แทนด้วยเส้นตรง

ความสัมพันธ์ทางโลจิสติกหรือความสัมพันธ์ Sigmoid ที่แทนด้วยเส้นโค้งรูปตัว S

สมการ

เชิงเส้น

ลอการิทึม

ประเภทของการเรียนรู้แบบมีผู้ดูแล

รีเกรสชัน

การจัดหมวดหมู่

ประเภทการกระจาย

ปกติ/Gaussian

ทวินาม

เหมาะที่สุดสำหรับ

งานที่ต้องใช้ตัวแปรอ้างอิงต่อเนื่องที่คาดการณ์จากขนาด

งานที่ต้องใช้ความน่าจะเป็นที่คาดการณ์ของตัวแปรอ้างอิงเชิงกลุ่มที่เกิดขึ้นจากชุดหมวดหมู่แบบคงที่

คุณจะเรียกใช้การวิเคราะห์รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกบน AWS ได้อย่างไร

คุณสามารถเรียกใช้การวิเคราะห์รีเกรสชันเชิงเส้นและทางโลจิสติกใน Amazon Web Services (AWS) โดยใช้ Amazon SageMaker

SageMaker เป็นบริกาแมชชีนเลิร์นนิงที่มีการจัดการอย่างสมบูรณ์พร้อมด้วยอัลกอริทึมรีเกรสชันในตัวสำหรับทั้งรีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกในแพ็คเกจซอฟต์แวร์ทางสถิติอื่นๆ คุณสามารถใช้รีเกรสชันเชิงเส้นที่มีค่าอินพุตได้มากตามต้องการ หรือแก้ปัญหารีเกรสชันกับรูปแบบความน่าจะเป็นทางโลจิสติก

ตัวอย่างเช่น ต่อไปนี้คือวิธีที่คุณจะได้รับประโยชน์เมื่อใช้ SageMaker

  • เตรียม สร้าง ฝึก และนำโมเดลรีเกรสชันไปใช้จริงได้อย่างรวดเร็ว
  • กำจัดภาระหนักในแต่ละขั้นตอนของกระบวนการรีเกรสชันเชิงเส้นและทางโลจิสติกเและพัฒนาโมเดลรีเกรสชันคุณภาพสูง
  • เข้าถึงส่วนประกอบทั้งหมดที่จำเป็นสำหรับการวิเคราะห์รีเกรสชันในชุดเครื่องมือชุดเดียว เพื่อให้เริ่มใช้งานโมเดลได้เร็วขึ้น ง่ายขึ้น และคุ้มค่ายิ่งขึ้น

เริ่มต้นใช้งานการวิเคราะห์รีเกรสชันบน AWS ด้วยการสร้างบัญชีวันนี้