รีเกรสชันเชิงเส้นคืออะไร

รีเกรสชันเชิงเส้นเป็นเทคนิคการวิเคราะห์ข้อมูลที่คาดการณ์ค่าของข้อมูลที่ไม่รู้จักโดยใช้ค่าข้อมูลอื่นที่เกี่ยวข้องและเป็นที่รู้จัก แบบจำลองตัวแปรทางคณิตศาสตร์ที่ไม่รู้จักหรือขึ้นอยู่กับและตัวแปรที่รู้จักหรือเป็นอิสระเป็นสมการเชิงเส้น ตัวอย่างเช่นสมมติว่ามีข้อมูลเกี่ยวกับค่าใช้จ่ายและรายได้สำหรับปีที่ผ่านมา เทคนิครีเกรสชันเชิงเส้นวิเคราะห์ข้อมูลนี้และตรวจสอบว่าค่าใช้จ่ายเป็นครึ่งหนึ่งของรายได้ จากนั้นพวกเขาก็คำนวณค่าใช้จ่ายในอนาคตที่ไม่รู้จักโดยการลดลงครึ่งหนึ่งรายได้ที่รู้จักกันในอนาคต

ทำไมรีเกรสชันเชิงเส้นจึงสำคัญ

รูปแบบรีเกรสชันเชิงเส้นคือสูตรทางคณิตศาสตร์ที่ค่อนข้างไม่ซับซ้อนและง่ายต่อการตีความเพื่อสร้างการคาดการณ์ รีเกรสชันเชิงเส้นเป็นเทคนิคทางสถิติที่จัดตั้งขึ้นและนำไปใช้ได้อย่างง่ายดายกับซอฟต์แวร์และคอมพิวเตอร์ ธุรกิจใช้ข้อมูลนี้เพื่อแปลงข้อมูลดิบให้เป็นข้อมูลอัจฉริยะทางธุรกิจและข้อมูลเชิงลึกที่ดำเนินการได้อย่างน่าเชื่อถือและคาดการณ์ได้ นักวิทยาศาสตร์ในหลายสาขา รวมทั้ง ชีววิทยาและพฤติกรรม สิ่งแวดล้อม และสังคมศาสตร์ใช้รีเกรสชันเชิงเส้นเพื่อทำการวิเคราะห์ข้อมูลเบื้องต้นและพยากรณ์แนวโน้มในอนาคต วิธีการทางวิทยาศาสตร์ข้อมูลหลายอย่างเช่นการเรียนรู้ของเครื่องและปัญญาประดิษฐ์ ใช้รีเกรสชันเชิงเส้นเพื่อแก้ปัญหาที่ซับซ้อน

วิธีการทำงานของรีเกรสชันเชิงเส้น

หลักของเทคนิครีเกรสชันเชิงเส้นที่เรียบง่ายพยายามที่จะพล็อตกราฟเส้นระหว่างสองตัวแปรข้อมูล x และ y ในฐานะที่เป็นตัวแปรอิสระ x เป็นพล็อตตามแกนนอน ตัวแปรอิสระจะเรียกว่าตัวแปรอธิบายหรือตัวแปรทำนาย ตัวแปรขึ้นอยู่กับ y เป็นพล็อตบนแกนแนวตั้ง นอกจากนี้ยังสามารถอ้างถึงค่า y เป็นตัวแปรการตอบสนองหรือตัวแปรที่คาดการณ์ไว้

ขั้นตอนในรีเกรสชันเชิงเส้น

สำหรับภาพรวมนี้ ให้พิจารณารูปแบบที่ง่ายที่สุดของสมการกราฟเส้นระหว่าง y และ x; y=c*x+m โดยที่ c และ m เป็นค่าคงที่สำหรับค่าที่เป็นไปได้ทั้งหมดของ x และ y ตัวอย่างเช่นสมมติว่าชุดข้อมูลอินพุตสำหรับ (x, y) เป็น (1,5) (2,8) และ (3,11) เพื่อระบุวิธีรีเกรสชันเชิงเส้น จะทำตามขั้นตอนต่อไปนี้

  1. พล็อตเป็นเส้นตรงและวัดความสัมพันธ์ระหว่าง 1 และ 5
  2. ให้เปลี่ยนทิศทางของเส้นตรงสำหรับค่าใหม่ (2,8) และ (3,11) จนกว่าค่าทั้งหมดจะพอดี
  3. ระบุสมรีเกรสชันเชิงเส้นเป็น y=3*x+2
  4. อนุมานหรือคาดการณ์ว่า y คือ 14 เมื่อ x เป็น

รีเกรสชันเชิงเส้นในการเรียนรู้ของเครื่องคืออะไร

ในการเรียนรู้ของเครื่อง โปรแกรมคอมพิวเตอร์ที่เรียกว่าอัลกอริทึมจะวิเคราะห์ชุดข้อมูลขนาดใหญ่ และทำงานย้อนหลังจากข้อมูลนั้นเพื่อคำนวณสมรีเกรสชันเชิงเส้น นักวิทยาศาสตร์ข้อมูลฝึกอัลกอริทึมเป็นอย่างแรกด้วยชุดข้อมูลที่รู้จักหรือมีชื่อแล้วใช้อัลกอริทึมในการทำนายค่าที่ไม่รู้จัก ข้อมูลในชีวิตจริงมีความซับซ้อนกว่าตัวอย่างก่อนหน้านี้ นั่นคือเหตุผลที่การวิเคราะห์รีเกรสชันเชิงเส้นจะต้องปรับเปลี่ยนทางคณิตศาสตร์หรือแปลงค่าข้อมูลเพื่อตอบสนอง 4 สมมติฐานต่อไปนี้

ความสัมพันธ์เชิงเส้น

ความสัมพันธ์เชิงเส้นต้องอยู่ระหว่างตัวแปรที่เป็นอิสระและพึ่งพา เพื่อตรวจสอบความสัมพันธ์นี้ นักวิทยาศาสตร์ข้อมูลจะสร้างพล็อตที่กระจาย–คอลเลกชันสุ่มของค่า x และ y เพื่อดูว่าพวกเขาตกไปตามเส้นตรงหรือไม่ ถ้าไม่ สามารถใช้ฟังก์ชันไม่เชิงเส้นเช่นรากที่สองหรือข้อมูลบันทึกเพื่อสร้างความสัมพันธ์เชิงเส้นระหว่างสองตัวแปรในทางคณิตศาสตร์

ความเป็นอิสระที่เหลือ

นักวิทยาศาสตร์ข้อมูลใช้ส่วนตกค้างเพื่อวัดความถูกต้องของการคาดการณ์ ส่วนที่เหลือคือความแตกต่างระหว่างข้อมูลที่สังเกตและค่าที่คาดการณ์ สารตกค้างต้องไม่มีรูปแบบที่สามารถระบุตัวได้ระหว่างกัน ยกตัวอย่างเช่น ไม่อยากให้เศษที่เหลือโตขึ้นตามกาลเวลา สามารถใช้การทดสอบทางคณิตศาสตร์ที่แตกต่างกันเช่นการทดสอบ Durbin-Watson เพื่อตรวจสอบความเป็นอิสระที่เหลือ สามารถใช้ข้อมูลหุ่นเพื่อแทนที่การเปลี่ยนแปลงข้อมูลใดๆ เช่นข้อมูลตามฤดูกาล

ภาวะปกติ

เทคนิคการทำกราฟเช่นแปลง Q-Q กำหนดสารตกค้างที่มีการกระจายตามปกติ ส่วนที่เหลือควรตกไปตามเส้นทแยงมุมในใจกลางของกราฟ ถ้าตกค้างไม่เป็นปกติ สามารถทดสอบข้อมูลสำหรับค่าผิดปกติสุ่มหรือค่าที่ไม่ปกติ การลบค่าผิดปกติหรือการดำเนินการแปลงไม่เชิงเส้นสามารถแก้ไขปัญหาได้

ความเป็นปริมาณพ้องกัน

ความเป็นปริมาณพ้องกันสันนิษฐานว่าสิ่งตกค้างมีความแปรปรวนคงที่หรือค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยสำหรับทุกค่าของ x ถ้าไม่ได้ ผลของการวิเคราะห์อาจจะไม่ถูกต้อง หากไม่เป็นไปตามสมมติฐานนี้ อาจจะต้องเปลี่ยนตัวแปรพึ่งพา เพราะความแปรปรวนเกิดขึ้นตามธรรมชาติในชุดข้อมูลขนาดใหญ่ ทำให้สมเหตุสมผลที่จะเปลี่ยนขนาดของตัวแปรพึ่งพา ยกตัวอย่างเช่น แทนที่จะใช้ขนาดประชากรในการพยากรณ์จำนวนสถานีดับเพลิงในเมือง อาจจะใช้ขนาดประชากรในการพยากรณ์จำนวนสถานีดับเพลิงต่อคน

ประเภทขอรีเกรสชันเชิงเส้นมีอะไรบ้าง

บางประเภทของการวิเคราะห์รีเกรสชันมีความเหมาะสมมากขึ้นในการจัดการกับชุดข้อมูลที่ซับซ้อนกว่าอันอื่นๆ ตัวอย่างบางส่วนมีดังต่อไปนี้

รีเกรสชันเชิงเส้นอย่างง่าย

รีเกรสชันเชิงเส้นที่เรียบง่ายถูกกำหนดโดยฟังก์ชั่นเชิงเส้น

Y= β0*x + β1 + ε 

β0 และ β1 เป็นค่าคงที่ที่ไม่รู้จักสองค่าที่เป็นตัวแทนของความลาดชันรีเกรสชัน ในขณะที่ ε (epsilon) เป็นคำที่ผิดพลาด

สามารถใช้รีเกรสชันเชิงเส้นที่เรียบง่ายในรูปแบบความสัมพันธ์ระหว่างสองตัวแปรเช่นเหล่านี้

  • ปริมาณน้ำฝนและผลผลิตพืช
  • อายุและความสูงในเด็ก
  • อุณหภูมิและการขยายตัวของปรอทโลหะในเครื่องวัดอุณหภูมิ

รีเกรสชันเชิงหลายเส้น

ในการวิเคราะห์รีเกรสชันเชิงหลายเส้น ชุดข้อมูลที่มีตัวแปรหนึ่งขึ้นอยู่กับและตัวแปรอิสระหลาย ฟังก์ชันเส้นรีเกรสชันเชิงเส้นจะเปลี่ยนแปลงไปรวมถึงปัจจัยอื่นๆ ดังนี้

Y= β0*x0 + β1x1 + β2x2+... βNxN+ ε 

เมื่อจำนวนของตัวแปรทำนายเพิ่มขึ้น ค่าคงที่ β ก็เพิ่มขึ้นตามลําดับ

 รีเกรสชันเชิงหลายเส้นรุ่นหลายตัวแปรและผลกระทบต่อผลลัพธ์

  • ปริมาณน้ำฝน อุณหภูมิ และการใช้ปุ๋ยกับผลผลิตพืช
  • อาหารและการออกกำลังกายเกี่ยวกับโรคหัวใจ
  • การเติบโตของค่าจ้างและอัตราเงินเฟ้อในอัตราเงินกู้

รีเกรสชันทางโลจิสติก

นักวิทยาศาสตร์ข้อมูลใช้รีเกรสชันโลจิสติกในการวัดความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้น การคาดคะเนเป็นค่าระหว่าง 0 ถึง 1 โดยที่ 0 แสดงเหตุการณ์ที่ไม่น่าจะเกิดขึ้น และ 1 แสดงถึงความน่าจะเป็นสูงสุดที่จะเกิดขึ้น สมการโลจิสติกใช้ฟังก์ชั่นลอการิทึมในการคำนวณเส้นรีเกรสชัน

ต่อไปนี้เป็นตัวอย่างบางส่วน:

  • ความน่าจะเป็นของการชนะหรือแพ้ในการแข่งขันกีฬา
  • ความน่าจะเป็นของการผ่านหรือล้มเหลวในการทดสอบ 
  • ความน่าจะเป็นของภาพที่เป็นผลไม้หรือสัตว์

AWS สามารถช่วยแก้ปัญหารีเกรสชันเชิงเส้นได้อย่างไร

Amazon SageMaker เป็นบริการที่มีการจัดการอย่างเต็มรูปแบบที่สามารถช่วยให้เตรียมพร้อม สร้าง ฝึกอบรม และปรับใช้โมเดลการเรียนรู้ของเครื่องจักร (ML) คุณภาพสูงได้อย่างรวดเร็ว Amazon SageMaker Autopilot เป็นโซลูชัน ML อัตโนมัติทั่วไปสำหรับปัญหาการจำแนกประเภทและรีเกรสชันเช่นการตรวจจับการฉ้อโกง การวิเคราะห์ปั่น และการตลาดเป้าหมาย 

Amazon Redshift คลังข้อมูลระบบคลาวด์ที่รวดเร็ว ใช้กันอย่างแพร่หลาย บูรณาการกับ Amazon SageMaker สำหรับ ML ด้วย Amazon Redshift ML สามารถใช้คำสั่ง SQL ง่ายๆ ในการสร้างและฝึกอบรมรุ่น ML จากข้อมูลใน Amazon Redshift จากนั้นสามารถใช้รูปแบบเหล่านี้ในการแก้ปัญหาทุกประเภทของปัญหารีเกรสชันเชิงเส้น

เริ่มต้นกับ Amazon SageMaker JumpStart หรือ สร้างบัญชี AWS วันนี้.

ขั้นตอนถัดไปของรีเกรสชันเชิงเส้น AWS

ดูแหล่งข้อมูลที่เกี่ยวกับผลิตภัณฑ์เพิ่มเติม
บริการแมชชีนเลิร์นนิ่งฟรีบน AWS 
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที 

ลงชื่อสมัครใช้งาน 
เริ่มต้นสร้างใน Console

เริ่มต้นสร้างใน AWS Management Console

ลงชื่อเข้าใช้