OCR (การรู้จำอักขระด้วยแสง) คืออะไร

การรู้จำอักขระด้วยแสง (OCR) เป็นกระบวนการที่แปลงภาพของข้อความให้เป็นรูปแบบข้อความที่เครื่องอ่านได้ ตัวอย่างเช่น หากคุณสแกนแบบฟอร์มหรือใบเสร็จ คอมพิวเตอร์ของคุณจะบันทึกการสแกนดังกล่าวเป็นไฟล์รูปภาพ คุณไม่สามารถใช้ตัวแก้ไขข้อความเพื่อแก้ไข ค้นหา หรือนับคำในไฟล์รูปภาพได้ อย่างไรก็ตาม คุณสามารถใช้ OCR เพื่อแปลงรูปภาพเป็นเอกสารข้อความที่มีการจัดเก็บเนื้อหาเป็นข้อมูลตัวอักษรได้

เหตุใด OCR จึงมีความสำคัญ

เวิร์กโฟลว์ทางธุรกิจส่วนใหญ่เกี่ยวข้องกับการรับข้อมูลจากสื่อสิ่งพิมพ์ แบบฟอร์มกระดาษ ใบแจ้งหนี้ เอกสารทางกฎหมายที่สแกนไว้ และสัญญาที่พิมพ์ออกมาล้วนเป็นส่วนหนึ่งของกระบวนการทางธุรกิจ เอกสารมากมายเหล่านี้ต้องใช้เวลาและพื้นที่ในการจัดเก็บและจัดการเป็นจำนวนมาก แม้ว่าการจัดการเอกสารแบบไม่ใช้กระดาษจะเป็นแนวทางที่ดี แต่การสแกนเอกสารเป็นรูปภาพนั้นก็มีอุปสรรคมากมายไม่แพ้กัน โดยกระบวนการดังกล่าวต้องอาศัยการดำเนินการด้วยตนเอง และอาจมีความยุ่งยากและใช้เวลานาน

นอกจากนี้ การแปลงเนื้อหาเอกสารนี้ให้เป็นแบบดิจิทัลจะสร้างไฟล์รูปภาพที่มีข้อความซ่อนอยู่ภายใน ซึ่งข้อความในรูปภาพไม่สามารถประมวลผลด้วยซอฟต์แวร์ประมวลผลคำในลักษณะเดียวกับเอกสารข้อความได้ เทคโนโลยี OCR จะแก้ปัญหาดังกล่าวด้วยการแปลงรูปภาพข้อความเป็นข้อมูลตัวอักษรที่สามารถวิเคราะห์ได้โดยซอฟต์แวร์ทางธุรกิจอื่นๆ คุณจึงสามารถใช้ข้อมูลดังกล่าวเพื่อทำการพินิจพิเคราะห์ ปรับการดำเนินงานให้มีประสิทธิภาพขึ้น ทำให้กระบวนการเป็นไปโดยอัตโนมัติ และปรับปรุงประสิทธิภาพการทำงาน

OCR ทำงานอย่างไร

โปรแกรม OCR หรือซอฟต์แวร์ OCR ทำงานโดยมีขั้นตอนดังต่อไปนี้:

การรับภาพ

ตัวสแกนจะอ่านเอกสารและแปลงเป็นข้อมูลไบนารี จากนั้นซอฟต์แวร์ OCR จะวิเคราะห์ภาพที่สแกนและระบุส่วนที่สว่างเป็นพื้นหลัง และส่วนที่มืดเป็นข้อความ

กระบวนการก่อนการประมวลผล

ซอฟต์แวร์ OCR จะทำความสะอาดรูปภาพก่อน และลบข้อผิดพลาดออกเพื่อเตรียมรูปภาพสำหรับการอ่าน โดยเทคนิคบางส่วนในการทำความสะอาดรูปภาพมีดังนี้:

  • การปรับเอกสารให้ตรงหรือการเอียงเอกสารที่สแกนเล็กน้อยเพื่อแก้ไขปัญหาการจัดตำแหน่งระหว่างการสแกน
  • การลบนอยส์หรือลบจุดในรูปภาพดิจิทัลออก หรือการปรับขอบของรูปภาพข้อความให้เรียบ
  • การทำความสะอาดช่องและเส้นในรูปภาพ
  • การรู้จำสคริปต์สำหรับเทคโนโลยี OCR แบบหลายภาษา

การรู้จำข้อความ

อัลกอริทึมหรือกระบวนการด้านซอฟต์แวร์ OCR หลักสองประเภทที่ซอฟต์แวร์ OCR ใช้ในการรู้จำข้อความเรียกว่าการจับคู่รูปแบบและการแยกลักษณะ

การจับคู่รูปแบบ

การจับคู่รูปแบบทำงานโดยการแยกภาพอักขระที่เรียกว่ารูปอักษร และเปรียบเทียบกับรูปอักษรที่จัดเก็บไว้ในลักษณะเดียวกัน การรู้จำรูปแบบจะทำงานได้ก็ต่อเมื่อรูปอักษรที่จัดเก็บไว้มีแบบอักษรและมาตราส่วนใกล้เคียงกับรูปอักษรที่ใช้ โดยวิธีการนี้ใช้ได้ดีกับรูปภาพที่สแกนของเอกสารที่พิมพ์ด้วยแบบอักษรที่เป็นที่รู้จัก

การแยกลักษณะ

การแยกลักษณะจะแบ่งหรือแยกย่อยรูปอักษรออกเป็นคุณสมบัติต่างๆ เช่น เส้น วงปิด ทิศทางของเส้น และจุดตัดของเส้น จากนั้นจึงใช้คุณสมบัติเหล่านี้เพื่อค้นหาคู่ที่เหมาะสมที่สุดหรือตำแหน่งข้างเคียงที่ใกล้ที่สุดในบรรดารูปอักษรต่างๆ ที่จัดเก็บไว้

กระบวนการหลังการประมวลผล

หลังจากการวิเคราะห์ ระบบจะแปลงข้อมูลตัวอักษรที่แยกออกมาเป็นไฟล์ที่ใช้ระบบคอมพิวเตอร์ ระบบ OCR บางส่วนสามารถสร้างไฟล์ PDF ที่มีคำอธิบายประกอบซึ่งมีทั้งเวอร์ชันก่อนและหลังของเอกสารที่สแกนได้

OCR มีประเภทใดบ้าง

นักวิทยาศาสตร์ข้อมูลจัดประเภทเทคโนโลยี OCR ประเภทต่างๆ ตามการใช้งานและการประยุกต์ใช้ โดยตัวอย่างเล็กๆ น้อยๆ มีดังต่อไปนี้:

ซอฟต์แวร์รู้จำอักขระด้วยแสงอย่างง่าย

โปรแกรม OCR อย่างง่ายทำงานโดยการจัดเก็บรูปแบบภาพแบบอักษรและข้อความต่างๆ ไว้เป็นเทมเพลต จากนั้นซอฟต์แวร์ OCR จะใช้อัลกอริทึมการจับคู่รูปแบบเพื่อเปรียบเทียบรูปภาพข้อความกับฐานข้อมูลภายในแบบอักขระทีละตัว หากระบบจับคู่ข้อความได้แบบคำต่อคำ ก็จะเรียกวิธีการนี้ว่าการรู้จำคำด้วยแสง แต่โซลูชันนี้มีข้อจำกัดเนื่องจากมีแบบอักษรและลักษณะการเขียนด้วยลายมือที่แทบไม่จำกัด และไม่สามารถบันทึกและจัดเก็บตัวพิมพ์ทุกประเภทไว้ในฐานข้อมูลได้

ซอฟต์แวร์รู้จำอักขระแบบอัจฉริยะ

ระบบ OCR สมัยใหม่ใช้เทคโนโลยีการรู้จำอักขระแบบอัจฉริยะ (ICR) เพื่ออ่านข้อความในลักษณะเดียวกับที่มนุษย์อ่าน ซึ่งจะใช้วิธีการขั้นสูงที่ฝึกฝนเครื่องจักรให้ทำงานเหมือนมนุษย์โดยใช้ซอฟต์แวร์แมชชีนเลิร์นนิง โดยระบบแมชชีนเลิร์นนิงที่เรียกว่านิวรัลเน็ตเวิร์คจะวิเคราะห์ข้อความในหลายระดับ โดยประมวลผลภาพซ้ำๆ ซึ่งจะมองหาลักษณะเฉพาะต่างๆ ของรูปภาพ เช่น เส้นโค้ง จุดตัด และวง และรวมผลลัพธ์ของการวิเคราะห์ระดับต่างๆ เหล่านี้เข้าด้วยกันเพื่อให้ได้ผลลัพธ์สุดท้าย แม้ว่าโดยทั่วไปแล้ว ICR จะประมวลผลรูปภาพทีละอักขระ แต่กระบวนการดังกล่าวมีความรวดเร็ว โดยได้ผลลัพธ์ในไม่กี่วินาที

การรู้จำคำแบบอัจฉริยะ

ระบบการรู้จำคำแบบอัจฉริยะทำงานบนหลักการเดียวกับ ICR แต่จะประมวลผลภาพทั้งคำแทนการประมวลผลภาพล่วงหน้าเป็นอักขระ

การรู้จำเครื่องหมายด้วยแสง

การรู้จำเครื่องหมายด้วยแสงจะระบุโลโก้ ลายน้ำ และสัญลักษณ์ข้อความอื่นๆ ในเอกสาร

OCR มีข้อดีใดบ้าง

ข้อดีที่สำคัญของเทคโนโลยี OCR มีดังต่อไปนี้:

ข้อความที่ค้นหาได้

ธุรกิจต่างๆ สามารถแปลงเอกสารที่มีอยู่และใหม่เป็นคลังความรู้ถาวรที่ค้นหาได้อย่างเต็มรูปแบบ นอกจากนี้ พวกเขายังสามารถประมวลผลฐานข้อมูลตัวอักษรโดยอัตโนมัติโดยใช้ซอฟต์แวร์พินิจพิเคราะห์ข้อมูลเพื่อการประมวลผลความรู้เพิ่มเติมได้อีกด้วย

ประสิทธิภาพการดำเนินงาน

คุณสามารถปรับปรุงประสิทธิภาพได้โดยใช้ซอฟต์แวร์ OCR เพื่อผสานรวมเวิร์กโฟลว์เอกสารและเวิร์กโฟลว์ดิจิทัลภายในธุรกิจของคุณโดยอัตโนมัติ ตัวอย่างบางส่วนของสิ่งต่างๆ ที่ซอฟต์แวร์ OCR สามารถทำได้มีดังนี้:

  • สแกนแบบฟอร์มที่กรอกด้วยลายมือเพื่อตรวจสอบ ตรวจทาน แก้ไข และวิเคราะห์โดยอัตโนมัติ ซึ่งช่วยประหยัดเวลาที่ต้องใช้สำหรับการประมวลผลเอกสารและการป้อนข้อมูลด้วยตนเอง
  • ค้นหาเอกสารที่จำเป็นโดยการค้นหาคำศัพท์ในฐานข้อมูลอย่างรวดเร็ว เพื่อให้คุณไม่ต้องไล่ดูไฟล์ในกล่องด้วยตนเอง
  • แปลงบันทึกย่อที่เขียนด้วยลายมือเป็นข้อความและเอกสารที่แก้ไขได้

โซลูชันปัญญาประดิษฐ์

OCR มักเป็นส่วนหนึ่งของโซลูชันปัญญาประดิษฐ์อื่นๆ ที่ธุรกิจต่างๆ อาจนำไปใช้ ตัวอย่างเช่น OCR จะสแกนและอ่านป้ายทะเบียนและป้ายจราจรในรถยนต์ไร้คนขับ ตรวจหาโลโก้แบรนด์ในโพสต์บนโซเชียลมีเดีย หรือระบุบรรจุภัณฑ์ของผลิตภัณฑ์ในภาพโฆษณา เทคโนโลยีปัญญาประดิษฐ์ดังกล่าวช่วยให้ธุรกิจต่างๆ ตัดสินใจทางการตลาดและการดำเนินงานได้ดีขึ้น ซึ่งช่วยลดค่าใช้จ่ายและปรับปรุงประสบการณ์ของลูกค้า

OCR ใช้สำหรับอะไรบ้าง

กรณีการใช้งาน OCR ทั่วไปบางส่วนในอุตสาหกรรมต่างๆ มีดังต่อไปนี้:

การธนาคาร

อุตสาหกรรมการธนาคารใช้ OCR ในการประมวลผลและตรวจสอบเอกสารสำหรับเอกสารเงินกู้ เช็คเงินฝาก และธุรกรรมทางการเงินอื่นๆ โดยการตรวจสอบนี้ได้ปรับปรุงการป้องกันการปลอมแปลงและยกระดับความปลอดภัยของธุรกรรมให้สูงขึ้น ตัวอย่างเช่น BlueVine เป็นบริษัทเทคโนโลยีทางการเงินที่ให้บริการทางการเงินแก่ธุรกิจขนาดเล็กและขนาดกลาง โดยบริษัทใช้ Amazon Textract ซึ่งเป็นบริการ OCR บนระบบคลาวด์ในการพัฒนาผลิตภัณฑ์สำหรับธุรกิจขนาดเล็กในสหรัฐอเมริกาเพื่อเข้าถึงโปรแกรมให้สินเชื่อเพื่อคุ้มครองธุรกิจ (Paycheck Protection Program หรือ PPP) ได้อย่างรวดเร็ว ซึ่งเป็นส่วนหนึ่งของแผนกระตุ้นเศรษฐกิจเพื่อบรรเทาผลกระทบจาก COVID-19 ซึ่ง Amazon Textract ประมวลผลและวิเคราะห์แบบฟอร์ม PPP หลายหมื่นรายการต่อวันโดยอัตโนมัติ เพื่อให้ BlueVine สามารถช่วยให้ธุรกิจหลายพันรายได้รับเงินทุน พร้อมทั้งรักษาสภาพการจ้างงาน 400,000 ตำแหน่งไปในตัว

การดูแลสุขภาพ

อุตสาหกรรมการดูแลสุขภาพใช้ OCR เพื่อประมวลผลบันทึกผู้ป่วย รวมถึงการรักษา การทดสอบ บันทึกของโรงพยาบาล และการชำระเงินประกัน โดย OCR ช่วยปรับปรุงเวิร์กโฟลว์ให้มีประสิทธิภาพมากขึ้นและลดการทำงานด้วยตนเองที่โรงพยาบาลในขณะที่ยังคงดูแลให้บันทึกทันสมัยอยู่เสมอ ตัวอย่างเช่น nib Group ให้การประกันสุขภาพและการรักษาพยาบาลแก่ชาวออสเตรเลียกว่า 1 ล้านคนและได้รับการเรียกร้องค่ารักษาพยาบาลหลายพันรายการต่อวัน ซึ่งลูกค้าสามารถถ่ายรูปใบกำกับยาและส่งผ่านแอปมือถือของ nib ได้ จากนั้น Amazon Textract จะประมวลผลรูปภาพเหล่านี้โดยอัตโนมัติเพื่อให้บริษัทอนุมัติการเรียกร้องเหล่านี้ได้รวดเร็วยิ่งขึ้น

โลจิสติกส์

บริษัทโลจิสติกส์ใช้ OCR เพื่อติดตามฉลากบรรจุภัณฑ์ ใบแจ้งหนี้ ใบเสร็จ และเอกสารอื่นๆ ได้อย่างมีประสิทธิภาพมากขึ้น ตัวอย่างเช่น Foresight Group ใช้ Amazon Textract เพื่อทำให้การประมวลผลใบแจ้งหนี้ใน SAP เป็นไปโดยอัตโนมัติ การป้อนข้อมูลในเอกสารทางธุรกิจเหล่านี้ด้วยตนเองใช้เวลานานและเกิดข้อผิดพลาดได้ง่าย เนื่องจากพนักงานของ Foresight ต้องป้อนข้อมูลในระบบบัญชีหลายระบบ Amazon Textract ช่วยให้ซอฟต์แวร์ Foresight สามารถอ่านอักขระได้แม่นยำยิ่งขึ้นในเค้าโครงต่างๆ มากมาย ซึ่งช่วยเพิ่มประสิทธิภาพทางธุรกิจ

AWS สามารถช่วยคุณในการใช้งาน OCR ได้อย่างไร

AWS เสนอบริการ 2 อย่างที่สามารถช่วยคุณปรับใช้ OCR ในธุรกิจได้:

Amazon Textract คือบริการแมชชีนเลิร์นนิง (ML) ที่ใช้ OCR เพื่อแยกข้อความ ข้อความที่เขียนด้วยลายมือ และข้อมูลโดยอัตโนมัติจากเอกสารที่สแกน เช่น PDF โดยสามารถอ่านเอกสารหลายพันฉบับในเค้าโครงและรูปแบบที่หลากหลายด้วยความเร็วสูง เมื่อดึงข้อมูลจากเอกสารแล้ว Amazon Textract จะส่งคืนคะแนนความเชื่อมั่นสำหรับทุกสิ่งที่ระบุได้ เพื่อให้คุณสามารถตัดสินใจโดยใช้ข้อมูลได้ว่าต้องการใช้ผลลัพธ์อย่างไร

Amazon Rekognition สามารถวิเคราะห์รูปภาพและวิดีโอนับล้านรายการได้ในเวลาไม่กี่นาที และเสริมประสิทธิภาพงานตรวจสอบภาพโดยมนุษย์ด้วยปัญญาประดิษฐ์ คุณสามารถใช้ Amazon Rekognition API เพื่อแยกข้อความจากทั้งรูปภาพและวิดีโอได้ โดยคุณสามารถแยกข้อความที่บิดเบี้ยวและผิดเพี้ยนได้จากรูปภาพและวิดีโอของป้ายสัญลักษณ์บนถนน โพสต์บนโซเชียลมีเดีย และบรรจุภัณฑ์ของผลิตภัณฑ์

เริ่มต้นใช้งาน OCR บน AWS ด้วยการสร้างบัญชี AWS วันนี้

ขั้นตอนถัดไปสำหรับ AWS Machine Learning

Standard Product Icons (Features) Squid Ink
ดูแหล่งข้อมูลที่เกี่ยวข้องกับผลิตภัณฑ์เพิ่มเติม
ดูเพิ่มเติมเกี่ยวกับบริการแมชชีนเลิร์นนิง 
Sign up for a free account
ดูบริการแมชชีนเลิร์นนิงฟรี

เข้าถึงบริการแมชชีนเลิร์นนิงฟรีได้ทันทีด้วย AWS Free Tier

เริ่มต้นใช้งานฟรี 
Standard Product Icons (Start Building) Squid Ink
เริ่มต้นการสร้างใน Console

เริ่มต้นสร้างด้วย SageMaker ใน AWS Management Console

ลงชื่อสมัครใช้งาน