การค้นหาเอกสารคือการค้นหาที่ทำงานบนข้อความอิสระที่ไม่มีโครงสร้างเป็นหลัก (ไม่ใช่เฉพาะเอกสาร) ไม่ว่าคุณจะค้นหาหน้าเว็บ ค้นหาผลิตภัณฑ์ หรือทำงานกับเนื้อหาที่ดูแลจัดการ คุณใช้เครื่องมือค้นหาเพื่อทำสิ่งนั้น คุณมาที่หน้าเว็บและพิมพ์ในกล่องข้อความค้นหา คลิก "ค้นหา" และคุณจะได้รับ (หวังว่า) รายการที่เกี่ยวข้องซึ่งตรงกับเป้าหมายข้อมูลของคุณ

เครื่องมือค้นหาพัฒนาจากเทคโนโลยีฐานข้อมูล โดยจะเก็บข้อมูลและประมวลผลการสืบค้นกับข้อมูลนั้น ฐานข้อมูลแบบดั้งเดิมทำงานกับเนื้อหาที่มีโครงสร้างเป็นหลัก โดยข้อมูลจะมีการจัดระเบียบเป็นตารางและคอลัมน์ โดยมีสคีมาในตัว งานของฐานข้อมูลคือการดึงข้อมูลแถวทั้งหมด โดยยึดตามการสืบค้นที่ตรงกับค่าในคอลัมน์ เครื่องมือค้นหาทำงานกับข้อมูลที่มีโครงสร้าง (เอกสาร) ซึ่งมีทั้งข้อมูลเมตาและกลุ่มข้อความที่ไม่มีโครงสร้างขนาดใหญ่ (ข้อความอิสระ) เครื่องมือค้นหาใช้กฎทางภาษาศาสตร์เพื่อแบ่งกลุ่มข้อความขนาดใหญ่เหล่านี้เป็นคำที่จับคู่ได้ และเครื่องมือค้นหามาพร้อมกับความสามารถในการจัดอันดับในตัวเพื่อเรียงลำดับผลลัพธ์และผลักดันสิ่งที่ดีที่สุดขึ้นสู่อันดับต้นๆ เมื่อฐานข้อมูลแบบเชิงสัมพันธ์และ NoSQL ดึงผลลัพธ์ทั้งหมด เครื่องมือค้นหาจะดึงผลลัพธ์ที่ดีที่สุด

แอปพลิเคชันของเครื่องมือค้นหาแบ่งออกเป็นสามประเภทใหญ่ๆ ได้แก่ การค้นหาเอกสาร ซึ่งทำงานบนข้อความอิสระที่ไม่มีโครงสร้างเป็นหลัก การค้นหาอีคอมเมิร์ซ ซึ่งทำงานบนการผสมผสานระหว่างข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง และการลดภาระการสืบค้น ซึ่งทำงานบนข้อมูลที่มีโครงสร้างเป็นส่วนใหญ่

การค้นหาเอกสารทำงานกับข้อมูลเมตาได้หรือไม่

ในการค้นหาเอกสาร คุณจะค้นหาข้อมูลในเอกสารหลัก ซึ่งอาจเป็นย่อหน้าเดียวหรือยาวหลายร้อยหน้าก็ได้ เอกสารรวมถึงช่องอื่นๆ ที่หลากหลาย รวมถึงช่องข้อความที่ไม่มีโครงสร้าง (ชื่อและบทสรุป) ช่องกึ่งโครงสร้าง (ผู้สร้าง) และช่องที่มีโครงสร้าง (วันที่เผยแพร่ กลุ่มต้นกำเนิด หมวดหมู่) —ข้อมูลเมตา ในการสอบถามผู้ใช้ เครื่องมือค้นหาจะจัดการทั้งข้อความและข้อมูลเมตา

การเตรียมข้อมูล การนำเข้า และความเกี่ยวข้องในการค้นหาเป็นอุปสรรคสำคัญสองประการในการค้นหาเอกสาร

เนื้อความของเอกสาร (Corpus) ที่ใช้ในกรณีการใช้งานการค้นหาเอกสารประกอบด้วยข้อมูลที่ผู้ใช้สร้างขึ้นหรือข้อมูลที่ไม่ได้รวบรวมไว้ทั้งหมด เนื้อหานี้มักมีการพิมพ์ผิดและข้อผิดพลาด การซ้ำซ้อน และข้อมูลที่ไม่สมเหตุสมผล ข้อมูลจะต้องได้รับการดูแลจัดการ ล้างข้อมูล และทำให้เป็นมาตรฐานก่อนที่จะโหลดลงในเครื่องมือค้นหา คุณต้องป้อนข้อมูลที่เตรียมไว้ลงในเครื่องมือค้นหาหลังจากที่ได้เตรียมข้อมูลแล้ว (โดยการเรียก API การส่งผ่านข้อมูล) สุดท้าย คุณต้องมีกระบวนการในการอัปเดตเอกสารเมื่อมีการเปลี่ยนแปลง

การเรียกใช้เอกสารที่เกี่ยวข้องกับคำค้นหาของผู้ใช้เป็นจุดประสงค์พื้นฐานของการค้นหาเอกสาร หรือความเกี่ยวข้องในการค้นหา เอกสารที่ตรงกันทั้งหมดจะถูกให้คะแนนและจัดเรียงตามเครื่องมือค้นหาในระหว่างการดึงข้อมูลโดยใช้เมตริกทางสถิติ (BM25) ความแตกต่างของคำค้นหารวมกับความถี่ในเอกสารที่ตรงกับคำค้นหาใน BM25 ยิ่งคะแนนของข้อความค้นหามากเท่าใด ก็ยิ่งตรงกับวลีที่มีความเฉพาะมากขึ้นเท่านั้น คุณต้องแก้ไขระบบการให้คะแนนสำหรับชุดข้อมูลเฉพาะของคุณโดยใช้แนวทางแมชชีนเลิร์นนิง (ML) เพื่อเพิ่มอันดับให้กับคุณ คุณต้องการผลลัพธ์ที่ดีที่สุดเนื่องจากการค้นหาดีเท่ากับเอกสารที่เกี่ยวข้องเท่านั้น

กรณีการใช้งานการค้นหาอื่นๆ คืออะไร

การค้นหาสำหรับอีคอมเมิร์ซ 

ให้คุณไปที่เครื่องมือค้นหาสำหรับอีคอมเมิร์ซเพื่อค้นหาและซื้อผลิตภัณฑ์จากแค็ตตาล็อกผลิตภัณฑ์ที่มีอยู่ ผลิตภัณฑ์เหล่านี้ประกอบด้วยช่องข้อมูลเมตาหลายรายการ เช่น ขนาด สี แบรนด์ และอื่นๆ ตลอดจนช่องข้อมูลที่ยาวขึ้น เช่น ชื่อ คำอธิบายผลิตภัณฑ์ และรีวิว หน้าที่หลักของเครื่องมือค้นหาคือการดึงผลลัพธ์ที่เกี่ยวข้องมากที่สุดมาช่วยสร้างรายได้ นักออกแบบเว็บไซต์ใช้เครื่องมือมากมายเพื่อสร้างฟังก์ชันที่เกี่ยวข้องกัน ตั้งแต่ค่าตัวเลขแบบฝัง ไปจนถึงโมเดล ML ตามพฤติกรรมของผู้ใช้

เว็บไซต์อีคอมเมิร์ซมักเพิ่มการค้นหาแบบแฟเซ็ตเพื่อปรับปรุงประสบการณ์ของผู้ใช้ปลายทาง โดยเครื่องมือค้นหาจะแสดงการจัดกลุ่มจำนวนของค่าในช่องต่างๆ (ขนาด สี และอื่นๆ) และ UI จะแสดงรายการแบบคลิกได้แก่ผู้ใช้ซึ่งมักใช้เพื่อจำกัดผลลัพธ์ให้แคบลง

การค้นหาบางประเภทสำหรับอีคอมเมิร์ซมักขึ้นอยู่กับการปรับให้เหมาะกับแต่ละบุคคลและคำแนะนำเป็นส่วนใหญ่ หากผู้ซื้อค้นหาคำว่า "เดรส" เครื่องมือค้นหาควรค้นหาเดรสแบบต่างๆ ที่ลูกค้าอาจสนใจ แม้ว่าคำค้นหานั้นจะปลายเปิดมากก็ตาม ทั้งนี้ ตัวชี้วัดความคล้ายกัน เช่น k-Nearest Neighbors (k-NN) สามารถช่วยในเรื่องนี้ได้

การค้นหาชุดข้อมูลที่รวบรวมไว้

การค้นหาชุดข้อมูลที่รวบรวมไว้ เช่น ที่เก็บเอกสารขององค์กร (ข้อมูลการทดลองทางคลินิก ข้อสรุปทางกฎหมาย อสังหาริมทรัพย์ และอื่นๆ) เครื่องมือค้นหาจะมีกฎทางภาษาศาสตร์และฟีเจอร์เฉพาะภาษาอื่นๆ ที่ช่วยแบ่งกลุ่มข้อความขนาดใหญ่ออกเป็นคำที่เป็นส่วนประกอบ (คำจากช่องหรือกลุ่มข้อความขนาดใหญ่) สำหรับการจับคู่ การใช้ภาษาที่ครบถ้วนในการค้นหาช่วยให้สามารถค้นหากลุ่มข้อความขนาดใหญ่เหล่านี้เพื่อหาวลีจากคำต่างๆ รวมกัน เช่น "เดรสยาวแขนกุด" แต่เครื่องมือค้นหาไม่ได้ดึงทุกสิ่งที่ตรงกัน แต่ใช้การให้คะแนนที่เกี่ยวข้องเพื่อจัดอันดับและจัดเรียงเอกสาร แล้วส่งคืนเฉพาะรายการที่ตรงกันที่สุด

การถ่ายข้อมูลการสืบค้น

เครื่องมือค้นหามีโครงสร้างข้อมูลเฉพาะเพื่อช่วยในการค้นหาข้อมูลปริมาณมากและเวลาแฝงต่ำ ดัชนีแบบแปลงกลับเป็นส่วนที่สำคัญที่สุดของโครงสร้างเหล่านี้ เนื่องจากจะแมปแต่ละคำเป็นรายการเอกสารที่มีคำเหล่านั้น และด้วยโครงสร้างข้อมูลเหล่านี้ เครื่องมือค้นหาจึงมีประสิทธิภาพในการประมวลผลการสืบค้นเหนือกว่าฐานข้อมูลเชิงสัมพันธ์ ข้อเสียคือเครื่องมือค้นหาไม่ใช่เครื่องมือเชิงสัมพันธ์ ฐานข้อมูลเชิงสัมพันธ์และเครื่องมือค้นหานั้นมักนำมาใช้งานโดยทั่วไป คุณใช้ฐานข้อมูลแบบเชิงสัมพันธ์เพื่อให้บริการข้อมูลแอปพลิเคชัน และใช้เครื่องมือค้นหาเพื่อมอบการค้นหาที่มีความหน่วงแฝงต่ำและมีความเกี่ยวข้องกับข้อมูลนั้น

การสร้างประสบการณ์การค้นหาที่น่าพึงพอใจและครบถ้วนนั้นต้องใช้ฟังก์ชันงานมากมาย นักพัฒนาจึงผสานรวมโซลูชันการค้นหา สร้างอินเทอร์เฟซการค้นหา และทำความเข้าใจวิธีจัดรูปแบบข้อมูลเพื่อให้ได้ผลลัพธ์การค้นหาที่ดีที่สุด ผู้จัดการผลิตภัณฑ์ให้ข้อกำหนดสำหรับการจัดระเบียบข้อมูลเมตาและอินเทอร์เฟซผู้ใช้ นักวิทยาศาสตร์ด้านข้อมูลจะมีหน้าที่ดูแลจัดการแหล่งข้อมูล ตลอดจนติดตามและทำงานกับพฤติกรรมของผู้ใช้ ทีมผลิตภัณฑ์และการพัฒนาได้รับการชี้นำโดย KPI ของธุรกิจที่กำหนดโดยผู้บริหาร เพื่อให้บรรลุวัตถุประสงค์ทางธุรกิจของเครื่องมือค้นหา

เครื่องมือการค้นหาได้รับการปรับให้เหมาะสมกับคำที่ตรงกัน เมื่อจับคู่ "8" "ฟุต" และ "โซฟา" การค้นหา "โซฟา 8-ฟุต" ควรแสดงผลลัพธ์เป็นโซฟา 8 ฟุต การดำเนินการนี้คือการค้นหาด้วยคำหลัก หลายครั้งที่ผู้คนต้องการค้นหาด้วยความหมายเนื่องจากไม่แน่ใจในคำที่ตนต้องการ การค้นหาแบบอรรถศาสตร์เป็นเทคโนโลยีล้ำสมัยของการค้นหาและการเรียนรู้ของเครื่อง ด้วยการค้นหาเชิงความหมาย คุณอาจพบผลิตภัณฑ์อย่างเช่น โซฟาขนาด 8 ฟุตโดยใช้ข้อความค้นหา เช่น "ที่นั่งข้างกองไฟแสนสบาย"

การค้นหาความหมายต้องใช้เทคนิคการเรียนรู้ของเครื่อง คุณต้องสร้างพื้นที่เวกเตอร์ของรายการและการสืบค้น จากนั้นใช้การคำนวณความคล้ายคลึงของเวกเตอร์เพื่อค้นหารายการที่ใกล้เคียงในพื้นที่นั้น เมื่อใช้การค้นหาเวกเตอร์ เอกสารจึงไม่จำเป็นต้องมีคำหรือคำพ้องความหมายใดๆ กับคำค้นหาเพื่อให้มีความเกี่ยวข้อง ตัวอย่างเช่น การค้นหา "การบำรุงรักษาจักรยาน" อาจตรงกับเอกสารเกี่ยวกับ "การหล่อลื่นตัวเปลี่ยนเกียร์" เนื่องจากอัลกอริธึม ML รู้ว่า "การหล่อลื่นตัวเปลี่ยนเกียร์" มักเกิดขึ้นใกล้กับการพูดคุยเกี่ยวกับการบำรุงรักษาจักรยาน

คุณจะพัฒนาผลการค้นหาของคุณให้ดีขึ้นได้อย่างไร

กุญแจสำคัญสู่การค้นหาเอกสารและอีคอมเมิร์ซที่มีประสิทธิภาพคือความเกี่ยวข้อง กล่าวคือ ผลการค้นหาตรงกับความต้องการของผู้ค้นหาหรือไม่ เครื่องมือค้นหาจะแสดงผลลัพธ์ที่ดีที่สุดโดยใช้เทคนิคต่างๆ การดำเนินการนี้เรียกว่าการจัดอันดับความเกี่ยวข้อง ฐานข้อมูลจะส่งทุกสิ่งที่ตรงกันกลับมา และเครื่องมือค้นหาจะได้รับการปรับให้เหมาะสมสำหรับการให้คะแนนรายการที่เกี่ยวข้อง

  • การถ่วงน้ำหนักส่วนต่างช่วยให้คุณทำการค้นหาได้ในหลายๆ ช่อง ตัวอย่างเช่น เมื่อค้นหาฐานข้อมูลภาพยนตร์ คุณอาจต้องการใช้ตัวแปรหลายอย่าง เช่น ชื่อเรื่อง ผู้กำกับ และนักแสดง และให้น้ำหนักที่ตรงกันกับชื่อเรื่องมากกว่านักแสดงที่ตรงกัน
  • พิจารณาปรับผลการค้นหาเพื่อความเป็นปัจจุบัน เพิ่มช่องวันที่เผยแพร่ให้กับดัชนีของคุณและฟังก์ชันการกระจายแบบเอกซ์โพเนนเชียลตามวันที่นั้นในฟังก์ชันการให้คะแนนของคุณ
  • เพื่อช่วยเหลือผู้บริโภคของคุณในการเจาะลึกในด้านต่างๆ ให้นึกถึงการเพิ่มแง่มุมหรือตัวกรองในผลการค้นหาของคุณ ที่ด้านซ้ายของหน้าผลการค้นหา หมวดหมู่มักแสดงเป็นตัวเลือกแฟเซ็ทในเครื่องมือค้นหาเอกสารจำนวนมาก
  • พิจารณาเพิ่มคำพ้องความหมาย คำพ้องความหมายสามารถช่วยให้ผู้ใช้ปลายทางของคุณพบผลลัพธ์ที่ต้องการ ด้านเสื้อผ้า tee คือ T-shirt หรือ teeshirt ผู้ใช้ปลายทางของคุณควรพบผลลัพธ์เดียวกันไม่ว่าจะค้นหาด้วยคำว่า “tee” หรือ “t-shirt” ก็ตาม การเพิ่มคำพ้องความหมายสามารถส่งผลลัพธ์เหล่านี้กลับคืนได้

การค้นหาเอกสารครอบคลุมถึงแอปพลิเคชันต่างๆ มากมาย

  • เว็บไซต์อีคอมเมิร์ซใช้การค้นหาเอกสารเพื่อดึงข้อมูลผลิตภัณฑ์ที่ผู้ใช้ต้องการซื้อ
  • เว็บไซต์รูปภาพใช้การค้นหาเอกสารเพื่อค้นหารูปภาพตามข้อมูลเมตา เช่น ชื่อและคำอธิบาย หรือแม้แต่ตามเวกเตอร์รูปภาพที่ตรงกัน
  • ผู้ใช้กฎหมายใช้การค้นหาเอกสารเพื่อค้นหากฎหมายที่เกี่ยวข้อง
  • แพทย์ใช้การค้นหาเอกสารเพื่อค้นหายาสำหรับอาการของผู้ป่วย
  • โซลูชันการจัดการลูกค้าสัมพันธ์ (CRM) ใช้การค้นหาเอกสารเพื่อเรียกใช้บันทึก การดำเนินการ และลูกค้าเพื่อกำหนดเป้าหมาย

เมื่อคุณต้องการค้นหาบางสิ่ง ให้ใช้เครื่องมือค้นหา!

  • Amazon OpenSearch Service คือชุดเครื่องมือสำหรับนักพัฒนาที่ต้องการสร้างโซลูชันการค้นหา
  • Amazon Kendra เป็นโซลูชันที่พร้อมใช้งานทันทีสำหรับการค้นหาอัจฉริยะ
  • Amazon CloudSearch มีไว้สำหรับการค้นหาแบบง่าย

ขั้นตอนต่อไปบนการค้นหาเอกสาร AWS

ดูแหล่งข้อมูลเพิ่มเติมเกี่ยวกับทรัพยากรของผลิตภัณฑ์
ดูข้อเสนอฟรีเกี่ยวกับบริการฐานข้อมูลในระบบคลาวด์ 
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที 

ลงชื่อสมัครใช้งาน 
เริ่มต้นสร้างใน Console

เริ่มต้นสร้างใน AWS Management Console

ลงชื่อเข้าใช้