Попробуйте Amazon CloudSearch бесплатно

Попробуйте бесплатную пробную версию CloudSearch
Подробнее

Получите 750 бесплатных часов работы с полнофункциональным поисковым инстансом в течение 30 дней. Для начала работы выполните следующие шаги.

Войдите в свой аккаунт AWS и запустите консоль сервиса CloudSearch.

С помощью нескольких щелчков создайте и настройте поисковый домен.

Загружайте данные и отправляйте запросы на поиск или обновление информации с помощью консоли, AWS SDK или интерфейса командной строки.


Вопрос: Что такое Amazon CloudSearch?

Amazon CloudSearch – это полностью управляемый сервис в облаке AWS, позволяющий легко настраивать, управлять и масштабировать поисковые решения для веб-сайтов или приложений.

Вопрос: Каковы преимущества использования управляемого поискового сервиса типа Amazon CloudSearch по сравнению с моим собственным поисковым сервисом на EC2?

 

Amazon CloudSearch обладает рядом преимуществ по сравнению с самостоятельно управляемыми поисковыми сервисами. В их числе простота настройки, автоматическое масштабирование в зависимости от объема данных и трафика, самовосстанавливающиеся кластеры и высокая доступность в силу использования нескольких зон доступности. С помощью нескольких щелчков в Консоли управления AWS можно создать поисковый домен и загрузить данные для поиска, после чего Amazon CloudSearch автоматически выделит необходимое количество ресурсов и выполнит развертывание идеально настроенного поискового индекса.

Вопрос: Что такое поисковая система?

Поисковая система обеспечивает быстрый поиск наиболее подходящих результатов в больших наборах преимущественно текстовых элементов (документов). Поисковые запросы обычно представляют собой неструктурированный текст, состоящий из нескольких слов, например «мэтт деймон фильмы». Возвращаемые результаты обычно ранжируются по степени совпадения, то есть более подходящие элементы (элементы, содержание которых в наибольшей степени соответствует ключевым словам поискового запроса) отображаются в списке первыми.

Документы могут быть совершенно неструктурированными или содержать несколько полей, поиск по которым по желанию может выполняться отдельно. Например, поисковый сервис для кинофильмов может использовать документы с полями для названия, режиссера, актеров, описания и рецензий. Результаты, возвращаемые поисковой системой, обычно являются записями-посредниками для исходных документов, например URL-адресами, ссылающимися на конкретные веб-страницы. Однако поисковый сервис может возвращать и сам контент отдельных полей.

Вопрос: Каковы преимущества использования сервиса Amazon CloudSearch?

Amazon CloudSearch – это полностью управляемый поисковый сервис, автоматически масштабирующийся в зависимости от объема данных и сложности поискового запроса для быстрого получения точных результатов. Amazon CloudSearch позволяет пользователям расширить возможности поиска и при этом не заботиться об управлении узлами, трафиком, масштабированием, резервированием или программными пакетами. При работе с сервисом с пользователей взимается небольшая почасовая оплата только за реально используемые ресурсы. Amazon CloudSearch предлагает значительно более низкую совокупную стоимость владения по сравнению с использованием и обслуживанием собственной поисковой среды.

Вопрос: Можно ли использовать сервис Amazon CloudSearch совместно с сервисом хранения данных?

Поисковый сервис и сервис хранения взаимно дополняют друг друга. Поисковый сервис требует, чтобы ваши документы где-то хранились: в виде файлов файловой системы, данных Amazon S3 или записей баз данных Amazon DynamoDB или инстанса Amazon RDS. Поисковый сервис представляет собой систему быстрого извлечения данных, обеспечивающую выполнение поиска по этим документам с задержкой, измеряемой долями секунды, с помощью так называемого индексирования.

Вопрос: Можно ли использовать Amazon CloudSearch для поиска в базе данных?

Поисковые системы и базы данных не противоречат друг другу – более того, они часто используются совместно. Если есть база данных, содержащая структурированные данные, можно использовать поисковую систему для интеллектуальной выборки и ранжирования содержимого базы данных, используя ключевые слова поискового запроса в качестве критериев релевантности.

Поисковый сервис можно использовать для индексирования данных и поиска как по структурированным, так и по неструктурированным данным. Поиск может выполняться по данным, находящимся в нескольких источниках, включая поля баз данных, файлы различных форматов, веб-страницы и т. д. Поисковый сервис может поддерживать настраиваемое ранжирование результатов, а также специальные возможности поиска, например не поддерживаемое базами данных использование фасетов для фильтрации.

Вопрос: В каких регионах доступен сервис Amazon CloudSearch?

Amazon CloudSearch доступен в следующих регионах AWS: Восток США (Сев. Вирджиния), Запад США (Орегон), Запад США (Сев. Калифорния), ЕС (Ирландия), ЕС (Франкфурт), Южная Америка (Сан-Паулу), Азия и Тихий океан (Сингапур, Токио, Сидней и Сеул).


Вопрос: Какие новые возможности поддерживает Amazon CloudSearch?

Последняя версия Amazon CloudSearch поддерживает несколько новых возможностей поиска и администрирования. Главные новые возможности.

  • Языковая поддержка
    • 34 языка, плюс возможность обработки полей со смешанными языками.
    • Настройка языков для отдельных полей.
    • Анализ текста с учетом специфики конкретного языка.
    • Для многих языков доступно несколько уровней алгоритмического стемминга, включая уровень «без стемминга».
  • Расширенные возможности поиска
    • Подсказки.
    • Подсветка совпадений.
    • Геопространственный поиск.
    • Новые типы данных: дата, числа двойной точности, 64-разрядное целое число со знаком, географические координаты.
    • Поиск фраз с неточным совпадением.
    • Повышение значимости термина.
    • Улучшенный поиск по диапазону значений для всех типов полей.
    • Поддержка нескольких анализаторов запросов: простого, структурированного, Lucene и DisMax.
    • Настройка конфигурации анализатора запросов.
  • Административные возможности
    • Вариант обеспечения высокой доступности.
    • Интеграция с IAM
    • Настраиваемое пользователем масштабирование.
  • Доступность в дополнительных регионах AWS: Азия и Тихий океан (Токио), Азия и Тихий океан (Сингапур), Азия и Тихий океан (Сидней) и Южная Америка (Сан-Паулу).

Вопрос: Продолжает ли Amazon CloudSearch поддерживать стемминг на основе словарей?

Да. Новая версия сервиса Amazon CloudSearch в дополнение к алгоритмическому стеммингу поддерживает стемминг на основе словарей.

Вопрос: Используется ли Apache Solr в новой версии Amazon CloudSearch?

Да. Последняя версия Amazon CloudSearch была доработана для использования Apache Solr в качестве базовой текстовой поисковой системы. Amazon CloudSearch в настоящее время предоставляет несколько популярных поисковых возможностей, доступных за счет использования Apache Solr, в дополнение к возможностям управляемого поискового сервиса, обеспечивающим легкость настройки, использования и масштабирования поискового домена.

Вопрос: Можно ли получить доступ к новой версии Amazon CloudSearch через консоль?

Да. Доступ к новой версии Amazon CloudSearch можно получить через консоль. Клиенты, использующие сервис Amazon CloudSearch с уже существующими поисковыми доменами, могут выбрать, какую версию Amazon CloudSearch использовать при создании новых поисковых доменов. Новые клиенты будут использовать новую версию Amazon CloudSearch по умолчанию, и не будут иметь доступа к версии 2011-01-01.

Вопрос: Какие типы данных поддерживает новая версия Amazon CloudSearch?

Amazon CloudSearch поддерживает два типа текстовых полей: text и literal. При обработке полей типа text выполняется выделение отдельных слов, которые будут использоваться для анализа совпадений в запросе (в зависимости от языка, указанного для поля). Поля типа literal не обрабатываются и должны совпадать точно, включая регистр. CloudSearch также поддерживает четыре числовых типа данных: int, double, date и latlon. Поля типа int содержат 64-разрядные целые числа со знаком. Поля типа double содержат числа с плавающей точкой двойной точности. Поля типа date содержат даты, указанные в формате UTC (всемирное скоординированное время) согласно стандарту IETF RFC3339: yyyy-mm-ddT00:00:00Z. Поля типа latlon содержат два значения, широту и долготу местоположения.

Вопрос: Будет ли продолжать работать существующий поисковый домен, созданный в версии 2011-02-01 сервиса Amazon CloudSearch?

Да. Существующие поисковые домены, созданные в версии 2011-02-01 сервиса Amazon CloudSearch, будут продолжать работать.

Вопрос: Можно ли использовать новые возможности на существующем поисковом домене, созданном в версии 2011-01-01 сервиса Amazon CloudSearch?

Нет. Существующие поисковые домены, созданные в версии 2011-01-01 сервиса Amazon CloudSearch, не буду иметь доступа к возможностям, предоставляемым в новой версии. Для получения доступа к новым возможностям необходимо создать новый поисковый домен, используя версию 2013-01-01 сервиса Amazon CloudSearch.

Вопрос: Как можно перевести приложения, созданные с помощью версии 2011-01-01 Amazon CloudSearch, на новую версию Amazon CloudSearch?

Для использования новой версии сервиса Amazon CloudSearch необходимо пересоздать существующие домены, используя новую версию Amazon CloudSearch, и повторно загрузить данные. Подробнее см. в разделе «Переход на API версии 2013-01-01» Руководства разработчика по Amazon CloudSearch.

 

 

Вопрос: Будет ли AWS продолжать поддержку версии 2011-02-01 сервиса Amazon CloudSearch?

Да. AWS будет продолжать поддержку версии 2011-02-01 сервиса Amazon CloudSearch.

 

Вопрос: Можно ли создать новый поисковый домен, используя версию 2011-02-01 сервиса Amazon CloudSearch?

Пользователи сервиса Amazon CloudSearch, имеющие поисковые домены версии 2011-02-01, будут иметь возможность выбрать, какую версию будут использовать новые домены, API 2011-02-01 или новую версию API 2013-01-01. Поисковые домены, созданные новыми клиентами, автоматически будут создаваться с версией API 2013-01-01.

Вопрос: Можно ли воспользоваться бесплатной пробной версией в новой версии сервиса Amazon CloudSearch?

Новые клиенты смогут воспользоваться бесплатной пробной версией сервиса Amazon CloudSearch. Подробнее см. на стр.Бесплатная пробная версия Amazon CloudSearch.


Вопрос: Как начать работу с Amazon CloudSearch?

Для регистрации в сервисе Amazon CloudSearch нажмите кнопку Создать бесплатный аккаунт на странице описания сервиса Amazon CloudSearch и пройдите процедуру регистрации. При этом вы должны иметь аккаунт Amazon Web Services. Если у вас нет аккаунта AWS, вам будет предложено создать его в процессе регистрации в сервисе Amazon CloudSearch.

После регистрации выберите Amazon CloudSearch на Консоли управления AWS. Используя консоль сервиса Amazon CloudSearch, вы сможете быстро создать поисковый домен, настроить поля поиска, загрузить образец данных и отправить поисковые запросы в поисковый домен. Для выполнения этих операций можно также использовать SDK AWS и интерфейс командной строки.

Подробнее см. в учебном пособии «Начало работы» в Руководстве разработчика по Amazon CloudSearch.

Вопрос: Можно ли использовать пакеты AWS SDK для работы с сервисом Amazon CloudSearch?

Да, SDK AWS для Java, Ruby, Python, .Net, PHP и Node.js можно использовать для работы с сервисом CloudSearch. Используя пакеты SDK AWS, можно быстро создать поисковый домен, настроить поля поиска, загрузить данные и отправить поисковые запросы в поисковый домен.

Вопрос: Можно ли использовать интерфейс командной строки AWS для работы с сервисом Amazon CloudSearch?

Да, для работы с CloudSearch можно использовать интерфейс командной строки AWS. Используя интерфейс командной строки AWS, можно быстро создать поисковый домен, настроить поля поиска, загрузить данные и отправить поисковые запросы в поисковый домен.

Вопрос: Можно ли продолжать использовать инструменты командной строки сервиса Amazon CloudSearch?

Да, инструменты командной строки сервиса Amazon CloudSearch будут продолжать работать.


Вопрос: Что такое поисковый домен и как его создать?

Поисковый домен – это контейнер данных и набор сервисов, обеспечивающих возможность поиска по этим данным. Список сервисов включает следующие.

  • Сервис документов, позволяющий загружать данные в домен для их индексации.
  • Поисковый сервис, позволяющий выполнять поисковые запросы в отношении проиндексированных данных.
  • Сервис конфигурирования для управления доменом (включая ранжирование по релевантности).

Можно создавать и удалять поисковые домены, а также управлять ими, используя Консоль управления AWS, SDK AWS или интерфейс командной строки AWS.

Вопрос: Как загрузить документы в поисковый домен?

Загрузка документов в поисковый домен выполняется с помощью Консоли управления AWS, SDK AWS или интерфейса командной строки AWS.

Вопрос: Должны ли документы быть в определенном формате?

Чтобы данные были доступны для поиска, их необходимо представить в формате JSON или XML.  Каждый элемент, который может быть получен в качестве результата поиска, представляется в виде документа. Каждый документ имеет уникальный идентификатор, а также одно или несколько полей, содержащих данные, по которым выполняется поиск и которые возвращаются в виде результата поиска. Amazon CloudSearch генерирует поисковый индекс из данных имеющихся документов с учетом настроек индексных полей для данного домена. При изменении данных отправляются запросы на добавление или удаление соответствующих документов из индекса.

Вопрос: Как создать пакеты документов, отформатированные для использования сервисом Amazon CloudSearch?

Для создания пакетов документов, описывающих данные, нужно создать текстовые файлы в формате JSON или XML, в которых указать следующие данные:

  • тип операции: добавление или удаление;
  • уникальный идентификатор;
  • фактические поля и данные в них.

Далее приводится пример пакета, состоящего из одного документа, в формате JSON.

[
    {
       "fields" : {
         "directors" : [
             "Francis Lawrence"
          ],
          "release_date" : "2013-11-11T00:00:00Z",
          "genres" : [
             "Action",
             "Adventure",
             "Sci-Fi",
             "Thriller"
          ],
          "image_url" : "http://ia.media-imdb.com/images/M/MV5xMzzAx._V1_SX400_.jpg",
          "plot" : "Katniss Everdeen and Peeta Mellark become targets of the Capitol after their victory in the 74th Hunger Games sparks a rebellion in the Districts of Panem.",
          "title" : "The Hunger Games: Catching Fire",
          "rank" : 4,
          "running_time_secs" : 8760,
          "actors" : [
             "Jennifer Lawrence",
             "Josh Hutcherson",
             "Liam Hemsworth"
           ],
          "year" : 2013
       },
       "id" : "tt1951264",
       "type" : "add"
    }
]

 

Обратите внимание, что числовые значения, такие как год, не заключены в кавычки, и что значения многозначных полей, таких как жанр, даются в виде массива данных JSON.

Чтобы сделать эти данные доступными сервису Amazon CloudSearch, можно сохранить их в файл и загрузить с помощью Консоли управления AWS, AWS SDK или интерфейса командной строки AWS.

Вопрос: Как проиндексировать документы?

Документы индексируются автоматически при загрузке в поисковый домен. Можно также явным образом переиндексировать документы при изменении конфигурации путем отправки запроса IndexDocuments.

Вопрос: Когда требуется переиндексация поискового домена?

Некоторые возможности конфигурации, такие как добавление новых индексных полей или обновление словарей стемминга или словарей стоп-слов, недоступны без переиндексации домена. После внесения изменений, требующих индексации, статус домена будет показывать, что требуется индексация. Индексацию можно запустить с помощью Консоли управления AWS, AWS SDK или интерфейса командной строки AWS.

Вопрос: Как отправить поисковый запрос в поисковый домен?

Каждый поисковый домен включает в себя поисковый сервис на основе REST с уникальным URL-адресом (конечной точкой поиска), который принимает поисковые запросы по набору документов домена. Поисковый запрос можно отправить с помощью Консоли управления AWS, AWS SDK или интерфейса командной строки AWS.

Вопрос: Может ли поисковый домен размещаться в нескольких зонах доступности?

Да. При переходе в режим работы с несколькими зонами доступности Amazon CloudSearch развертывает дополнительные инстансы во второй зоне доступности того же региона. Подробнее см. в разделе «Настройка параметров доступности» Руководства разработчика по Amazon CloudSearch.

Вопрос: Можно ли переместить поисковый домен из одного региона в другой?

В данный момент осуществить автоматический перенос поискового домена из одного региона в другой невозможно. Для реализации переноса потребуется создать новый домен в целевом регионе, сконфигурировать его и загрузить данные, а затем удалить оригинальный домен.

Вопрос: Как удалить поисковый домен?

Для удаления поискового домена нажмите кнопку «Delete Domain» в консоли Amazon CloudSearch. Домены также можно удалять с помощью SDK AWS или интерфейса командной строки AWS.

Вопрос: Как удалять документы из поискового домена?

Для удаления документов задайте операцию удаления в пакетной загрузке, содержащей идентификатор документа, подлежащего удалению.

Отправить пакет обновления данных можно с помощью Консоли управления AWS, AWS SDK или интерфейса командной строки AWS

Вопрос: Как очистить поисковый домен?

Если требуется сохранить конечные точки домена, можно задать команду удаления для каждого документа, находящегося в домене.

Вопрос: Почему поисковый домен находится в состоянии «processing»?

Домен может быть в одном из трех состояний: «processing», «active» или «reindexing». Обычно домен находится в состоянии «active», что означает, что в настоящий момент не производится никаких изменений, домен доступен для запросов и обновлений, и все предыдущие изменения отражаются в результатах поиска.

Когда домен нуждается в переиндексации, Amazon CloudSearch должен полностью перестроить индекс. Однако домен не перейдет в состояние «processing» до тех пор, пока вы не инициируете операцию переиндексации. На этом этапе домен может обрабатывать запросы и выполнять обновления, но изменения конфигурации не будут отражаться в результатах поиска до тех пор, пока индексация не будет завершена и домен не вернется в состояние «active».

При этом можно продолжать загружать пакеты документов в домен. Однако если отправить большой объем обновлений в то время, когда домен находится в состоянии «processing», это может привести к увеличению времени, требуемого для применения обновлений в поисковом индексе. Если возникает такая проблема, следует уменьшить частоту обновлений до тех пор, пока домен не вернется в состояние «active».


Вопрос: Каковы рекомендации по начальной загрузке в CloudSearch?

После запуска поискового домена необходимо выполнить загрузку данных в Amazon CloudSearch. Скорее всего, потребуется загрузить один большой массив данных, а затем выполнять более мелкие обновления или добавления по мере поступления новых данных. Приведенные ниже рекомендации помогут вам быстро и просто выполнить начальную загрузку данных в CloudSearch.

1. Используйте при подготовке скрипта инструмент командной строки curl-v

При загрузке набора данных написанный вами скрипт читает данные и создает документы JSON или XML. Мы рекомендуем подготовить этот скрипт заранее и использовать curl или другой простой инструмент командной строки, чтобы убедиться, что документы, созданные этим скриптом, можно загрузить. Использование curl с параметром -v зачастую позволяет получить более подробную информацию о синтаксических ошибках, чем в случае использования SDK AWS или Boto, которые блокируют сообщения об ошибках для увеличения производительности. Инструмент curl выдает более подробные сообщения об ошибках, что позволяет определить источник любых проблем.

2. Используйте кодировку UTF-8

Прежде чем загружать данные в CloudSearch, убедитесь в том, что все данные отформатированы в кодировке UTF-8, и удалите все некорректные символы Unicode. Наличие недопустимых символов приведет к сбою при загрузке документа.

3. Пакетируйте документы

Пакетирование документов, возможно, самый важный шаг в начальной загрузке данных. Отправка документов в CloudSearch по одному не только неэффективна, но и приводит к предсказуемым ошибкам.

Пакет документов – это просто коллекция операций добавления и удаления, представляющая документы, которые вы хотите добавить, обновить или удалить из вашего домена. Пакеты описываются в формате JSON либо XML, и при загрузке их в домен данные индексируются автоматически, в соответствии с параметрами индексирования домена. Так как плата берется за общее количество пакетов документов, загруженных в поисковый домен, с точки зрения экономии рекомендуется загружать данные пакетами по 5 МБ: это максимально допустимый загружаемый объем. Можно также проводить параллельную загрузку пакетов, чтобы сократить время загрузки данных.

4. Делайте предварительное масштабирование

Перед загрузкой данных в CloudSearch рекомендуется предварительно масштабировать ресурсы. Предварительное масштабирование заключается в выборе подходящего типа инстанса на основании объема загружаемых данных.

Выбор инстанса с ресурсами, достаточными для обработки загружаемого объема данных, поможет предотвратить ошибки и большое количество реплик. Хотя репликация может помочь уменьшить время ответа при поиске, она не увеличивает пропускную способность конвейера данных и не устраняет основные проблемы загрузки данных.

Amazon CloudSearch автоматически масштабируется в более крупный инстанс по мере увеличения количества посылаемых данных. Тем не менее предварительный выбор подходящего типа инстанса позволяет сэкономить время при начальной загрузке, потому что масштабирование от одного типа инстанса к другому значительно замедляет процесс. Ниже приведен образец скрипта, выполняющего предварительное масштабирование поискового домена для начальной загрузки и восстановление типа инстанса после окончания загрузки.

Предварительное масштабирование до начальной загрузки:

aws cloudsearch update-scaling-parameters --domain-name foo --scaling-parameters DesiredInstanceType=search.m3.2xlarge

 

aws cloudsearch index-documents --domain-name foo

Восстановление после загрузки данных:

aws cloudsearch update-scaling-parameters --domain-name foo --scaling-parameters DesiredInstanceType=search.m1.small

 

aws cloudsearch index-documents --domain-name foo

Вопрос: Как можно избежать ошибки 504?

Если выдается ошибка 504 или выполняется много репликаций, попробуйте перейти на более крупный тип инстанса. Например, если имеются проблемы с инстансом типа m3.large, перейдите на инстанс типа m3.xlarge. Если вы продолжаете получать сообщение об ошибке 504 даже после предварительного масштабирования, начните пакетную обработку данных и увеличьте задержку между повторными попытками.

Вопрос: Каковы рекомендации по ускорению конфигурирования домена и переиндексации?

После изменения параметров конфигурации поискового домена необходимо перестроить поисковые индексы, чтобы эти изменения отражались в результатах поиска. Перестройка индекса занимает от 30 до 60 минут независимо от того, делаете вы одно или сразу несколько изменений конфигурации. Даже если домен содержит небольшое количество документов, переиндексация занимает указанное время из-за того, что при построении индекса и его распределении необходимо выполнить обработку данных и выделение ресурсов. Поэтому следует заранее планировать изменения конфигурации, выполнять все изменения за один раз и затем переиндексировать домен. Это же применимо и при установке нового домена – следует запланировать конфигурацию перед установкой, чтобы проводить индексацию только один раз и запустить домен в работу в кратчайшие сроки.

Некоторые домены требуют переиндексации, а другие требуют только повторного развертывания существующего индекса. Повторное развертывание домена занимает 10–15 минут, в то время как для переиндексации требуется 30–60 минут. Во время повторного развертывания CloudSearch создает новые узлы, развертывает на них индекс и отключает старые узлы. Состояние домена во время повторного развертывания меняется на «processing». Если требуется переиндексация, состояние домена изменяется на «needs indexing», после запуска индексации оно указывается как «processing». После создания нового индекса повторное развертывание домена завершено. Приведенная ниже таблица резюмирует сказанное и показывает, какие изменения требуют переиндексации с последующим повторным развертыванием и какие изменения требуют только повторного развертывания. Эта информация поможет вам улучшить планирование изменений конфигурации.

Изменение
Требуется переиндексация
Требуется повторное развертывание
Несколько зон доступности Нет
Да

Индексные поля

Да
Да

Параметры индексных полей

Да Да

Тип инстанса

Да Да

Количество разделов

Да Да

Количество реплик

Нет Да

Генераторы подсказок

Да Да

Выражения

Нет Да

Схемы анализа

Да Да

Вопрос: Какие поисковые возможности предоставляет Amazon CloudSearch?

Amazon CloudSearch предоставляет возможность индексирования и выполнения поиска как по структурированным данным, так и по простому тексту, включая фасетный поиск, поиск произвольного текста, поиск с использованием логических выражений, настраиваемое ранжирование по релевантности, ранговые выражения при исполнении запросов, учет значимости полей, поиск и сортировка результатов по любому полю, использование при обработке текста токенизации, стоп-слов, стемминга и синонимов. Сервис также обеспечивает индексацию обновлений документов в режиме, близком к реальному времени. Новые возможности.

  • Автоматическое заполнение.
  • Подсветка совпадений.
  • Геопространственный поиск.
  • Новые типы данных: дата, числа двойной точности, 64-разрядное целое число со знаком, географические координаты.
  • Динамические поля.
  • Статистика по индексным полям.
  • Поиск фраз с неточным совпадением.
  • Повышение значимости термина.
  • Улучшенный поиск по диапазону значений для всех типов полей.
  • Поисковые фильтры, не влияющие на релевантность.
  • Поддержка нескольких анализаторов запросов: простого, структурированного, Lucene и DisMax.
  • Настройка конфигурации анализатора запросов.

Вопрос: Что такое фасетизация?

Фасетизация позволяет группировать результаты поиска по уточняющим деталям, и пользователь будет выполнять дальнейший поиск с учетом такой группировки. Например, пользователь может выполнять поисковый запрос «зонтики», и фасетизация позволяет сгруппировать результаты по цене, например 0–10 USD, 10–20 USD, 20–40 USD и т. д. Amazon CloudSearch также позволяет включать в фасеты счетчик результатов, так что для каждой группы будет указано количество документов. В этом случае наш пример будет выглядеть так: 0–10 USD (4 результата), 10–20 USD (123 результата), 20–40 USD (57 результатов) и т. д.

Вопрос: Какие языки поддерживает Amazon CloudSearch?

Amazon CloudSearch в настоящий момент поддерживает 34 языка: арабский (ar), армянский (hy), баскский (eu), болгарский (bg), каталанский (ca), упрощенный китайский (zh-Simp), традиционный китайский (zh-Trad), чешский (cs), датский (da), нидерландский (nl), английский (en), финский (fi), французский (fr), галисийский (gl), немецкий (de), греческий (el), иврит (he), хинди (hi), венгерский (hu), индонезийский (id), ирландский (ga), итальянский (it), японский (ja), корейский (ko), латвийский (la), норвежский (no), персидский (fa), португальский (pt), румынский (ro), русский (ru), испанский (es), шведский (sv), тайский (th) и турецкий (tr). Кроме того, Amazon CloudSearch поддерживает многоязычные поля, содержащие данные на разных языках.

Вопрос: Поддерживает ли Amazon CloudSearch геопространственный поиск?

Да, Amazon CloudSearch имеет встроенный тип данных для задания широты и долготы (latlon), поэтому можно легко выполнять поиск и сортировку данных с привязкой к географическим координатам. Подробнее см. в разделе «Поиск и ранжирование результатов по географическому местоположению» Руководства разработчика по Amazon CloudSearch.


Вопрос: Через какое время после загрузки документ становится доступным для поиска?

Документы, загруженные в поисковый домен, обычно становятся доступными для поиска через промежуток времени длиной от нескольких секунд до нескольких минут.

Вопрос: Сколько поисковых запросов можно отправить в поисковый домен?

Внутренних ограничений на количество поисковых запросов, отправленных поисковому домену, не существует.

Вопрос: Какие факторы влияют на задержку получения результатов поиска?

Поисковые запросы обычно обрабатываются в течение нескольких сотен миллисекунд, зачастую намного быстрее. Задержка зависит от многих факторов, включая время, которое запрос и ответ тратят на перемещение между приложением и поисковым доменом, от сложности поискового запроса и от того, насколько интенсивно используется поисковый домен.

Вопрос: Что делает один поисковый запрос более сложным, чем другой?

Amazon CloudSearch обеспечивает эффективную обработку широкого спектра поисковых запросов с большой скоростью. Поисковые запросы различаются по сложности в зависимости от выражений, определяющих, какие документы соответствуют критериям поиска, и дополнительных критериев, определяющих, насколько точное это соответствие. Поисковые запросы, которым соответствует большое число документов, обрабатываются дольше, чем те, которым соответствует небольшое число документов. Поисковые запросы, вычисляющие сложные выражения, обрабатываются дольше, чем те, которые используют для ранжирования простые критерии, например содержимое одного поля. Чтобы было легче сравнивать поисковые запросы по сложности, время, затрачиваемое на обработку запроса, возвращается как часть ответа.

Вопрос: Где следует запускать поисковое приложение, чтобы минимизировать время обмена данными с поисковым доменом?

Минимальное время обмена данными будет у приложений, размещенных в том же регионе AWS, что и поисковый домен.


Вопрос: Что такое поисковый инстанс?

Поисковый инстанс представляет собой отдельную поисковую систему в облаке, которая индексирует документы и отвечает на поисковые запросы. Поисковый инстанс располагает определенным объемом оперативной памяти и ресурсов ЦПУ для индексации данных и обработки запросов.

Вопрос: Что такое поисковый раздел?

Поисковый раздел – это часть данных, размещенная в одном поисковом инстансе. В поисковом домене может быть один или несколько разделов, и количество разделов может изменяться в процессе индексации документов.

Вопрос: Каким образом поисковый домен масштабируется, чтобы удовлетворить потребности приложения?

Поисковые домены масштабируются в двух измерениях: по объему данных и трафику. По мере увеличения объема данных возникает потребность в большем количестве поисковых инстансов (или в инстансах большей мощности) для хранения индексированных данных; индекс разбивается на разделы, с каждым из которых работает отдельный поисковый инстанс. С ростом объема или сложности запросов каждый поисковый раздел рекомендуется реплицировать, чтобы получить дополнительные ресурсы ЦПУ. Например, если объем данных требует наличия трех поисковых разделов, поисковый домен будет содержать три поисковых инстанса. Если ресурсов отдельного поискового инстанса станет недостаточно для возросшего трафика, каждый раздел реплицируется, чтобы получить дополнительные ресурсы ЦПУ, благодаря чему в поисковом домене появятся три дополнительных поисковых инстанса. Дальнейшее увеличение трафика повлечет за собой появление дополнительных реплик, до пяти реплик каждого поискового раздела.

Вопрос: Какой объем данных можно загрузить в поисковый домен?

Количество разделов зависит от данных и конфигурации, поэтому максимальный объем загружаемых данных достигается тогда, когда для используемой конфигурации размещения данных требуется 10 разделов. При превышении лимита поисковых разделов поисковый домен прекращает выполнять загрузку до тех пор, пока не будет удалена часть документов с последующей переиндексацией домена. Если вам требуется более 10 разделов, свяжитесь с нами.

Вопрос: Нужно ли выбирать количество и тип поисковых инстансов для поискового домена?

CloudSearch – это полностью управляемый поисковый сервис, который автоматически масштабирует поисковый домен и выбирает количество и тип поисковых инстансов. Все поисковые инстансы данного поискового домена однотипны, их тип со временем может меняться по мере роста объема данных или трафика.

Настройки масштабирования домена Amazon CloudSearch можно также менять для обеспечения:

  • увеличенных возможностей загрузки;
  • ускорения обработки поисковых запросов;
  • увеличения ресурсов поиска;
  • повышения отказоустойчивости

Вопрос: Какие типы инстансов поддерживает сервис Amazon CloudSearch?

Amazon CloudSearch поддерживает следующие типы поисковых инстансов:

  • Small;
  • Large;
  • Extra Large;
  • Double Extra Large.

Вопрос: Как можно определить количество и тип поисковых инстансов в поисковом домене?

Количество и тип поисковых инстансов в поисковом домене можно определить с помощью Консоли управления AWS, SDK AWS или интерфейса командной строки AWS. Количество и тип поисковых инстансов меняются с течением времени. Происходит автоматическое масштабирование как в сторону увеличения, так и уменьшения, в зависимости от индексируемых данных и поискового трафика.

Вопрос: Насколько быстро поисковый домен масштабируется, чтобы приспособиться к изменениям данных и трафика?

Обычно поисковый домен реагирует на увеличение трафика в течение нескольких минут. Реакция на изменения объема данных и уменьшение трафика может занять большее время, ее можно ускорить, выполнив команду IndexDocuments. Если вы собираетесь загрузить большой объем данных или ожидаете резкое возрастание трафика запросов, можно выполнить предварительное масштабирование домена, задав нужный тип инстанса и количество реплик. Подробнее см. в разделе «Настройка параметров масштабирования» Руководства разработчика по Amazon CloudSearch.

Вопрос: Поддерживает ли Amazon CloudSearch развертывание в нескольких зонах доступности?

Да. Amazon CloudSearch поддерживает развертывание в нескольких зонах доступности. При использовании возможности запуска в нескольких зонах доступности Amazon CloudSearch предоставляет и поддерживает дополнительные инстансы для поискового домена в другой зоне доступности, что обеспечивает высокую доступность данных. Все обновления будут автоматически применяться к поисковым инстансам в обеих зонах доступности. Поисковый трафик при этом распределяется по всем инстансам, и в случае сбоя поисковые инстансы любой из зон готовы принять на себя рабочую нагрузку в полном объеме.

Вопрос: Как работает новая возможность запуска в нескольких зонах доступности? Будет ли поисковая система простаивать в случае сбоя?

При использовании возможности запуска в нескольких зонах доступности инстансы Amazon CloudSearch любой из зон готовы принять на себя рабочую нагрузку в полном объеме. В случае прерывания работы сервиса или снижении производительности инстансов в одной из зон Amazon CloudSearch направляет весь трафик в другую зону доступности. Резервные инстансы восстанавливаются в отдельной зоне доступности без всякого административного вмешательства или прерывания работы сервиса.

Находящиеся в обработке запросы могут завершиться неудачно и потребуют повторного выполнения. Обновления, отправленные в поисковый домен, надежно сохраняются и не будут потеряны в результате сбоя.

Вопрос: Можно ли выполнить развертывание поискового домена более чем в двух зонах доступности?

Нет. Максимальное число зон доступности, в которых может быть развернут поисковый домен, равно двум.

Вопрос: Можно ли изменять настройку использования нескольких зон доступности в поисковом домене?

Да. Использование нескольких зон доступности для поисковых доменов можно включать и отключать. При изменении этой настройки работа сервиса не прерывается.

Вопрос: Можно ли выбирать, в какой зоне доступности будет развернут поисковый домен?

Нет. В настоящее время Amazon CloudSearch автоматически выбирает альтернативную зону доступности в том же самом регионе.

Вопрос: Можно ли выбирать тип инстанса, используемого поисковым доменом?

Да. Последняя версия Amazon CloudSearch позволяет задавать тип инстанса для поискового домена. Если необходимо, Amazon CloudSearch масштабирует домен до более крупного типа инстанса, но никогда не масштабирует до более мелкого типа.

Вопрос: Как быстрее всего загрузить данные в Amazon CloudSearch?

По умолчанию все домены запускаются в поисковом инстансе типа Small. Если требуется загрузить большие объемы данных, следует предварительно масштабировать домен до инстанса более крупного типа. Подробнее см. в разделе «Пакетная загрузка» Руководства разработчика по Amazon CloudSearch.

Вопрос: Как определить, какой тип инстанса следует выбрать для первоначальной установки?

Для массивов данных объемом менее 1 ГБ или содержащих менее одного миллиона документов размером 1 КБ используйте настройку по умолчанию: один поисковый инстанс типа Small. Для более крупных массивов данных рекомендуется заранее настроить домен на нужный тип инстанса. Для массивов данных объемом до 8 ГБ начните с поискового инстанса типа Large. Для массивов данных объемом от 8 до 16 ГБ начните с поискового инстанса типа Extra Large. Для массивов данных объемом от 16 до 32 ГБ начните с поискового инстанса типа Double Extra Large. Свяжитесь с нами, если вам требуется больший объем загрузки или объем индексируемых данных превышает 500 ГБ.


Вопрос: Какие дополнительные функции безопасности доступны в новой версии Amazon CloudSearch?

Последняя версия Amazon CloudSearch обеспечивает интеграцию с IAM для сервиса конфигурирования и для всех сервисов поискового домена. Вы можете контролировать доступ к конкретным операциям Amazon CloudSearch и для всех запросов требовать их аутентификацию. Запросы аутентифицируются с помощью подписи Signature Version 4.

Вопрос: Как обеспечить безопасную загрузку данных в Amazon CloudSearch?

При подключении к Amazon CloudSearch данные посылаются через безопасное зашифрованное SSL-соединение с использованием протокола HTTPS вместо HTTP.

Вопрос: Мои данные уже зашифрованы. Можно ли просто отправлять зашифрованные данные и ключ шифрования?

Созданные пользователем ключи шифрования не поддерживаются. Вам придется расшифровать данные и загрузить их с использованием HTTPS.

Вопрос: Поддерживается ли выдача результатов поиска в зашифрованном виде?

Да. Для всех запросов Amazon CloudSearch поддерживается использование протокола HTTPS.

Вопрос: Как можно запретить конкретным пользователям доступ к моему поисковому домену?

Amazon CloudSearch поддерживает интеграцию с IAM для конфигурационного сервиса и для всех сервисов поискового домена. Вы можете предоставлять пользователям полный доступ к Amazon CloudSearch, ограничивать им доступ к определенным доменам и запрещать доступ к конкретным операциям.


Вопрос: Каков принцип оплаты использования сервиса Amazon CloudSearch?

Для начала работы с сервисом не требуются предоплата или какие-либо обязательства. В конце месяца с вашей кредитной карты будет автоматически списана сумма за пользование сервисом в данном месяце. Расходы за текущий расчетный период можно в любое время просмотреть на веб-сайте AWS, войдя в свой аккаунт Amazon Web Services и нажав «История аккаунта» в разделе «Ваш аккаунт Amazon Web Services».

Вопрос: Какова стоимость использования сервиса Amazon CloudSearch?

В настоящий момент в структуре цен сервиса Amazon CloudSearch нет изменений. Подробную информацию о ценах см. в разделе Цены на Amazon CloudSearch.

Вопрос: Существует ли бесплатная пробная версия сервиса Amazon CloudSearch?

Да, для новых пользователей сервиса Amazon CloudSearch доступна бесплатная пробная версия. Подробнее см. на странице 30-дневная бесплатная пробная версия Amazon CloudSearch.

Вопрос: Какова стоимость использования новой версии Amazon CloudSearch?

В настоящий момент в структуре цен сервиса Amazon CloudSearch нет изменений. Дополнительные сведения см. на странице Цены.

 

Вопрос: Предусмотрено ли сокращение расходов при использовании новой версии Amazon CloudSearch?

Последняя версия Amazon CloudSearch использует улучшенное сжатие индекса и поддерживает более крупные индексы для каждого типа инстансов. Это делает новую версию Amazon CloudSearch более эффективной, чем предыдущая, и может обеспечить значительное сокращение расходов.

Вопрос: Ваши цены указаны с учетом налогов?

Если не указано иное, представленные здесь цены не включают применимые налоги и сборы, в том числе НДС и применимый налог с продаж.Для клиентов с платежным адресом в Японии использование сервисов AWS облагается потребительским налогом Японии. Подробнее.