Amazon CloudSearch (beta)

Você está iniciando no Amazon CloudSearch?

Ative hoje sua versão de avaliação de 30 dias.

Para obter detalhes, consulte Oferta do teste gratuito do Amazon CloudSearch.



O Amazon CloudSearch é um serviço de pesquisa na nuvem que permite que os clientes integrem facilmente em seus aplicativos uma funcionalidade de pesquisa rápida e altamente escalável. Com uns poucos cliques no AWS Management Console, os desenvolvedores simplesmente criam um domínio de pesquisa, fazem o upload dos dados que desejam tornar pesquisáveis pelo Amazon CloudSearch, e em seguida o serviço providencia os recursos tecnológicos necessários e implementa um índice de pesquisa altamente preciso.

O Amazon CloudSearch efetua escalonamento contínuo à medida que a quantidade de dados pesquisáveis aumenta ou à medida que a taxa de consultas muda, e os desenvolvedores podem alterar os parâmetros de pesquisa, efetuar o ajuste fino da relevância com relação à pesquisa e aplicar novas configurações a qualquer momento, sem necessidade de fazer o upload dos dados novamente.

O Amazon CloudSearch permite que os clientes redirecionem as sobrecargas de gestão e operação de uma plataforma de pesquisa. Os clientes não precisam se preocupar com provisionamento de hardware, partição de dados ou patches de software. O Amazon CloudSearch oferece preços baixos e do tipo pague o que usar, sem despesas iniciais nem compromissos a longo prazo.

Leia o postagem no blog do CloudSearch escrita pelo divulgador da Amazon Web Services Jeff Barr para obter mais informações sobre como começar a pesquisar em uma hora por menos de 100 USD por mês.

Conceitos básicos do Amazon CloudSearch gratuito

Se você é novo no Amazon CloudSearch, é possível começar gratuitamente! Para obter mais informações, consulte a Oferta do teste gratuito do Amazon CloudSearch.

É fácil se registrar,
pague apenas por aquilo que usar
Inscrever-se

O que é o Amazon CloudSearch?

Vídeo: Visão geral do Amazon CloudSearch

SmugMug na AWS:
caso de sucesso do CloudSearch

Vídeo: SmugMug na AWS – caso de sucesso do CloudSearch


Esta página contém as seguintes categorias de informações. Clique para ir para baixo:

Funcionalidade do Amazon CloudSearch

Elaborado para oferecer alto rendimento e baixa latência, o Amazon CloudSearch apresenta um conjunto completo de recursos, incluindo pesquisa de texto livre, pesquisa facetada, classificação por relevância personalizável, campos de pesquisa configuráveis, opções de processamento de texto e indexação em tempo quase real.

Para usar o Amazon CloudSearch, você simplesmente:

  • Cria um domínio de pesquisa
  • Configura os campos de pesquisa
  • Faz o upload dos dados para indexação, e
  • Envia solicitações de pesquisa a partir de seu site ou aplicativo

Amazon CloudSearch está disponível atualmente nas regiões Leste dos EUA (Norte da Virgínia) e UE (Irlanda).


Destaques do serviço

Fácil de configurar – Você pode tornar seus dados pesquisáveis usando o AWS Management Console, chamadas de API ou ferramentas de linha de comando. Basta apontar o cursor para um conjunto de dados de amostra, e o Amazon CloudSearch propõe automaticamente uma lista de campos de indexação e uma sugestão de configuração. É fácil adicionar ou excluir campos e personalizar opções de pesquisa como o facetamento (as facetas são campos de indexação que representam categorias usadas para refinar e filtrar os resultados das pesquisas). É possível fazer alterações na configuração sem precisar fazer o upload dos dados novamente. Você pode usar os relatórios de análise para acompanhar as métricas e o comportamento dos usuários das pesquisas.

Escalabilidade automática para dados e tráfego – O Amazon CloudSearch aumenta ou diminui a escala continuamente, conforme as alterações no volume de dados e/ou de consultas. O Amazon CloudSearch gerencia o impacto operacional e providencia instâncias de pesquisa para você.

Baixa latência, alta taxa de transferência – O Amazon CloudSearch armazena sempre seu índice na RAM, para garantir um desempenho com baixa latência e alta taxa de transferência, mesmo em grande escala. O Amazon CloudSearch foi criado a partir da mesma tecnologia A9 que é a plataforma de pesquisa no Amazon.com.

Administração fácil – O Amazon CloudSearch é um serviço totalmente gerenciado. Ele se encarrega por você do provisionamento de hardware e software, da instalação e manutenção, de correções de software e da divisão dos dados em partições.

Recursos de pesquisa completos – O Amazon CloudSearch indexa e pesquisa dados estruturados e textos simples. Ele inclui a maioria dos recursos de pesquisa que os desenvolvedores esperam de um mecanismo de pesquisa, como pesquisa facetada, pesquisa de texto livre, pesquisa booleana, classificação por relevância personalizável, expressões de classificação de tempo de consulta, ponderação de campos e classificação dos resultados por meio de qualquer campo. O Amazon CloudSearch fornece também indexação de atualizações de documentos em tempo quase real.

Custos baixos – O Amazon CloudSearch foi concebido para ter uma ótima relação custo-benefício. Você paga taxas por hora reduzidas e apenas pelos recursos que você utiliza. O Amazon CloudSearch oferece um custo total de propriedade baixo para os aplicativos de pesquisa, se comparado com o custo que você teria para operar um ambiente de pesquisa por conta própria.

Seguro – O Amazon CloudSearch usa métodos de criptografia robustos para autenticar os usuários e prevenir o controle não autorizado dos seus domínios. O Amazon CloudSearch é compatível com HTTPS e fornece interfaces de serviços da web para configurar definições de firewall que controlam o acesso de rede ao seu domínio.


Definição de preço

Não há taxas de instalação nem compromissos iniciais para começar a usar o Amazon CloudSearch. Os clientes são cobrados pelo uso mensal, levando-se em consideração as seguintes dimensões:

  • Instâncias de pesquisa
  • Uploads de lotes de documentos
  • Solicitações de IndexDocuments
  • Transferência de dados

Instâncias de pesquisa

Você é cobrado através de taxas por hora de utilização de instâncias. Atualmente o Amazon CloudSearch comporta três tipos de instâncias de pesquisa - Pequena, Grande e Extragrande:

Sendo um serviço gerenciado, o Amazon CloudSearch determina o tamanho e o número de instâncias de pesquisa necessárias para fornecer um desempenho de pesquisa com baixa latência e alta taxa de transferência. Quando você faz o upload dos dados e configura o índice, o Amazon CloudSearch constrói um índice e seleciona o tipo de instância de pesquisa inicial apropriado para garantir que seu índice possa ser armazenado na RAM.

À medida que o volume e o índice dos dados aumentam, o Amazon CloudSearch escala o domínio de pesquisa, selecionando um tipo de instância de pesquisa de tamanho maior (ou efetua uma partição do índice em instâncias múltiplas, se o tipo de instância de pesquisa já for o de tamanho máximo). Do mesmo modo, quando o volume e o índice dos dados diminuem, o CloudSearch escala o domínio diminuindo o número de instâncias de pesquisa (ou selecionando um tipo de instância de pesquisa de tamanho menor, se seu índice couber em uma única partição).

Assim como ocorre com o volume de dados, o Amazon CloudSearch escala automaticamente o domínio de pesquisa para se adaptar à demanda de tráfego. Quando uma instância de pesquisa ultrapassa 80% de utilização da CPU, o CloudSearch escala o domínio de pesquisa adicionando uma instância de pesquisa para lidar com o aumento do tráfego. Do mesmo modo, quando uma instância de pesquisa diminui para menos de 30% de utilização da CPU, o CloudSearch escala o domínio de pesquisa removendo as instâncias de pesquisa adicionais, para minimizar os custos.

A definição de preços se dá por instância-hora utilizada para cada instância de pesquisa, desde o momento em que uma instância de pesquisa é iniciada até que ela seja encerrada. Cada fração de instância-hora utilizada é cobrada como uma hora completa.

Uploads de lotes

Você é cobrado pelo número total de lotes de documentos enviados ao seu domínio de pesquisa. Os documentos enviados são automaticamente indexados.

  • 0,10 USD por cada 1.000 solicitações de upload de lotes (o tamanho máximo de cada lote é de 5 MB)

Solicitações de IndexDocuments

Após fazer alterações no índice, por exemplo adicionar um campo, você precisa reconstruir o índice. Para isso, você pode usar o AWS Management Console, as ferramentas de linha de comando ou as APIs para enviar uma solicitação de IndexDocuments. A taxa para essa solicitação é de:

  • 0,98 USD por GB de dados armazenados no seu domínio de pesquisa

Ocasionalmente, o Amazon CloudSearch poderá emitir essas chamadas por você. Por exemplo, à medida que você adiciona dados ao seu domínio, o Amazon CloudSearch poderá reconstruir proativamente o índice para melhorar o desempenho das consultas. Você não será cobrado nesse caso, assim como em outros casos em que você não chamou explicitamente o IndexDocuments.

Transferência de dados

Os preços abaixo se baseiam em dados transferidos "para dentro” e "para fora" do Amazon CloudSearch.

A transferência de dados entre serviços da AWS e do Amazon CloudSearch na mesma região é grátis.

Os dados transferidos entre o Amazon CloudSearch e os serviços da AWS em diferentes regiões serão cobrados como Transferência de dados via Internet em ambos os lados da transferência.

Para tráfego enviado entre instâncias do Amazon CloudSearch e do Amazon EC2 na mesma região, você será cobrado somente pela transferência de dados de entrada e saída de instâncias do Amazon EC2, além de cobranças de transferência de dados do Amazon EC2 padrão. Para obter mais informações, consulte a descrição de definição de preço do EC2.

Você pode sempre ver os recursos que está consumindo no Amazon CloudSearch na página de Atividade da conta no site da AWS, no AWS Management Console, por meio das ferramentas de linha de comando do CloudSearch, ou por meio das APIs do CloudSearch.

Exemplo de custo

Veja aqui um exemplo de custo baseado no conjunto de dados de filmes do IMDb. Lembre-se de que muitos fatores diferentes podem afetar as características de escalabilidade de um domínio de pesquisa e seus custos operacionais, incluindo os valores reais pesquisáveis para cada campo, as opções de indexação configuradas para o seu domínio e a quantidade de poder computacional necessária para processar suas consultas.

No conjunto de dados do IMDb, cada filme é representado por um documento de 1 KB. Uma instância de pesquisa pequena pode comportar 1 milhão de documentos de 1 KB. Para calcular o custo da execução de uma pesquisa de domínio para esses dados, vamos considerar os seguintes níveis de uso:

  • 100.000 solicitações de pesquisa simples com palavras-chave por dia
  • 50 uploads de lotes por dia, onde cada lote adiciona 1.000 novos filmes (até um total de 1 milhão de filmes)
  • Quatro solicitações de IndexDocuments por mês

Nestes níveis de uso, o Amazon CloudSearch escolherá automaticamente o tipo de instância pequena para implementar o domínio de pesquisa. O custo mensal seria de:

  • Instância de pesquisa pequena: 720 h (24h por dia x 30 dias) x 0,10 USD por hora = 72,00 USD por mês
  • Uploads de lotes: (50/1000) x 0,10 USD x 30 dias = 0,15 USD por mês
  • IndexDocuments (100 MB): 0,1 GB (quantidade de dados armazenados no seu domínio de pesquisa) x 0,98 USD por GB x 4 chamadas por mês = 0,39 USD por mês

TOTAL: 72,54 USD/mês

Note que quando um domínio de pesquisa excede a capacidade de uma instância de pesquisa Pequena, será automaticamente escalado para uma instância de pesquisa Grande, gerando cobranças adicionais. Você pode monitorar o seu uso e as cobranças na página Atividade da conta.


Descrição detalhada

Instâncias de pesquisa

Você cria um domínio de pesquisa do Amazon CloudSearch para cada coleção de dados que deseja tornar pesquisável. Um domínio de pesquisa tem uma ou mais instâncias de pesquisa, cada uma com uma quantidade finita de recursos de RAM e CPU para indexar dados e processar solicitações. O número de instâncias de pesquisa em um domínio depende dos documentos da sua coleção e do volume e complexidade das solicitações de pesquisa.

Sendo um serviço gerenciado, o Amazon CloudSearch determina o tamanho e o número de instâncias de pesquisa necessárias para fornecer um desempenho de pesquisa com baixa latência e alta taxa de transferência. Quando você faz o upload dos dados e configura o índice, o Amazon CloudSearch constrói um índice e seleciona o tipo de instância de pesquisa inicial apropriado para garantir que seu índice possa ser armazenado na RAM.

À medida que o volume de dados aumenta, o Amazon CloudSearch escala o domínio de pesquisa, selecionando um tipo de instância de pesquisa de tamanho maior (ou efetua uma partição do índice em instâncias múltiplas, se o tipo de instância de pesquisa já for o de tamanho máximo). Do mesmo modo, quando o volume de dados diminui, o CloudSearch escala o domínio diminuindo o número de instâncias de pesquisa (ou selecionando um tipo de instância de pesquisa de tamanho menor, se seu índice couber em uma única partição).

Assim como ocorre com o volume de dados, o Amazon CloudSearch escala automaticamente o domínio de pesquisa para se adaptar à demanda de tráfego. Quando uma instância de pesquisa ultrapassa 80% de utilização da CPU, o CloudSearch escala o domínio de pesquisa adicionando uma instância de pesquisa para lidar com o aumento do tráfego. Do mesmo modo, quando uma instância de pesquisa diminui para menos de 30% de utilização da CPU, o CloudSearch escala o domínio de pesquisa removendo as instâncias de pesquisa adicionais, para minimizar os custos.

Por exemplo, se sua coleção for grande o suficiente para precisar de três partições, o domínio de pesquisa terá três instâncias de pesquisa (uma para cada partição). À medida que o tráfego aumenta e se aproxima da capacidade máxima de processamento de cada instância de pesquisa, a partição é replicada para providenciar capacidade adicional. Agora você terá um total de seis instâncias de pesquisa para apoiar as três partições do domínio. Aumentos adicionais no tráfego resultarão na adição de mais instâncias.

Você pode sempre ver os recursos que está consumindo no Amazon CloudSearch na página de Atividade da conta no site da AWS, no AWS Management Console, por meio das ferramentas de linha de comando do CloudSearch, ou por meio das APIs do CloudSearch.

A quantidade de dados que cada instância de pesquisa pode comportar depende principalmente do tamanho dos documentos (a coleção de dados pesquisáveis) e da configuração dos campos de indexação. Usaremos um exemplo de documento e configuração do conjunto de dados público da Wikipédia como exemplo de referência para ilustrar a capacidade de cada tipo de instância de pesquisa.

No Amazon CloudSearch, os documentos são descritos por meio do Search Data Format (SDF). A versão JSON do exemplo de documento da Wikipédia exibido abaixo tem o tamanho aproximado de 1 KB:

{ "type": "add",
  "id": " wikipedia26678",
  "version": 5465249,
  "lang": "en",
  "fields": {
      "title": "Star Wars",
      "url": "http://en.wikipedia.org/wiki/Star_Wars",
      "author": "Jedi94",
      "type": "Article",
      "year": "1977",
      "teaser": "The Star Wars title card/logo, as seen in all films. 
        'Star Wars' is an American epic space opera film series created by 
        George Lucas. The first film in the series was originally released 
        on May 25, 1977, under the title Star Wars, by 20th Century Fox, 
        and became a worldwide pop culture phenomenon, followed by two 
        sequels, released at three-year intervals. Sixteen years after the 
        release of the trilogy's final film, the first in a new prequel 
        trilogy of films was released. The three films were ..." 
  } 
}

Cada um dos campos do exemplo de documento precisa ser configurado com opções de indexação múltiplas, como o tipo de campo, se o campo é ou não pesquisável, se comporta facetas ou resultados. Cada uma dessas opções afeta diretamente a capacidade de uma instância de pesquisa em termos de número de documentos. A tabela abaixo mostra um exemplo de configuração dos campos de indexação do conjunto de dados da Wikipédia.

Nome Tipo Pesquisa Faceta Resultado
title text
url text
author text
year uint
type literal
teaser text

Com base no tamanho do documento (1 KB) e na configuração de indexação ilustrados acima, cada tipo de instância de pesquisa pode comportar o seguinte número de documentos:

Tipo de instância de pesquisa Capacidade de dados
Instância de pesquisa pequena 1 milhão de documentos
Instância de pesquisa grande 4 milhões de documentos
Instância de pesquisa extragrande 8 milhões de documentos

Obviamente, esses limites ilustram apenas um exemplo. Documentos diferentes ou uma configuração diferente podem alterar drasticamente o número de documentos que uma instância pode comportar. À medida que você dimensionar além do limite de uma única instância extragrande de pesquisa, o Amazon CloudSearch adicionará automaticamente até 9 instâncias extragrandes de pesquisa adicionais para escalar sua frota de pesquisa, a fim de que seja compatível com dezenas ou centenas de milhões de documentos. Se você precisar de escalabilidade adicional, contate-nos.

Você pode consultar um exemplo de detalhamento de custos na seção Definição de preços.

Arquitetura

O Amazon CloudSearch gerencia os recursos do servidor necessários para construir uma solução de pesquisa. Ele fornece três subserviços simples que você usa para:

  • Configurar domínios de pesquisa
  • Fazer upload de documentos para indexação
  • Enviar solicitações de pesquisa

Serviço de configuração

O serviço de configuração permite criar e configurar domínios de pesquisa. Cada domínio encapsula uma coleção de dados a serem pesquisados.

Para criar um novo domínio de pesquisa, basta fornecer um nome a ser associado ao domínio. Os domínios de pesquisa podem em seguida ser configurados especificando-se as opções de indexação, as opções de texto e as expressões de classificação:

  • As opções de indexação especificam os campos que você deseja incluir em seu índice. Por meio do AWS Management Console ou das ferramentas de linha de comando, você pode varrer os dados para configurar automaticamente as opções de indexação padrão.
  • As opções de texto permitem configurar dicionários específicos de um domínio para ignorar determinadas palavras durante a indexação, definir sinônimos comuns para os termos e mapear variações de uma palavra a uma raiz comum para possibilitar a correspondência de todas as variantes.
  • As expressões de classificação são funções matemáticas que permitem alterar o modo em que os resultados são classificados. Como padrão, os documentos são classificados de acordo com uma pontuação de pertinência textual que leva em consideração a proximidade dos termos de pesquisa e a frequência de tais termos em um documento. As expressões de classificação podem ser usadas para incluir outros fatores na classificação. Por exemplo, se seu domínio tem um campo numérico denominado "popularidade", você pode definir uma expressão de classificação que combina a popularidade com a pontuação de relevância textual padrão para classificar documentos populares relevantes nas posições mais altas dos resultados das pesquisas.

Serviço de documentos

O serviço de documentos permite alterar os dados pesquisáveis de um domínio. Cada domínio tem um ponto de extremidade HTTP exclusivo de serviço de documentos. Quando você envia dados ao seu domínio, eles são automaticamente indexados, e as alterações tornam-se pesquisáveis em tempo quase real.

Para enviar dados ao seu domínio, você precisa descrevê-los de acordo com o Search Data Format (SDF). No SDF, cada item que você deseja poder obter como resultado de pesquisa é representado como um documento. Cada documento tem uma id exclusiva (docid), um número de versão e um ou mais campos que contêm os dados que você deseja pesquisar e obter como resultado de pesquisas. Os campos de um documento podem conter dados sob a forma de sequências UTF-8. As opções de indexação da configuração do seu domínio especificam como você deseja mapear os campos dos documentos em SDF para os campos do índice de pesquisa.

Serviço de pesquisa

O serviço de pesquisa processa as solicitações de pesquisa em um domínio. Cada domínio tem um ponto de extremidade HTTP exclusivo de pesquisa. Quando você envia uma solicitação de pesquisa, o serviço de pesquisa retorna uma lista de documentos classificados por relevância. Os resultados das pesquisas podem ser retornados em JSON ou XML.

O Amazon CloudSearch oferece uma linguagem de consulta rica que permite pesquisar em campos específicos, efetuar pesquisas booleanas complexas, recuperar informações de facetas e especificar quais dados você deseja que sejam incluídos nos resultados.

É possível usar o testador de pesquisa situado no console do Amazon CloudSearch para testar amostras de consultas.

Conceitos básicos

Para começar a usar o Amazon CloudSearch, você pode consultar o Amazon CloudSearch Developer Guide e seguir o tutorial Getting Started.


Vídeo: Introdução ao Amazon CloudSearch

Introdução ao Amazon CloudSearch
Para ver um resumo dos recursos do Amazon CloudSearch, assista este vídeo.

Vídeo: Como construir um aplicativo de pesquisa usando o Amazon CloudSearch

Como construir um aplicativo de pesquisa usando o Amazon CloudSearch
Para ver como utilizar o Amazon CloudSearch para desenvolver um aplicativo de pesquisa, incluindo upload e indexação de um grande conjunto de dados públicos, configuração de campos de indexação, personalização da classificação e integração da pesquisa em um aplicativo de amostra, assista este vídeo.


Uso pretendido e restrições

O uso deste serviço está sujeito ao Acordo do Cliente da Amazon Web Services.

©2013, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.