Yelp 成立于 2004 年,其主要宗旨是帮助人们与当地的优秀企业取得联系。Yelp 社区最知名的特点是分享对于各种当地企业的深入评论和见解。在其 6 年的经营期间,Yelp 已从单一城市的奇迹(旧金山)发展成为一种跨 8 个国家和近 50 个城市的国际现象。截止到 2010 年 11 月,Yelp 站点拥有总共超过 3 900 万独立访客,Yelp 用户已发布了超过 1 400 万条评论。

Yelp 已建立了一个忠实的消费者关注群,这很大程度上是因为他们非常注意保护客户不受网络钓鱼或可疑内容的侵害。Yelp 使用自动审核筛选器来识别可疑的内容,最大程度地降低将其暴露给消费者的可能性。该网站还提供广泛的其他功能,可以帮助人们发现新公司(名单、特别优惠和活动)并互相沟通。此外,企业所有者和经理们可以建立免费账户来发布特别优惠、上传照片并向客户发送消息。

该公司还专注于开发移动应用程序,其应用程序最近被选入了 iTunes 应用程序名人堂。Yelp 应用程序还可以用于 Android、Blackberry、Windows 7、Palm Pre 和 WAP。

本地搜索广告是 Yelp 营收的主要来源。搜索广告是淡橙色的,并且清晰地标明了“赞助商搜索结果”。不允许付费广告商更改评论或重新调整其顺序。

Yelp 最初依赖大型的 RAID 和 Hadoop 的单个本地实例来存储其日志。在 Yelp 决定使用 Amazon Elastic MapReduce (Amazon EMR) 后,他们将 RAID 替换为 Amazon Simple Storage Service (Amazon S3) 并立即将所有 Hadoop 作业都迁移到 Amazon Elastic MapReduce 中。

Yelp 搜索和数据挖掘工程师 Dave Marin 说: “我们 Hadoop 集群上的硬盘空间和容量不足。”

Yelp 使用 Amazon S3 来存储每天的日志和照片,每天可生成约 100 GB 的日志。该公司还使用 Amazon EMR 支持近 20 个单独的批处理脚本,它们当中的大部分都用于处理日志。Amazon Elastic MapReduce 支持的功能包括:

  • 查看过此内容的人还查看过
  • 要点回顾
  • 键入搜索内容时自动完成词语
  • 搜索拼写建议
  • 热门搜索
  • 广告

其作业将独占写入 Python,同时 Yelp 使用自己的开源库 mrjob 在 Amazon EMR 上运行 Hadoop 流媒体作业,并使用 boto 与 Amazon S3 对话。Yelp 还将 s3cmd 和 Ruby Elastic MapReduce 实用程序用于监控。

Yelp 开发人员建议其他人借助 AWS 来利用 boto API 和 mrjob,从而确保 Amazon Elastic MapReduce 作业流的充分使用。Yelp 每天运行约 200 个 Amazon Elastic MapReduce 作业来处理 3 TB 的数据,并借助 AWS Support 来帮助他们进行 Hadoop 应用程序开发。

使用 Amazon Elastic MapReduce,Yelp 可以节省 55 000 USD 用于前期购置硬件的资金,并且从设置到运行只需几天,而不是数月。然而,对于 Yelp 而言,最重要的是机会成本。“借助 AWS,我们的开发人员现在可以做到之前无法完成的事情,” Marin 说。“我们的系统团队可以集中精力应对其他挑战。”

若要了解关于 AWS 如何帮助您满足数据需求的更多信息,请访问我们的“大数据”详细信息页面:http://aws.amazon.com/big-data/