作为澳大利亚的国家科学机构,联邦科学与工业研究组织 (CSIRO) 在 85 年多以来一直在挑战各种不可能。今天,这个多学科研究组织在澳大利亚和全球范围内有 55 个研究中心,工作人员超过 5000 人。它在加强澳大利亚国家创新系统内部协作方面扮演着重要角色,并充当了政府、工业和科学界值得信赖的顾问。在 22 个研究领域中,它在其中的 14 个领域中排名前 1%,在 4 个领域中排名前 0.1%。综合来看,CSIRO 的创新能力和卓越表现使其成为全球排名前 10 的应用研究机构。

Black Dog Institute (BDI) 成立于 2002 年,是一家非营利性澳大利亚研究机构,致力于改善各种情绪障碍的诊断、治疗以及预防。其目标是让医疗专业人士和普通大众了解精神健康相关问题,并通过自己的网站提供包括情况说明书和调查问卷在内的一系列资源。例如,澳大利亚各地区的全科医师会建议患者参看 BDI 的在线情绪评估项目 (MAP)。该项目可以分析人格类型并帮助区分焦虑、躁郁症以及各种临床抑郁症子类。凭借 9 位院长、12 位顾问医师以及无数个支持员工,BDI 不断发展并吸引精神健康领域的权威专家,并在他们的帮助下获得新的资助金和荣誉。2013 年,BDI 执行院长 Helen Christensen 教授被澳大利亚精神病研究协会授予享有盛名的创始人勋章。

自 2014 年 5 月以来,BDI 和 CSIRO 一直合作研究社交媒体的使用,以监控大范围的情绪变化。We Feel 研究基于大量数据样本,其中包括每天在 Twitter 上发布的亿万推文。CSIRO 向 Black Dog Institute 提议了这项研究,后者在 CSIRO 开展研究之前帮助其完善了概念。

根据之前波士顿东北大学开展的研究,可以通过分析推文的内容和结构来判断其撰写者的情绪状态。例如,在佛蒙特大学复合系统中心进行的一项研究中,合并了包括 Google Books、纽约时报文章和 Twitter 消息在内的一系列来源中使用最频繁的 5000 个词。他们按照从 1 (难过) 到 9 (幸福) 的级别对这些词进行了排列,并基于此将美国居民的幸福感与一系列重大新闻报道对应起来。

We Feel 研究的设计人员希望将这种基本方法应用到每分钟将近 19000 个可公开访问的推文中,基于大量情绪相关的字词展开研究。研究人员希望这项研究能够帮助他们了解情绪对社会和环境因素 (例如天气、一天中的时间和时事新闻) 的依赖程度。

为了实现目标,该研究的设计人员需要应对三大挑战。首先,如此多的传入数据将需要大量灵活的计算能力来实时收集推文并对结果进行分析。其次,他们需要安全存档数据,以便能随着时间衡量和发布样本。最后,让公众能够访问并理解研究结果,这一点很重要。为此,他们需要一种方法,来使用情绪颜色编码系统 (利用比利时根特大学阅读研究中心研发的标准情绪等级数据集) 以可视方式实时呈现结果。

We Feel 团队立即被 Amazon Web Services (AWS) 及其实时 Amazon Kinesis 数据处理服务所吸引。“我们知道 AWS 可以提供我们需要的平台和功能,为项目选择 AWS 是显而易见的。”CSIRO 的 Digital Productivity Flagship 语言和社会计算研究负责人 Cécile Paris 博士说道。AWS 也看到了这种富有成效的潜在合作伙伴关系,因此决定赞助这个项目,并将它的产品加入到了丰厚的支持服务包中。

We Feel 使用若干个 Amazon Elastic Compute Cloud (Amazon EC2) 实例以平均每分钟 19000 个推文的速度捕获来自 Twitter 公共 API 的推文。它还使用一个单独的 Amazon EC2 实例来处理推文,分析用户名以判断性别并识别揭示情绪内容的词组。它将信息归纳到 Amazon Kinesis 流中,并将推文复制到可扩展的 Amazon Simple Storage Service (Amazon S3) 中以进行冷存储。此流由另一个 Amazon EC2 实例进行监控。该实例每 5 分钟会汇总一次结果并将其转录到 Amazon DynamoDB 数据库。CSIRO 软件工程师兼研究项目主任 Brian Jin 会使用 Amazon CloudWatch 定期查看每个实例,并借此监控网络中的异常活动。最后,使用 Amazon Route 53 将传入 Web 流量引导至同样托管在 AWS 中的 We Feel 网站。

在 CSIRO 的持续资助下,We Feel 团队现在使用 AWS 来分析数亿推文,然后将分析结果发布在网站上。这一分析结果是对大规模具有统计学意义的多样性人群的情绪状态所进行的开创性剖析。网站访问者可以按照性别、位置和情绪品质来了解分析结果。目前主要有六类情绪状态 – 从开心到恐惧。这几类情绪状态包含有细微差别的几个子类,例如乐观和紧张。

“它是一种十分强大的工具。”Paris 博士说道,“借助 AWS,我们在短短几个月内便完成了应用程序的建设和运行。现在我们可以实时分析数以百万计的推文。”

We Feel 为研究人员提供了一个将情绪变化与社会环境相关联的宏观视图。“例如,我们能够看出 2014 年澳大利亚联邦预算发布前后有趣的情绪变化情况。”Paris 博士说道,“在接下来的一周,我们看到恐惧推文增加了 30%,愤怒推文增加了 27%。我们之前从未进行过这种类型的分析。”

重要的是,凭借 AWS 的计算能力,研究人员能够专注于研究结果而不用担心 IT 基础设施的弹性问题。“我们在 2014 年 5 月经历了流量高峰。We Feel 网站在一天内迎来了 28000 位访客,当月访客达到了 70276 位。”Jin 说道,“但不论怎样,网站并没有发生延迟。除由于计划网络重新设计而仅停机一天外,我们获得了将近 100% 的正常运行时间。”

Jin 特别热衷于 Amazon Kinesis,因为它能提供实时收集并批注大量推文所需的敏捷性。“我们曾担心系统会因传入数据而不堪重负,然而这些数据量的变化并没有导致任何系统故障。”他说道,“通过保留 24 小时的缓冲期,使用 Amazon Kinesis 为我们提供固有的容错,因此,我们真的很少会担心。”

We Feel 团队计划寻求更多资金来扩展其研究工作并更好地利用 Twitter 位置信息数据,从而为分析位置和情绪状态之间的关系铺平道路。最终,更好地理解人群情绪变化的“时间、原因和地点”将帮助 BDI 这样的组织更准确地定位精神健康信息和服务。这可以在人们最需要的时候为其提供更好的精神健康保健服务。

“如果没有 AWS 平台提供的技术支持和灵活性,这个项目根本不可能顺利实施。”Christensen 教授说道,“我们能够获得的结果超出了我们的预期。”

要详细了解医疗保健提供商如何使用 AWS,请访问我们的 AWS 医疗保健详情页面