ReadWrite

大数据如何揭示城市的秘密生活

工作中的数据 介绍在大数据领域最前沿的数据科学家。

假设数据科学家可以像电子商务网站在网上跟踪人们一样轻松地跟踪人们在城镇中的移动情况?

不要回答。它已经在发生,至少部分要归功于一家名为StreetLight Data的初创公司。

StreetLight创始人兼首席执行官Laura Schewel当时在加州大学伯克利分校(UC Berkeley)从事能源工程博士学位,当时她具有“啊哈”的想法,即使用蜂窝塔,交通数据聚合器和GPS卫星中的数据来跟踪城市和州内人们的移动方式全国各地。

路灯数据创始人兼首席执行官Laura Schewel

最初,Schewel认为这些信息可能有助于交通工程师规划新的高速公路和停车位。但是事实证明,她的系统聚合的数据有用得多。

如何跟踪而不跟踪

不管喜欢与不喜欢,很容易看到人们的网上行为。 Cookie和更先进的技术使广告客户可以跨网站跟踪个人,部分原因是在线环境受到控制(几乎在术语的每个意义上)。

在现实生活中,这种类型的跟踪以及收集对人们行为的见解的相关任务要复杂得多。 

基本问题是将不完全合适的大型拼图的所有部分放在一起。您如何获取并理解普通人生成的数据,以便以一定程度的确定性-以通用和匿名的方式但仍具有分析性的有用方式-在他们的购物地点,所走的高速公路,甚至是否更有可能周五在巨人队比赛且旧金山交通不畅时乘坐火车吗?

也可以看看: 为什么数据科学家能获得如此丰厚的报酬

对于StreetLight,一切都从手机开始。当您的电话在不同的蜂窝广播塔中注册时,主要的运营商会收集详细的位置数据(因此会提供您的详细移动记录),您可能不会感到惊讶。

但是您可能还不知道承运人会以基本上为大部分人口提供移动记录的格式出售对这些数据的访问权。全部匿名化:数据由地图坐标和识别特定电话的ID号组成,后者通过单向哈希函数运行,该哈希函数旨在产生无法与原始ID匹配的唯一数字。 

StreetLight的专有模式识别算法可以推断出承运人地理数据中所覆盖人员的“最喜欢”位置,例如其住所和工作区。然后,StreetLight将这些信息与人口普查和其他人口统计信息(例如家庭收入,教育状况和种族)交叉引用。 [已更正: see below]

最终得到的是丰富而详细的数据库,例如,这些数据库可用于生成某人的平均个人资料,这些人可能在下午5点在Whole Foods购物,在星期一早上将孩子放学放学或从旧金山到纽约上下班。东湾上班。  

这样说,StreetLight的声音听起来有点令人毛骨悚然,也许是这样。当然,Schewel和她的团队强调,诸如单向哈希这样的保护措施使得不可能将有关组的汇总数据绑定回各个用户。 “我们无法将任何东西实际映射回个人。 Schewel告诉我,所有这些数据都在我们获得数据之前就被剥离了。

同时, 取消匿名此类信息 随着时间的流逝往往会变得更容易,部分原因是 个人正在生成越来越多的数据 关于自己的信息,可以用作查明实际身份的交叉参考。

不管这种隐私问题是否值得,这种类型的数据都可以在各种情况下提供有价值的信息。由公司决定是否以及在何处扩展;计划需要新分区,公交或道路的城市和公交计划者;也许发展中国家正在计划新的基础设施甚至整个城市。

将数据转化为信息

事实证明,StreetLight将这些非常不同的数据类型映射到一个一致的数据集中的过程非常简单。每个月,Schewel的团队都会从移动运营商和其他数据提供商那里收到价值约400GB的混乱地理数据。

考虑到StreetLight的移动方式涵盖了美国大部分地区,这听起来并不算多-即使考虑到明年预计每月的负载将达到800GB(该公司偶尔也会偶然收集加拿大的数据,并且不得不丢弃Schewel说,但是地理空间数据是相当精简的,并且占用空间很小。数据将添加到StreetLight的现有多TB数据存储中。

然后,StreetLight通过自定义推送数据 提取,转换和加载过程 通过流行的大数据集成工具Talend运行。这会修剪掉不必要的信息,并将不同类型的数据重新格式化为统一的架构。

在此过程中,此过程将匹配不同类型的数据-蜂窝塔位置,交通报告,人口普查模式,其他数据源-范围从人口普查区到城镇或城市到区域,以及沿着高速公路或其他过境走廊,在不同的地理范围内。所有这些数据都引用特定的地理空间位置,并且在许多情况下还引用特定的时间段(“始终”,“工作日”,“高峰时间”等)。

StreetLight对我们的了解

所有这些工作都以有意义的方式将不同类型的数据链接在一起,从而可以很好地了解适合特定人口统计学特征的人们在哪里以及何时度过。

举例来说,您想进一步了解在斯坦福购物中心购物的人。 StreetLight数据库可能会告诉您,居住在高端社区中的拥有研究生学位的50岁以上的人一直在那儿购物;周末(尤其是八月和十二月)在中产阶级和高端社区有孩子的家庭在这里购物;而没有大学学位的人只能在春季的星期一晚上去购物中心。

现在这就是数据透明性。

例如,StreetLight可以帮助正在考虑开设一家新商店的零售链,从而获得有关其潜在客户的更好信息。例如,在拟议的购物中心位置,平均购物者的收入是接近50,000美元还是100,000美元,是有一个孩子还是三个孩子,或者是50岁的女性还是21岁的男性。可以想象,这样的数据非常有价值,而不仅仅是公司。

正如Schewel向我解释的那样:

实际上,我们可以显示出,如果将要建造一条新的高速公路匝道,或者改变了道路,甚至暴风雪来临时,将会发生什么。为此,我们可以查找发生类似情况的事件发生的过去几天。它是真实的行为,比运行模拟要好得多。

为了获得较高的信心度,StreetLight需要的样本量至少等于任何位置的人口的1%。不过,Schewel首选5%到6%,以获得更好的信号保真度。

X射线平均购物者

StreetLight已经以一些意想不到的方式证明了自己的价值。 2013年,奥克兰商业发展公司(OBDC)希望增加市区内闲置数百处商业物业的社区的经济活动。奥克兰当地人也在其他​​地方花费高达零售额的四分之三,部分原因是缺乏选择。

东湾的美食家们知道奥克兰市中心的用餐环境正在起火。 OBDC是一家非营利性的城市发展机构和商业贷款组织,它试图通过吸引零售商和开发商来利用这种繁荣。但是,当其前景调查附近社区的人口统计数据时,它就大吃一惊,其中许多都是低收入地区,并且被撤退了。

OBDC转向StreetLight,以更清晰地了解奥克兰市中心的商业前景。其数据显示,该地区经常吸引有钱的中产阶级和低收入人群。

OBDC利用这些发现说服怀疑的商店所有者考虑将其放置在市中心。但是,该组织也向零售商提供贷款,因此将数据更广泛地使用-主要是为了确认该地区的购物人口统计信息可以支持多种商店类型。

OBDC总裁兼首席执行官雅各布·辛格(Jacob Singer)表示:“这些数据帮助我们在明年填补了数十个空置店面。”

Singer现在正在考虑购买StreetLight数据,作为零售和城市规划工作的一部分,围绕即将在未来几年内在奥克兰市中心进行的基于公交的快速运输项目进行。他说:“实际上没有可比的替代方案为城市规划和项目评估提供如此详细和准确的数据。”

阅读街灯X射线

迅速发展的素食快餐连锁店VeggieGrill与StreetLight签约,以了解最接近素食人口的人们倾向于在哪里购物和消磨时间。

其他零售商则反向使用StreetLight数据。举例来说,男士服装店(Men's Wearhouse)使用StreetLight不仅可以发现新的商店位置,还可以根据客流模式和购物者的人口统计来识别表现不佳的商店。

StreetLight的数据通常会显示出意外的模式-或没有它们。有时,这可能会显示出经常光顾两个相邻购物中心的购物者类型的巨大差异,或者商店与附近社区之间出人意料的差异。

Schewel说:“我们还可以告诉一家连锁商店,住在某个地点的富人很少去那家商店。” “对于某些客户,我们看到了令人惊讶的死角,您可能会认为有很多人会去购物,但实际上很少有人涉足。”

超越购物

除了帮助商家优化商店位置外,Schewel还制定了宏伟的计划。例如,通过详细数据改善发展中国家的公共规划。

她说:“这些国家中许多都没有进行人口普查,也不真正知道人们的生活状况,因此我们的信息将是第一个真实数据。”而且,由于从未有过广泛的固定电话的国家通常拥有比美国更密集的手机网络,Schewel认为StreetLight可以提供更详细的用户数据。

最终,StreetLight的数据还可以帮助回答有关全天运输方式的更棘手的问题。这些模式反映了复杂的人类决策,这些行为导致行为和流量模式难以单独分析。

正如Schewel告诉我的那样:

我们可以捕获公民的整个旅行日。我们不仅可以看到人们在家中上班时会发生什么,我们还可以看到人们没有乘坐公共交通工具,因为他们不得不从学校接孩子,或者他们更有可能去超市购买杂货。星期五晚上。这种类型的细节使每个需要了解人们的移动方式的人都可以比以前更好地了解因果关系。

改正,太平洋时间晚上11:19: 本文的早期版本错误地 描述了StreetLight从运营商处购买的信息。它仅从运营商获取地理位置数据,而不从运营商获取 匿名的人口统计和用户信息。