然而现实是,这些数据通常高度敏感且无法访问,在合规性和锁定状态的处理上也相当麻烦。
好消息是,大约半年前,由前美国国家安全局(NSA)和亚马逊工程师组建的一支团队,就已经在致力于打造一个“适用于数据托管的GitHub平台”了。
据悉,前NSA和亚马逊工程师们创立了一家名叫Gretel的初创企业,旨在帮助开发者对敏感数据展开实时、安全地共享。
联合创始人之一的AlexWatson(其他创始人包括JohnMyers、AliGolshan和LaszloBock)描绘了一个常见的问题:
通常情况下,开发者无需访问数据库的完整权限,而是只请求一部分或某个特定的示例。然而在用于酷炫的案例之前,平台首先得确保数据能够被安全地共享。
好消息是,以GitHub为代表的企业,已经证实了此类源码分享平台的广阔前景、且有助于简化代码的访问和协作。目前他们缺少的,只是与GitHub体量相当的数据。
AlexWatson补充道:“外媒当前正在开发的软件,已允许开发者自动检出数据集的匿名版本”。
这种所谓的‘合成数据’,实质上是人造出来的。其外观和工作方式,有些类似于常规的敏感用户数据。
Gretel使用机器学习对数据进行分类(如名称、地址和其它客户标识符),并为数据分配尽可能多的类型标签。
一旦该数据被标记,即可应用访问策略。然后借助匿名处理大量数据的差异化隐私技术,使之不再与客户信息捆绑到一起。
显然,这种借助机器学习生成的完全人造的数据集,已经引起了业内的广泛关注。此外值得一提的是,Gretel计划采用与亚马逊云服务类似的按需收费政策。
目前这家初创企业已经拿到由GreylockPartners牵头的350万美元种子轮资金,其它投资者包括MoonshotsCapital、VillageGlobal和几位天使投资人。