因为 Cambridge Analytica 分析用户信息进行操纵选举的事件,Facebook如今深陷舆论旋涡,其CEO扎克伯格也在美国时间4月9日,即他出席美国国会听证会的前一天与美国议员会面,并为Facebook不当使用用户数据道歉。但是,Facebook并非唯一一家收集互联网用户数据用于商业或政治目的的公司。
超过5000万Facebook用户的记录被收集,凸显出在线用户挖掘的危险性。而收集了这些数据的公司 Cambridge Analytica,则反映出了这些数据的各种利用可能性。Cambridge Analytica 用这些数据建立了5000万用户账户资料,然后在2016大选中用这些账户信息为共和党候选人(特朗普)站台。
然而,真正接受 Cambridge Analytica 承包商在线调查的用户仅有27万人。通过收集所有调查接收者社交网络好友的信息,利用相对较少的用户形成5000万用户的巨大数据库,这种信息收集和利用能力显露出了社交网络的巨大力量。
与网上收集和用户自愿提交不同,这次被搜刮信息的用户绝大部分都是受害者,他们并没有授权 Cambridge Analytica 收集自己的数据。
这些数据根本就是从用户手中强拿的,用户本无意与任何第三方共享,尤其是这么一家之前根本没听过的公司。
Cambridge Analytica 从用户那里骗到的个人信息的深度和广度昭示着数据收集生态系统的危险性。然而,企业和政治活动人士才刚刚开始探索这些数据可以用来做些什么。除了可以直接推断人们的政治观点、健康问题和生活方式,Cambridge Analytica 还宣称,人们的看法也是可以借此改变的。
Cambridge Analytica 事件中比较有趣的一点是,人们似乎倾向于轻视看起来像是广告一样的东西。但是,这些长得像广告的东西向用户馈送的,才是真正重要的。这并非单纯的可口可乐vs百事可乐,它会扭曲你对时事的看法。
数据收集与分析公司能从你的线上数据中推断出你的哪些属性呢?
1. 匿名没戏
互联网上几乎做不到匿名。即便对在线发布信息很谨慎的人都会发现,通过数据收集和数据发布,大范围分析往往能将看起来毫无关联的事件或者匿名的活动联系在一起。
比如说,2008年的一篇论文中,德州大学奥斯汀分校的研究人员就发现,在IMDb上发布了几条电影推介的用户,就身处Netflix用于调研目的而发布的匿名电影推荐的大型数据库中。
这种泄露能造成重大影响。给流行电影打分的人会发现自己被纳入了更大的数据集,自己私下打过分的其他成百上千部电影都与自己关联了起来。
电影评分可揭示出评分者的多种属性,比如性向、政治偏好和健康问题。虽然不应该单单从电影偏好上进行推断,但在许多工作和社交场合,对《同志亦凡人》这种同性恋主题电影所持的观点(在Netflix观影记录中会有所体现),往往比较敏感。
来自社交网络、地理位置数据和在线阅读偏好的数据也可应用类似的关联和分析技术。
2. 发现浏览习惯
浏览记录能说明很多问题,而有兴趣的公司和数据代理商就用各种各样的办法来收集此类信息。2016年,德国公共广播电视公司NDR的一名调查记者和一名数据科学家发现,名为 Web of Trust 的一款浏览器插件一直在收集300万名德国用户的浏览器历史记录。
由于很多社交媒体站点都在链接中带有用户ID,浏览器历史记录去匿名化并不难。某些案例中,仅仅知道某人使用的部分站点就足以在Web链接数据库中找出他们。
完全不用浏览器插件也避免不了被标定的命运。某些情况下,各种漏洞就让不道德的Web站点具备了发现浏览者是否浏览过其他站点的能力。这种“历史嗅探”技术的用法很多,找到信息就像检测链接是否被访问过一样简单。
另外,广告网络还会从浏览过加载了其广告的站点的任何浏览器上收集信息,在用户浏览各个网站的时候通过安装cookie或其他追踪数据来标记用户。广告情报公司eMarketer的数据显示,消费者对此类跟踪技术的担忧正是广告拦截器使用率稳步上升的原因之一——今年拦截器的使用率有望升至31%。
3. 确定政治立场
Cambridge Analytica 已因非法收集用户数据用于政治活动建模而处于舆论的风口浪尖了。不过,该技术的准确率很大程度上取决于所用的数据,也不是总那么准确。举个例子,2013年,加拿大麦吉尔大学的2名研究人员发现,其他研究论文就对通过机器学习检测政治偏向性的能力太过乐观了:验证数据集的收集方式才是模型准确率的决定因素,不管过去的成果多么斐然,所用方法多么先进。
但是,机器学习和自然语言处理技术如今已然大幅进步。社交网络提供商Lithium分析了推特用户反馈,发现如果推文提到了其他用户,其政治取向的分析结果就会更准确。仅包含没提到其他用户的推文的训练数据集,其推断准确性就比包含了提到其他用户的数据集低了20%。
Facebook用户能看到社交网络与自身利益和政治取向的紧密联系。
4. 确定性取向
无论是电影评分还是浏览器历史记录,太多在线数据可被用于猜测用户的性取向。不仅如此,还有其他技术甚至可以用更少的数据来推断用户取向。比如说,一张照片。
2017年的一篇争议性论文中,斯坦福大学的两名研究人员发现,神经网络可以检测出人类面部特征与性向之间的联系。部分人批评该研究是助长成见,还有其他研究则发现该识别引擎是对笑容和头部姿势之类的因素敏感。2018年,谷歌3名研究人员驳斥了该论文,他们发现一些询问受访者是否有某些特定习惯——比如戴眼镜或留胡须等,也能得出相似的结论。
5. 健康状况
消费者的购买习惯透露出有关其个人生活的很多信息。购物习惯足以确定消费者的健康问题,比如妊娠、糖尿病等。塔吉特百货就曾为了提升其对准妈妈客户的识别率,而爬取了大量购物数据,发现了与妊娠紧密相关的20多种产品。《纽约时报》2012年的一篇报道显示,该公司甚至先于某高中女生的父亲发现该名女生已怀孕。
消费者四处留下信息。商家知道哪些人酗酒,哪些人在找躁郁症的治疗方案,他们什么都知道。
而且,搜索结果中弹出的很多网站其实都在收集和售卖网站访客的数据,要么自己收售,要么通过第三方广告商这么干。宾夕法尼亚大学一名研究人员搜索了2000种常见疾病,发现搜索结果中90%的网站和广告网络都在跟踪访问者的兴趣点。
6. 侦测情绪
科技巨头苹果、谷歌和Facebook,还有Affectiva之类专业初创公司,都已经开始分析用户的社交媒体发布内容来衡量用户发布当时的情绪了。2014年的一份研究中,Facebook用机器学习基于情绪性内容为社交媒体帖子进行了分类,发现正面和负面内容都具有传染性,情绪可通过社交媒体广为传播。
苹果和谷歌也在找寻检测并利用情绪的方法。在2016年收购了Emotient公司的苹果,在其Animoji和 Face ID 中运用情绪跟踪技术来捕捉并分类面部表情。谷歌则用情绪识别来分类图像,并在其 Cloud Vision API 中为开发者提供该技术。
市场营销人员期待将来会出现能自动侦测消费者挑选商品时情绪状态的技术,一些技术人员则认为情绪敏感的机器(比如能感知驾驶员路怒倾向的汽车)才是未来发展方向。比如说,MIT孵化的初创公司Affectiva,为大量应用程序分析了650万张人脸以检测情绪。
7. 位置轨迹
通过大多数人都随身携带的设备——智能手机,用户的地理位置变化轨迹可以很容易地被记录下来。只要智能手机连接上基站网络,其信息就在蜂窝提供商那里挂了个号。2011年,德国一位政治家从其电信提供商处获得了他的位置追踪数据,描绘出了他在6个月时间范围内的活动轨迹。
其他App也可能会收集用户的位置信息,无论这些信息它需不需要。
而且,公司企业还会用其他方式收集消费者的位置信息。比如说,司法机构和公司企业就会用自动牌照识别系统(ALPR)来追踪套牌车。
总的说来,ALPR数据可以描绘出驾驶员的生活轨迹,甚至触及美国宪法第一修正案所保护的那些活动。因为哪儿哪儿都用得到车牌,ALPR用于跟踪记录大量普通民众的行动就有点烦人了,毕竟绝大多人都与犯罪无关。
EZPass和其他自动收费装置也会记录下用户的位置。10月份,调查发现,纽约市交通局利用EZPass脉冲转发器跟踪曼哈顿的交流状态。
当前数据经济大环境和消费者隐私保护立法的欠缺,导致了数据收集市场的混乱,公司企业纷纷创建诱骗性服务,吸引消费者交出自身数据的使用权,而且很多时候消费者甚至都没有意识到自己交出了什么。消费者和互联网公司之间需要有新的协议公约出现,即默认情况下保护用户隐私而非偏向广告商利益的新公约。
(责任编辑:冬天的宇)