文|AI财经社 周路平 唐煜
编辑|赵艳秋
视觉|谷粒多
2018年7月初,山东临沂警方公布了一起特大倒卖个人信息案。这个案件倒卖的手法并不复杂,通过QQ群购买个人的隐私信息,包含了用户的手机号、上网基站代码、URL等40余项。
这些信息可以跟踪用户的上网行为和地理位置,甚至能登陆一些加密性不太强的页面,获得用户的账号和密码。而购买信息的人有营销公司,有互联网公司,当然也有诈骗集团。
令人感到意外的是,2016年引起全国轰动的徐玉玉电信诈骗案也发生在山东临沂,而诈骗的背后是信息泄漏的泛滥成灾。
当年,这位家境贫寒的山东女高中生徐玉玉,拿着亲戚凑来的9900元学费最终却成了骗子的猎物。骗子也是通过QQ群,以每条0.5元的价格购买了1800条高中毕业生资料。徐玉玉是其中一个,也是唯一上当的人。骗子谎称是教育局领导,一步步把徐玉玉的学费骗走。
19岁的徐玉玉受骗后在报警回家以后心脏骤停离世
在这次山东破获的案件中,涉及的11家企业中,出现了一家上市公司“数据堂”,它被称为“中国大数据第一股”。更令人意外的是,这也是数据堂第二次在同一个地方犯错。
第一次发生在去年5月,当时就是因为数据隐私问题,数据堂“一位VP级别的高管、5名业务人员都被警方带走调查”。之后,数据堂关停了对合法性界定不清的金融线及营销线业务。这直接造成数据堂的业绩大幅下滑,2017年营收同比下滑34.5%,净利润从2016年的-1693.55万元,到2017年的-9776万元,亏损扩大了将近5倍。
而仅仅在一年之后,数据堂再次被指控贩卖用户隐私数据。根据警方披露的信息,数据堂在8个月内,日均传输公民个人信息高达1亿3千万余条,累计传输数据压缩后达4000GB左右。“这听起来挺吓人的。按照全球人口70亿计算,平均每人4.5条。”一位人士解读。而涉案者中甚至包括了4名博士生和博士后。
01 数据堂癌变
作为一家新三板挂牌企业,数据堂曾备受追捧。这家只有数千万营收的公司市值最高时达到21亿元。只是,为何一家知名的大数据公司屡屡在同一个问题上踩雷?
“这是商业模式决定的。”沈甄对AI财经社透露,他是国内一家大数据企业的负责人。数据堂从一开始就在做数据的倒买倒卖,通过网络爬虫、信息共享、购买等方式获取数据,然后对数据进行清洗、分类处理之后,向客户提供定制化数据服务来获益。
数据交易并不是见不得人的生意,但数据的源头和贩卖的尺度一不小心就会越入公民隐私的边界。在目前的形势下,无论是给金融机构提供征信数据,还是给商家提供营销数据,亦或是为互联网企业提供人工智能训练数据,堂堂正正的方式很难赚到大钱。而做隐私数据交易,情况就不一样了。
AI财经社从知情人士处获悉,在行业内,隐私数据和一般性数据的价钱相差十倍数十倍。而这些隐私数据涉及到的信息,详细程度超出了很多人的想象。
在一份私下流传的数据售卖推介单里,项目包括公民个人信息、银行开户信息、银行流水等。也有资深人士介绍,灰色链条提供的信息,有的是个人银行存款区间,把人按10万元、50万元或者500万元等分级;有的是个人名下房产和汽车资产。
“市场对此是有大量需求的”,这是催生灰色链条的原力。
据AI财经社获悉,一位与数据倒买倒卖原本毫无关联的人士,在两年前接手了朋友的一个汽车O2O项目。因为一直烧钱做推广,团队活得很艰难。就在去年,他们突然找到一条生财之道,曾把之前社区和App上注册的用户手机号码和购车意向打包卖给4S店,收入达几千万元。
叶铭是一家做广告推送的公司员工,他告诉AI财经社,在早期安卓系统不完善时,很多App都会嵌入各种SDK开发包,这些开发包通常具备统计下载量、推送消息的作用。为了获取数据,开发包被免费送给一些小的App开发者使用,当用户安装了这些应用后,企业即可大肆窃取诸如通讯录之类的信息,甚至可以跨应用去监测手机里的其他App。
根据《财经》杂志的报道,数据堂能做到数据全面且便宜,原因在于它整合了大量购买数据的小渠道,这些渠道大多不合法。其中包括各种黑客、内鬼,他们通过QQ群、微信群出售数据,还包括以暗网为主的非法网站,他们大量搜刮数据,重新整理后低价出售。
“我曾面试过数据堂离职的员工,对方告诉我离职的原因是——干一段时间后,不敢再继续干了。”沈甄对AI财经社说。
2011年创办的数据堂,风光期出现在2015年前后。当时几个互联网风口叠加,一方面,大数据被认为是石油,一些企业想试水“石油”的价值;另一方面,人工智能概念开始被热炒,而人工智能的基础是数据;再加上此时资本市场在2C领域已经打捞得差不多了,也跑到2B领域来寻找新风口,这为蹿升的行业又加了一把火。
在各种利好的加持下,数据堂于2014年底挂牌新三板,2015年收入同比增长了270%。这时,数据堂的主要客户是做人工智能的企业,它在2015年的前五大客户中有四家(百度、商汤、三星、华为)从事人工智能业务的研发工作。
相比于倒卖个人征信数据和驾照数据,给人工智能企业提供训练数据,听起来正规得多,但需要花大量人力物力进行采集和标注,收益不算高。沈甄透露,以给互联网企业提供的语音训练数据为例,需要征集到人来采集语音。根据语种和标注的难易程度,1小时的语音数据从几十元到一百多元不等。小语种的价格会比中文贵好几倍,甚至10倍以上。
数据堂显得非常急躁。上述业内人士介绍,数据堂主要的精力集中在销售,通过低成本报价获得订单,而非技术层面。“实际上,它仍然靠倒买倒卖的业务来维持真正做人工智能这一块。”
“在我们这个圈内,数据堂其实口碑并不好。”另一家数据企业负责人对AI财经社说。为了实现快速增长,数据堂的做法是打价格战,把利润压得很低。这种做法引起了其他从业者的不满。
“数据堂就不应该上市。”一位资深行业人士道出了数据堂心急变现的原因,数据堂合规业务的营收规模,很难支撑一个上市公司,“这是资本的驱动和人性的贪欲。”
02 律师的无奈
数据堂一而再地陷入贩卖用户隐私漩涡,还有一个原因是搞不清楚隐私的边界到底在哪。这也是法律界从业者的无奈。
不久前,张伟给孩子在新东方报了个培训班,但很快,关联度极高的几个广告骚扰电话打到了他的手机上。张伟的身份是北京致知律师事务所的律师,但他坦承自己也会犹豫要不要通过法律途径来主张自己的权利。
他很清楚举证会遭遇的困难,不仅要证明自己的信息确实被泄露了,还要证明泄露信息的是不是新东方。他还要考量,即便一切顺利进行,可能最终得到的不过是信息泄露方的一个道歉和额度很小的经济补偿。
“到最后有可能就纯粹打了一场官司,耗费的精力和时间都会很大,这样的话,每个个体都会考虑值不值。”
张伟最终放弃了诉诸法律的想法。“人们没有去维护自己权益、主张赔偿的积极性,这恰恰是目前国内对公民隐私权保护力度不够的一个体现。”
事实上,大多数老百姓并不知情自己的信息已经被泄漏。即便泄露了,也抱着无所谓的态度,“无非是接到了几个骚扰电话而已”。尽管李彦宏因为一句“中国人更愿意隐私换便利”的言论遭到批驳,却被很多人认为道出了客观现实。
让大数据行业和法律界人士更挠头的是,数据交易的边界一直没有明晰的界定,这导致你不知道什么时候就会踩雷。
早前几年,个人隐私的概念还很淡薄,成就了很多大数据公司的野蛮生长。他们通过政府机关、金融机构和运营商等,以低成本,甚至零成本,拿到了数据。这些数据后来摇身一变成了金融业的征信数据,包含身份证号、电话、婚姻状况、信用卡借还款信息,基本上“个人家里的情况都摸清了”。
到了2017年,国家颁布了《网络安全法》,但针对个人信息权的条文不够细化。什么可能有风险,怎样才能合法合规,具体怎么执行,很多都没有定论。
今年5月,欧盟“一般数据保护条例”(GDPR)”正式生效。这被称为史上最严厉的个人数据保护条例,为全球各国未来在个人数据保护上的立法提供了示范。
在欧盟的GDPR中,既有指导原则,也有执行细则,还有天价处罚。对于违法行为,轻者处以1000万欧元或者上一年全球营收的2%的罚款(两者取其高);重者处以2000万欧元或企业上一年全球营收的4%(两者取其高),这让行业从业者和执法者看到了严峻性。
在国内,目前立法和司法的滞后,更多的是对已经发生的损害亡羊补牢。
在律师张伟看来,“对于大数据企业,目前真的没有什么监管”。比如,大数据企业既然是一个经营主体,就该归工商行政管理部门,但这些部门的职责还相对传统,没有管理“个人信息”的能力。即使有这个管理权力,也没有行政处罚权。这种纸面上的监管,就跟没监管是一样的,导致运营的企业没有办法得到有效的约束和管理。
模糊的边界,有钱可赚,又缺乏监管,让一些人铤而走险。《财经》曾报道,80%的数据泄露是企业内鬼所为,黑客和其他方式仅占20%。知情人士对AI财经社说,这些内鬼分布在运营商、银行、交管所、公安等手握数据的机构。
虽然从2015年开始,《刑法修正案(九)》对于出售、非法提供和非法获取公民个人信息罪的处罚,从最高刑期3年提升到7年,对“内鬼”作案也加大惩治力度,如一般人提供50条高度敏感信息入罪,而金融、电信、医疗等人员提供信息,25条就够入罪,但仍然有内鬼抱着“抓不到”的侥幸心理,行走在灰色地带。
不过《网络安全法》的出台,仍威慑了靠贩卖数据生存的公司。
“很多做数据聚合的公司,估值都被资本市场腰斩了。”AA投资创始合伙人王浩泽告诉AI财经社,他投资了多家to B企业。因为新的网络安全法的出台,单纯靠聚合数据和买卖数据的商业模式至少在目前看来已经行不通。
甚至连大数据的公司IPO也面临着隐私安全的挑战。一位知情人士对AI财经社透露,目前国内几家大数据企业在排队上市,但卡在了证监会的审批环节,而证监会的担忧也集中在个人隐私问题上。
不过,一位资深数据行业人士告诉AI财经社,也有一些企业购买用户隐私数据“实属无奈”,这些企业本意上并不是要偷窥个人隐私,他们有获得公共数据的需求。这些信息本应由政府部门开放共享,但官方渠道要么共享不足,信息发布不规范,要么数据不一致,准确性待考证。最终他们不得不“求助”灰色链条。
如果公共数据的共享能不断完善,灰色利益链也将失去部分原力。
实际上,数据交易只是大数据领域的一个方向,除此之外,还有诸如新环、Cloudera等做数据基础平台,诸如Talkingdata、神策做用户行为分析等具体场景应用......大数据行业涉及领域极为广泛,诸多服务环节都需要企业来拓展。
神策数据创始人&CEO桑文锋对AI财经社分析,大数据行业还处于萌芽阶段,每个细分领域都需要摸索。在数据交易上,由于没有清晰的边界,业务风险还较大;在数据基础设施领域,需要用户和企业摸索技术的落地;在数据应用领域,把数据变成石油,也还在探索初期。
“这是一个需要扎扎实实做下去的行业,不是一个挣快钱的地方。”桑文锋在分享自身创业心得时说。
毋庸置疑,像数据堂这种用泛滥的隐私数据交易,支撑上市企业盈利的模式将很难再现。而仅靠风口,也无法支撑独角兽神话。据AI财经社获悉,南方一家大数据公司,在2016年刚创业时就获得1亿元风投,但在去年,这家公司的几百人团队只剩下几十人。
作为2015年前后蹿升的风口,大数据的投资和创业在2016年到达了一个顶峰。不过,无论是提供训练数据的公司,还是落地应用的大数据公司,都没有营收超过10亿的企业。相比于抖音、今日头条这些快速成长的面向C端市场的独角兽,to B生意的进化速度要缓慢得多。
但所有人都知道了一件事:数据很重要,大数据要成为一门堂堂正正的生意。而在数据堂案后,行业面临一个共同的疑问:数据交易为主的商业模式,怎样才能合法合规?
(文中叶铭、沈甄为化名)