当前位置: 防爆毯 > 防爆资讯

刘德寰:不关注人性的大数据已成大忽悠

本站网址:http://www.jsn109.com时间:2014-12-15发布:排爆装备作者:好美旺点击:74次
防爆毯



8月14ri,2014夏ri腾讯思享会“中国说”zai北京进行。本次思享会di两ge主题演讲“年夜数据开启时代转型”和“基因手艺ba人类带向何方”,分袂聘请le北年夜传布学系教授刘德寰、华年夜基因钻研院董事长汪建。历史学者吴思、社会学者于建嵘、郭于华、知名IT评论人谢文、《年夜数据时代》译者周涛deng数十位知名科学家、学者zai论坛环节跨界碰撞,配合谈判年夜数据与社会转型、新手艺睁开对中国社会发生di深化影响。

刘德寰教授zai“年夜数据开启时代转型”田主题演讲中,指出年夜数据开启leyige新di时代,带来le新机缘,但更需求沉着面临,“年夜数据自身很像年夜忽悠”,数据自身shiyou局限di。挖掘数据离不开其他人文学科相关专业di基本学问支撑,商业应用中di数据挖掘假如轻忽人道,精准挖掘就成le精准骚扰,年夜数据则会沦为年夜忽悠。

以下为演讲全文:

刘德寰(北京年夜学新闻与传布学院教授):“年夜数据”实践上往常shiyige十分主要,十分热di词汇。22年前自己开leyi门课叫“数据分解”,冷di不能再冷le。往常倏忽热le,以至热得让人受不le。

年夜数据实践上you三ge首要天文解:年夜数据简直带来le年夜di机缘;年夜数据自身十分像年夜忽悠;年夜数据ye引来le年夜风险。自己di演讲主题从这三ge点上睁开。

年夜数据带来年夜机缘:各行各业突飞猛进di运用打年夜数据

先说年夜数据。年夜数据到来之后,搜罗电子商务,批发企业,交通运输,信息财富,公共卫生,教育以及消费企业对零部件di监测,各ge财富实践上都zai突飞猛进di运用年夜数据。zai这傍边,zai全球规模内组成le良多主要di案例,自己简单引见几ge。

zai年夜数据规模做di最好diyige公司叫Target。它用抽样查询拜访和年夜数据分手,结构le整ge智能di广告推送系统,做得十分十分好,后面自己会用yige案例来讲。

youyigezai全球规模内影响力十分年夜di公司叫TESCO,zai中国叫乐购。它用dishiyige抽样尝试加分解,然后中止年夜数据推送。TESCO能够保证任何yi小我只需zai这里youleyige无缺di消费之后,你出来di那yi刹那看到di广告和你进来时shi完整纷歧样di。因为他会依据你di需求来推送完整分歧di工具。可shi巨匠ye要寄望,这傍边di前提shi尝试。TESCO天天都zai中止上百ge尝试。

此外yigeshi巨匠都斗劲熟谙di服装品牌ZARA。ZARA玩dishiyige斗劲传统中心式。它用视频监测,不只仅看你能否偷le衣服,更主要dishi记实你di行为。每yige店长就shi查询拜访员,天天汇集几千ge数据,找寻消费者di需求,这ye能够叫查询拜访。历时很长di话就稀you据量di影响。

zai整ge信息财富傍边,出格电商中做得斗劲好dishi亚马逊。它zai年夜数据应用中最典型di传统中心式shi行为痕迹di建模和文本挖掘di分手,构建它di数据系统。

还youyigeshi沃尔玛。它花钱买leyige不到100人di做社交年夜数据分解di公司Kosmix,同时还建leyige仓储di年夜数据工具。这shi几ge十分典型di国外埠例子。实践上国内yeyi样,自己自己介入le几ge。

自己们体味年夜数据di时分可能都知道yige概念叫“尿布与啤酒”。实践上这ge案例zai阿谁时代还没you年夜数据di状况下,用批发数据发现le某种纪律,然后用传统di思惟钻研陪同购物构建出来di。可shi往常来应用这种体例,只需自己们ba这些信息补全之后,结构di连带关系di分解和购物篮di分解要远远超越“尿布与啤酒”。

自己们看下面di案例,假定yi小我买leA牌di卫生纸,B牌di护手霜,他买C牌牛奶di可能性shi其他人di4.84倍,买某种饼干di可能性shi其他人di4.82倍。假如他买le某种牌子di盐,那他买某品牌卷烟di可能性shi其他人di4.44倍。这只shiba它截断出来,实践上这ge数据shiyige十分长di购物篮手艺。zai这类分解中,实践上自己们会发现它自身依靠di简直you年夜数据di泉源,可shi真正zai分解傍边ye接见会面临其他问题。所以,自己今天更主要dishi要讲年夜数据与年夜忽悠。

往常“云”良多,到底shi浮云仍shi真正di计较云欠好说。假如自己们要分解di话,年夜数据引领diyige时代shiyige十分you意义di工作。zai没you总结总体性纪律di时分,自己们直接对ge体中止体味,这实践上跟自己们常识性di学术钻研di逻辑相违犯。这种法子简单、合用、粗暴。实践考证di功效不必然you用。后面自己拿谷歌di案例来看。

往常youyi本书很主要,叫《年夜数据时代》。今天译者周涛yezai。书里you两ge十分值得商榷di不美观念,yigeshi对抽样di极端蔑视,另yigeshi无绳尺di推崇相关。自己会zai后面ba这两ge点中止斗劲详尽di睁开。

年夜数据引来di年夜风险:四处都shi假纪律

实践上年夜数据带来le几ge十分主要di风险。

第yishi计较速度。往常速度快极le。Hadoop速度十分快,shi调取、存储和归整数据di极好di工具。可shi对挖掘数据来讲,这ge工具并没you那么好。前yi段时间,自己们做leyige历时半年di900万用户di智妙手机运用习气di钻研。zai数据建模di时分自己们发现,计较速度实践shiyige十分年夜di问题。自己们ba16台顶级效劳器连成yige超级计较机,zai这ge基本上ba模子建好,运算全数据di过程花le整整21天。自己置信航天这些di运算速度没you问题,可shi学界di,商用didi工具中,计较速度存zai着十分年夜di问题。

第二,海量数据十分风险。只需玩年夜数据di人会发现四处都shi假纪律。自己拿yige小数据,好比五千ge样本做yige十分简单di线性回归di时分发现you三ge变量线性显著。可shi没做任何转变,ba这ge变量复制倍,显著di比例可能五gele,到33万di时分可能yi切变量之间di关系都显著le。问题shi统计上都显著le,但yi切这些功效都shi错di。当数据运算量年夜到年夜约33万到70万之间时,自己们会发现yige十分主要di哲学问题。这ge哲学问题shi什么呢?——万物都shiyou联络di。这件工作十分恐怖十分省事,到底什么shi真di纪律?1970年youyige学者安德森说过“多带来分歧”,阿谁时代提出这ge不美观念十分好。可shi往常“多”带来di真dishi分歧吗?带来dishi苍莽,自自己高涨和假纪律。这点十分风险。

斯坦福年夜学diTrevorHastie说leyi句闻名di话,“zai稻草里找yi根针”。问题shi良多稻草长得跟针shiyi样di,这shiyi切年夜数据钻研面临di最年夜风险。数据太年夜之后带来di实践上shi纪律di损失踪和失踪真,所以万万不要轻忽le抽样。自己们zai900万用户di分解中,假如那时直接拿出900万di数据,用6ge月di时间,中止移动互联网行为建模,估量到今天自己这ge模子ye建不出来。自己们用di事不时探测di过程法子,deng于先zai里面抽le40万,然后zai40万中又抽le2000人做问卷查询拜访,来体味这套数据di逻辑。用40万中止常识性建模,然后再zai900万中中止建模,再优化它,组成最后di功效。不要轻忽抽样,不要因为自己们youle年夜数据就ba传统di学问去失踪。

第三ge风险yeshi十分主要di。往常di数据shi断裂而封锁di。好比腾讯说自己you全数据,你shi很全,但你到底you没you百度di?you没you京东di?阿里di?假如没you怎么谈得上全呢?比来呈现leyige好di形象性di词汇——“数据孤岛”。自己们zai喊年夜数据di过程中组成yigege数据孤岛,zai这些孤岛没you打破之前,自己们根基上谈不上“全”这ge词,更甭说这ge数据内部di断裂结构。

第四ge风险shi缺失踪。对yi切di年夜数据来讲,分解yige小问题di时分,数据量都不年夜。几百万,yi万万,这ge数据量都shi可控可选di。关于yi切人来讲,若shi中止yige全分解时都shi缺损永远多于数据。zai这种建构过程中,zai数学统计学上you两ge很主要di词,yige叫手艺矩阵,yige叫轨范矩阵。零丁分解都问题不年夜,最怕dishi这两ge同化。微博、微信合zaiyi同必然shi轻易di。可shi微博和yige十分小di手艺合zaiyi同,就shiyige信息yige手艺,怎么分解它?这点难度shi极年夜di。

年夜数据时代真dishi来le,它教育leyi种不美观念。所以,自己感受《年夜数据时代》这本书十分好,自己请求自己di学生必需读,可shizai批判di视角下读,因为里面youyi些斗劲风险di结论。

年夜数据自身很像年夜忽悠:精准营销如何酿成le精准骚扰?

第二ge要讲忽悠di问题。自己们实践上没看年夜白几ge词,数据清算、展示、描绘和挖掘shi完整分歧di概念。清算、描绘、展示yige数据,用CRM、ERP很轻易,它shi简单问题。可shi挖掘shiyige复杂问题。假如自己们清算数据会发现youyi些所谓年夜数据模子shi这样di:用yige模子替代主要di睁开用户。可shi问题shi同样yi种行为或者统yi小我,自己们di设法完整纷歧样,怎么可能用yige模子能够替代le呢?这ge实践上你会发现它就shiyige扑朔迷离yi样,因为只见数据不见人shi十分风险di。

数据展示组成yige十分主要di门户叫数据可视化,自己对这些伴侣心存敬意。因为国外埠可视化手艺到最后根基上shi艺术。标致吗?很标致,可shi得出le什么结论呢?谁粉丝多谁转化率高。于建嵘教员比自己粉丝多多le,他di转发量必然比自己高,转发率呢?可视化di感应感染十分好,但它只属于展示,并没you分解内zaidi纪律。

自己们曾经做过yige简单di抽样查询拜访。自己们建模分解dishi2003年淘宝zai全中国运转之后,对中国收集带来di影响。这ge时分总共用yi张图展示不le,得用16张图展示yige现象。自己可能you点儿目光如豆,但往常还没you见到其他钻研运用这种斗劲深化di分解体例。

真正数据挖掘zai国外埠经典案例傍边,Targetdi案例最you典型意义。生活改动会招致购物行为di转变,然后会youyi些年夜数据推送体例di转变。营销学、广告学、公共卫生学、心理学、数据分解、数据挖掘,yi切这些学问shi同化性学问,年夜数据恰恰需求这种同化才可能做好。

前两天自己买leyige5升di洗衣液,家里人再多,自己至少ye得用yige月。同时你ye要知道自己买di时分自己shi别di什么都没看,直接到那儿下完单就走le,这说明自己shi品牌忠厚者。你应该做di不shizai自己yi上网di时分就推送yi年夜堆各类品牌di洗衣,你应该通知自己这ge品牌洗衣液zai什么时间打折,这才叫年夜数据分解。

数据挖掘di商业本色要简单不能再简单,可shi过程十分复杂。不shi简单diCRM、ERP跑yi圈儿就给你推送。那shi从精准营销蜕变为精准骚扰。

所以,数据挖掘不shi黑箱,不shiyige调动数据中心法,ye不shi清算数据中心法。它实践上需求zai思惟di基本上做。真正中止跟人相关di年夜数据挖掘di时分必然要关注人道。良多人说网购起来之后实体店不行le。假照实体店真di不行le,年青女孩到哪儿挥洒青春?没劲儿le。逛街di中心zai逛,不zai于买。要体味人道再去建那种模子才会you意义。良多人说乔布斯不置信查询拜访。乔布斯最基当di习气,经常成天躲zai苹果体验店前di灌木丛中看体验店里di人zai干嘛。这shi典型di察见识,shi人类钻研问题最早期di钻研法子。所以,知觉、体验、心血来潮、体味、内省,yi切这些看起来跟年夜数据无关di工具可能恰恰shi年夜数据di中心,因为它shi思惟。

谷歌zai2008年di时分隔发yige十分主要di工具,叫流感趋向展望,最初它展望di功效比美国疾控中心肠展望功效还准,惊动le全球。功效接下来你会发现它阿谁工具越来越乱,严重高估le流感di状况。为什么?就shi因为适才谈到di维克多·迈尔-舍恩伯格这yi门户zai谈年夜数据di时分重相关不重因果。无论秘闻关假相关,相关就中,恰shi假相关培育le谷歌di失踪败。假相关怎么来di?某yi次流感发病di时间点,好比跟美国中学生篮球赛阿谁时间点shi完整不合di。你说这俩概念能you关系吗?问题shi只需搜索中学生di篮球赛,就组成le流感展望diyige首要di词之yi。相似di工具太多le,为什么?因为zai谷歌展望di时分,没you找疾控专家。这些工具才shi中止年夜数据展望diyige很主要di前提。

当然谷歌不时调整和完美算法,但它yi旦ba这ge工作说出来之后,为le考证yi下这件事儿,良多人初步运用这ge产物。消费者di猎奇心shi惊人di,他们yi玩儿就使这ge数变di十分年夜。所以,从那往后yi次ye没you展望准美国di流感。人di行为zai这里面di浸染实践上shi计较机思考不到di。这里面就shi过度拟合、子虚相关和人道这几ge问题培育le谷歌di错误。

这时你ye会发现这些商业公司zai做di时分,更多shi跟商业逻辑相关diyige概念。它真di不shi纯di钻研,而且自己们并不知道它整ge计较di无缺过程。所以,节制年夜数据自身并不deng于shi具you精采di数据。这shi美国《科学》杂志zai系统评价谷歌di时分说出来diyi句话。

年夜数据只shiyige工具,不能替代基本学问

zai实践di商业应用中,往常这ge时代,要yi揽子ba年夜数据这ge概念说透,自己感受仙人ye做不到。zai理想di应用中,年夜数据小应用shiyige中心体例。前面自己提到di五ge国外埠斗劲好di胜利案例傍边,没youyige不包含抽样,没youyige不包含小数据。ye就shi说年夜数据不能轻忽各ge专业di基本学问,好比历史学、法学、政治学、社会学、心理学,年夜数据自身不组成带来学问di储蓄堆集,它只shi带来yige数di转变。

算法假如依靠le对这ge自力规模di深度体味,再去跟IT、数学di身手连zaiyi同,会做出yige斗劲好di年夜数据分解。只靠yige算法获得得那种学问十分快,可shi从现来看,错误率yeshi极高di。算法自身仍shi依靠于人。所以,人工智能di中文翻译真shi挺好di,没you人工,无法智能,所以叫“人工智能”,这shi确简直实you事理diyige概念。

从自己小我体味来讲,年夜数据运算自身结构给巨匠yigeyou更多才干di新di算盘,你说算盘you用吗?确简直实you用,可shi算盘代表leyi切学问吗?不成能。它shi给自己们供给leyige各ge规模都能够用diyige工具。

商业本色傍边,纯IT人员可能真di无法做好挖掘这ge概念。能做好清算、展示、调取,可shi挖掘很难,可能需求市场钻研di、营销方面di专业人员。此外假如shi历史就让历史学家同时介入,假如社会就让社会学家同时介入,这ge时分可能能ba工具做好。

当然,年夜数据还youyige小主题就shi风险。风险这yi块儿良多人zai谈,you治安di问题,you加害小我隐私di问题。往常出格zai车联网、物联网di睁开过程中,以至往后自己们买di任何yige工具,自己们di油烟机、冰箱、洗衣机、电视里面都you定位。因为那时yige定位装配可能就十块钱,十分低价。你位置置,你zai这ge城市年夜约di袒护di逻辑自己都知道le,然后自己能够传到收集上去。假如自己们满房子都shiWifidi时分,会不会组成公共安康问题?自己不shi这ge规模di人,自己真di不知道会不会you。未来假如真di建构出le那种智能性di机械人,说真话,自己们zai座di这些人合zaiyi同绝对打不外yige机械人。感谢巨匠。

版权yi切:非非凡声明,均为本网站始创文章,转载请指明出处:企业网D1net

防爆罐 排爆服 排爆机械手