“人文清华”讲坛——陈国青 大年夜数据:颠覆的力量(附***)_数据_企业
来源:人文清华讲坛
本文约5000字,建议阅读10分钟。
本文为你先容了大数据的未来该如何发展。
什么是大数据?
什么是大数据思维?
算法经济时期什么时候到来?
大数据杀熟得当吗?
大数据时期是否该当拥有被遗忘权?
大数据将如何撞击未来?
6月10日晚7点,著名管理学家、清华大学经济管理学院EMC讲席教授陈国青在人文清华讲坛揭橥主题演讲《大数据:颠覆的力量》,为大家深度解读大数据时期和大数据思维,以及大数据带来的冲击、寻衅和机遇。
近两千名不雅观众到场聆听演讲,同时浩瀚网友在场外不雅观看了在线直播。
英国脱欧、美国大选有数据公司的影子
陈国青教授指出,目前从国际形势看,英国脱欧、美国大选对其本国的社会撕裂、国际格局变革带来诸多影响。而在这两大事宜中,背后都有一家数据公司的影子,这便是剑桥剖析公司。这家公司用数据做选民剖析,供应助选做事,它根据网络到的大量数据,包括千万级的Facebook数据,采取国际生理学界著名的Ocean生理模型来刻划选民的生理特色,它能刻划一个人喜好什么、担忧什么、对什么感兴趣、宗教的取向以及代价的态度等,公司CEO曾表示: “我们可以预测每一个美国成年人的生理特色。”
其他助选公司的做事常日都是基于人口统计学的研究,而剑桥剖析则可以从生理视角刻画一个人的生理数字脚印。
数字经济占我国 GDP 已达 34.8%
陈国青教授表示“我们现在处在一个数据的海洋当中”,他列举了交通、电商、社交媒体及移动终真个几组数据:目前中国春运迁徙达30亿人次,2018年双十一的消费规模高达2135亿元,微信每天的发布量总计达450亿条,手机网民达8.17亿。大数据已经能将数据背后的个人、企业和社会的图像展示出来。
“最新发布的数据显示,目前数字经济占我国GDP的比重是34.8%,也便是说,我们的紧张经济活动中已经有1/3以上是数字活动了。这是很高的比例。”
大数据时期的两个阶段
大数据时期,紧张的时期背景是什么?我们现实天下有多大程度上可以被数据表示?“用一个形象的话来讲,我们的社会像素正在急剧提升。这个像素是哪来的?实际便是从到处可见的感测设备而来,这些设备包括探头、智好手机、可穿着设备、车载设备,各类各样。这些使社会的数字化程度越来越高,数据的粒度也越来越细。也便是说,数字化生活的两个要素之一:像素、数据的粒度已经具备。当像素足够高的时候要干什么?形象地说是成像,就像手机、相机,像素越高成像的质量可能越好,因此,成像是我们数字化生活中其余的要素,像素和成像对应起来,就把数据和算法联系起来了,形成了大数据的时期背景。”
陈国青教授先容,从商务形态的角度看,大数据时期可以分为两个阶段。第一个阶段是数据商务阶段。这个阶段不断地把现实生活中的要素,人财物都进一步数据化,同时根据这些数据化的人财物进行算法的运用。第二个阶段是算法商务阶段。当我们像素足够高的时候,我们的重点就变成了成像了,即重点变成算法运用。
数据商务阶段就像做菜一样,数据化的过程便是不断准备材料的过程,一直地增加和丰富材料,然后根据已有的材料供应不同的菜品。但是算法商务阶段是材料已经足够丰富了,“这个时候要比的便是手艺了,你是不是能够做得更好、更多。这便是我们所说的算法进阶及运用创新,如‘智能+’,我们可以用更加高尖的智能技能,包括人工智能的很多技能在现有的大规模数据下进行运用。”
大数据的数据特色
陈国青教授指出大数据的数据特色可以从 4 个维度来理解,即 4V:volume(容量)、variety(种类)、velocity(速率)、value(代价)。
第一,大数据意味着超规模(Volume)。大数据的规模从一样平常意义上讲具有大规模、海量的含义,但是没有绝对的量纲标准,而是和领域及其问题干系。超规模是指超出了原有领域和问题规模边界的大规模。比如企业大数据,与之前不同的一个地方在于,此时的数据规模常常超越了企业本身传统的内部数据边界,而是延伸到了企业外部,成为一种社会化的企业数据。
第二,大数据意味着多样性(Variety)。富媒体(Rich Media)大大扩展了人们的数字化生活体验,环球数据和数字流量中 80%-90%都是文本、***、语音、图像,而不是过去以二维的、规范化的、非常大略数据形式为主的构造化数据。
第三,我们处在数据的海洋之中,但与我们企业或个人干系的数据相对说来是很少的,所以是低代价密度的(Value)。即,数据量的分母太大,对企业或个人决策有代价的数据占总量的比例就很小。以是这里有一个主要的含义,即如何从低代价密度的数据海洋中挖掘出有用信息,成为企业数据剖析的关键。
第四,大数据的实时性强(Velocity)。数据就像开着的水龙头一样,源源不断地出来。比如上传图片、***图片,都须要得到及时相应,而不是等良久才能完成。数据是连续的,实时的,流涌的。这种流数据是时时刻刻(Real-Time)的,构成了大数据之“大”和无时不在。
大数据的问题特色
关于什么问题是大数据问题,还要看它的问题特色。
陈国青教授认为,大数据的问题特色紧张从三个方面来衡量——粒度缩放、跨界关联和全局视图。
粒度缩放指的是问题的要素是否被数据化了。数据粒度就像一个个小像素,这些像素使得问题的要素不仅能够被描述,而且能够被精确丈量,也能够像舆图那样放大缩小。如果问题里有人,就须要考虑人能不能通过数据进行丈量,如何进行丈量。
大数据问题还引入了新的视角,即须要进行跨界关联,将传统视角和边界之外的干系要素纳入到管理决策中。“比如管理学中,传统企业管理最常见的便是怎么把业务流程做好,优化流程,提高质量,同时改进人力资源环节、财务环节,制订企业计策,基本是站在企业内部看不同的部门,站在里面轻微往左看一看是供应商,轻微往右看一看是客户。企业花了很多努力,溘然有一天一个人在网上拍了一板砖,说这个企业产品有问题、做事不好,还没有容得辩白,成百上千万跟贴,瞬间就把企业的产品、形象、品牌定格成了某一个形象、某一个状态,然后企业可能还很委曲,由于以为这些人既不是我的客户,也不是我的员工,他们彷佛便是原来跟企业没有联系的社会大众,但是他们的口碑却对产品、质量、品牌、形象产生影响。因此,当管理决策的视角不仅是考虑内部,而且要考虑外部和企业干系的成分时,这个问题就开始变成大数据问题了。你要跨界,跨出你的传统边界。”
全局视图则是指问题定义与求解的全局性,强调对干系情境的整体画像及其动态蜕变的把控和诠释。这须要基于数据剖析和平台集成的全景式“成像能力”。
以共享单车为例,通过车载传感器、定位系统以及智好手机终端等设备得到调度和管理须要的“人-车-路”粒度信息;同时打通导航、支付、通讯、商铺以及餐饮等诸多业务功能,实现跨界联动;进而,企业和平台可以从全局出发,形成整体画像,并优化布局和运作,并作出相应的管理决策。这样的话就表示了大数据问题的粒度缩放、跨界关联和全局视图特点。
针对现在社会上存在的“大数据只讲关联不讲因果”的说法,陈国青教授特殊指出这种说法存在误导,特殊是涉及到人财物的重大决策时,不讲因果是不足的,该当既要讲关联,也要讲因果。
大数据冲击各行各业
比如经济金融领域,传统的股价预测模型考虑收益、风险及企业状况,但是对付影响股价的“期望”的丈量是个难点,由于期望既涉及外部成分环境,又涉及生理预期。现在一个新视角是考虑"大众关注,比如通过搜索表示大众对付股价及其走向的关心。“这是一个跟过去特殊不同的角度,由于这不是特殊专业的角度,它是从专业外人士的行为来估计的角度。看到这种关注和搜索与股价的走势有相称强的关联度。”将这种新视角融入到专业模型中,可能提升预测效果和模型阐明力。
大数据也开始在改变司帐学。传统的司帐学强调三张报表:资产负债表、现金流量表和利润表,反响企业的运营、偿债和盈利能力。但对付长周期、高负债、高不愿定性的IT企业、新行业企业、创业企业等,它们的客户忠实度、口碑、品牌等无形资产的代价可能挺高,因此传统的三张报表就显得捉襟见肘,以是司帐业界和学界提出“第四张报表”来反响干系的数据资产。
大数据也在为体育界带来变革。比如篮球演习中会网络运动员肌肉、血液、心脏、枢纽关头、姿势、力量等全景式的数据,以帮助演习更对症下药,更加风雅。冬季冰雪项目的姿态类运动考虑运用大数据技能剖析枢纽关头、角度、力量等对付高度和旋转等的影响。
在艺术领域,数据已成为艺术家的创作素材,因而涌现了新的艺术表现形式。比如飞机航班的数据轨迹就可以构成一幅新颖的画。
哲学中的认识论和方法论也受到大数据的冲击。“哲学认识论要追求探索因果关系,传统范式是模型驱动,也便是说通过刻划变量之间的联系,比如自变量和因变量,通过构建这两个之间的函数关系,比如线性、非线性等等,我们可以知道一个自变量一个单位的变革会导致因变量有几个单位的变革,这里试图反响变量之间的逻辑的因果上的机理。但是,模型驱动范式在大数据时期碰到一些问题时存在局限性。比如,当数据变量的组合数特殊多时,当很多变量是潜变量和隐变量时,当很多的变量虽然主要,但是不可测不可获时,还有当数据的样本规模特殊大时,这些问题用传统的模型驱动的做法就会比较困难。因此,就涌现了一个新的范式转变,催生了大数据驱动范式。这个范式想表达的是,对付管理决策,我们希望能够实现既有关联又有因果的诉求,这个新范式大略地说由外部嵌入、技能增强和使能创新三方面构成。”
历史学上大数据也改变了传统的“自上而下”的史学不雅观,即历史的记录是国家、政治、法律、战役、英雄等。而在大数据时期,历史的记录可以自下而上。比如国家图书馆互联网信息计策保存项目,与新浪微博互助,保存新浪微博公开博文,所有“草根”都成为了历史的记录者,通过自上而下与自下而上的领悟,为后代研究当代历史供应了更细粒度的单位和更加广阔的全局视野 。
陈国青教授特殊提到,当个人数据被大量搜集和记录,被遗忘的权利也变得主要起来。所谓被遗忘权是指数据主体有权要求数据掌握者永久删除有关数据主体的个人数据,有权被互联网遗忘,除非数据的保留有合法的情由。这表示了大数据对法学界的影响。
此外农业上的精准***、医学上罹病和未罹病之间的关联、文学上通过大数据技能来进行研究剖析等,也都表示了大数据对这些领域的深刻影响。
人工智能的难点是黑盒子问题
对付大家密切关注的人工智能技能,陈国青教授也进行了阐发。人工智能是大数据时期的一类技能,目前的成果是数十年以来研究成果的工程化和产品化。
当古人工智能面临的一个主要寻衅是“黑盒子”问题,这也引发了学界和业界对付“可阐明人工智能”的攻关。
同时人工智能的涌现,催生了人类的“亚种”——机器人,进而也催生了新的学科:机器行为学。传统上我们的生理学、社会学等紧张研究人,以及人和人构成的网络,但随着机器人将越来越多地涌如今人们的生活中,会越来越多地寻衅人们的智力,因此须要研究机器如何塑造人的行为、人类如何塑造机器的行为以及人机协作的行为。
利用大数据要重视商业伦理
陈国青教授特殊强调目前隐私透露、大数据杀熟、App 权限滥用等征象,也匆匆使人们从隐私权、商业伦理、道德、法律等层面思考如何合理地利用大数据。比如剑桥剖析公司虽然声称在美国所有的数据都能买得到,但这家公司也由于数据透露和商业伦理丑闻,终极倒闭关门。
陈国青教授表示当信息技能与管理决策结合之后,就涉及到人的代价不雅观剖断,涉及到场景和详细问题,在对数据的利用上也就变得不那么中性了。大数据和其他科技一样,可能成为一把双刃剑,用得好可以做事人类,用得不好很有可能会有副浸染。
感测和相应大数据时期
过去近20年间,我国网民数量从62万增长至8.29亿,互联网遍及率从0.03%增长至59.6%,网站数量从1500个增长至523万个,上网韶光现在达到了人均每天4小时。
因此陈国青教授特殊呼吁大家要感测和相应大数据时期,“我们时期的变革太快,我们该当敏锐地主动地感测和理解这个变革,同时不管是企业还是个人要作出自己的准备和自己的相应,由于大数据作为一个时期会伴随我们相称长的韶光”。
本次演讲,现场不雅观众反响热烈,浩瀚媒体进行了宣布。公民日报、公民网、光明日报、新华网、光明网、中国青年网、北京电视台、北京日报、新京报、北青网、凤凰网、搜狐文化等媒体的到现场进行了宣布。网易***、腾讯***、凤凰***、搜狐千帆直播、今日等网络平台对活动进行了在线同步直播。
***约长5分钟,建议WIFI条件下不雅观看
腾讯***链接:
https://v.***.com/iframe/preview.html?width=500&height=375&auto=0&vid=n0882ktv8ut
编辑:王菁
校正:龚力
— 完 —
关注清华-青岛数据科学研究院官方微信"大众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。
本文系作者个人观点,不代表本站立场,转载请注明出处!