首先给大家讲讲什么是数据

浅析大年夜数据与人工智能_数据_学生 云服务

有的朋友可能认为有了打算机才有数据,实在不然。
大略而言,数据便是可以被我们进行定量剖析的记录。
大家可以看看左边这幅图,是四百多年前第谷·布拉赫记录下的行星与恒星在太阳系内运动的轨迹。
当时开普勒做了十多年相同的事情,但弟谷始终舍不得将这最宝贵的数据给他,直到身患重病,才犹如传衣钵般将数据传给了开普勒。
基于这些数据,开普勒创造了本日的开普勒三大定律,从而衍生出了牛顿万有引力等一系列理论。
虽然这个故事里并没有打算机,但核心,依然是数据。

这天下上最多的东西都是信息,窗外桃花开了,是信息;路上遇见一个俊秀姑娘,也是信息。
当然,就像你不可能记录下遇见的所有俊秀姑娘一样,生活中绝大部分信息都流失落了,只有很小一部分被记录下来,成为了数据。
而数据经由我们的挖掘,就成为了知识。

举个例子,在淘宝上购物,会留下购买数据,通过研究这些数据,能知道不同群体的人喜好购买什么样的东西。
这些便是知识,但是并不代表代价。
如果进一步的利用这些知识,设计一套精准的推举系统,或者做一个面向精确群体的广告,这就产生了代价。
这是一个金字塔的构造,从最底层的信息,到数据、知识,再到最顶层的代价。

对大数据的观点都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入理解

想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零根本以及进阶的经典实战)分享给大家

并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前海内最完全的大数据高端实战实用学习流程体系 。

那么什么是大数据呢?

2009年,在大数据这一观点并不是太火的时候,IBM就提出了大数据的四个特色:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低代价密度)。
大量产生的数据,须要进行高速的处理。
同时,数据还多样化,除了却构化的数据外,还有诸如文本、语音、社交网络这样的非构造化数据。
数据越来越多,总体代价越来越大,但单位数据的代价其实在低落,代价密度在缩小。

大数据不仅仅是种技能寻衅和解决方案,还是一种能力和结果。
它是当今社会独占的新型能力,以一种前所未有的办法,通过数据剖析,取得有巨大代价的产品做事乃至商业生活范式。

我们现在已经站在大数据时期的门口,推动我们走到这一步的,有三大力量。

第一,数据总量的爆炸性增长。
全天下数据总量已经达到了20ZB。
在这样一个时期里,我们很多时候是迷失落的。
亚马逊发卖的图书,连看一遍发卖名单都很难,更别说精心的进行选择了。
它带了第一个寻衅:信息过载。
普通人可获取的数据的爆炸性增长,与分辨甄别数据能力之间的抵牾。
为理解决这个抵牾,涌现了许多新型的商业模式,比如精准广告或推举引擎。

第二,数据形态发生了巨大变革。
之前打仗的数据,基本都是可以通过Excel进行处理的构造性数据,但非构造化的数据飞速增长。
到2018年,90%的新数据都是非构造化的,这些非构造化数据里蕴藏着巨大的代价。
以手机为例,仅仅通过手机GPS记录,就能得出大量数据。
比如大部分运动轨迹在大学宿舍和传授教化楼间,那可以推测你的身份是学生,银行如果知道了这些数据,在你去申请贷款或信用卡时,就可能给你较少的授信,由于学生的支付能力比较差。
如果常常出没在高端阛阓酒店,就可能给你较高的授信。
还可以推断你的职业,如果常常涌如今某一机构部门,那很有可能便是这个机构的事情职员。

这样,小到个人隐私,大到国家机密,通过轨迹数据都能被节制。
诸如百度舆图、高德舆图、微博微信、王者光彩这样的装机量巨大的app,在安装时都会向你哀求定位权限,都能够节制你的轨迹数据。
这便是第二个比较大的变革,同时带来了一个寻衅:如何在安全隐私可控的条件下挖掘非构造化数据的代价。

第三,数据的组织形式发生了巨大变革。
以前的数据都是一个个的孤岛,淘宝知道我买过什么,微信知道我的社交关系是若何的,但之间数据是不共享的。
现在通过一些商业的行为,将数据库间打通,产生全新的代价。
这便是我们面临的第三个寻衅:如何进行跨领域数据结合,将1+1发挥出远大于2的代价。

如果有一天,我们真正进入了大数据时期,那至少有三大特色。

第一,数据的外部化。
数据将流动起来,不止在产生它本身的地方发挥代价,还能在更多地方也产生浸染。

第二,人工智能
我们要用人工智能机器的关键技能,比如数据挖掘和机器学习,得出大略剖析不能得到的深刻洞见,再用来辅导决策。

第三,代价。
产生的大量数据,首先须要成本来存储剖析,现在可能花100元本钱才能产生不到30元的代价,当百元本钱产生的代价达到两百乃至更多时,这时候才能说进入了一个大数据时期。

接下来给大家讲讲什么是人工智能。

以下是四个在人工智能发展史上有代表性的人物,除了第一个都得过图灵奖,而第一个正是图灵本人。
图灵本人是名同性恋者,由于违反当时英国的反同性恋法律,1952年被判“严重猥亵罪”,职业生涯尽毁,1954年咬了口含氰化物的苹果自尽身亡。
图灵的粉丝乔布斯为了纪念他,把自己的公司起名为苹果,并且以被咬了一口的苹果作为公司logo。
如果你们是“果粉”的话,便是图灵的间接粉丝了。

图灵在1950年写了本书,详细阐明了他如何理解人工智能。
他认为,如果打算机和其余几个真人匿名与你互换,你无法将他们区分出来,那么就可以认为这打算机通过了图灵测试。
在1956年的达特茅斯会议上,第一次提出了人工智能的观点,衡量实体在特定环境下反应和判断的能力。
当然这个说法反对者大概多,比如喷鼻香农就认为智能该当能够处理抽象的符号,马文·明斯基则认为人工智能该当让机器做本须要人的智能才能够做到的事情。

实践篇

那么,大数据和人工智能如何运用到社会的变革上呢?

在教诲上紧张分四个方面。

1、从定性化教诲履历积累,到定量化教诲勾引和教诲管理。
通过网络学生干系的学习数据,让教诲定量化,不再是通过履历拍脑袋。

2、从工业化教室教诲到个性化定制教诲的转变。
传统教诲模式由于西席精力有限,只能大范围的普适化授课,通过大数据与人工智能技能的帮助,未来能够一对一的精准针对每一个学生制订教诲操持。

3、从后置性应急管理到前置性预警勾引。

4、从离线静态剖析到自适应动态剖析。

详细来讲讲如何从后置性应急管理到前置性预警勾引。

以生理问题的预防管理为例,从2018年开始,00后的学生进入大学,我们在实际传授教化管理调查中创造,五千个00后新生里,居然有将近一百个学生有严重自尽方向,比例达到了惊人的百分之二。
不能等到真实的校园自尽事宜发生后才去堵窟窿,这也堵不上了。
而是要提前创造有生理问题的学生,给予精确的帮助和勾引,找到学业成绩、综合本色、生理这三者间的关联。

基于此,我们在大学里做了件事,通过学生的社交状态来剖析学生的生理状态。
每个学生都有一卡通,里面记录了学生在学校里的生活状态,比如食堂刷卡、进出图书馆之类。
关系比较亲密的同学之间,前后脚刷卡的可能性很大。
我们做过个数据调查,两个陌生同学,一个月内前后脚刷卡的概率只有三百分之一,两次及以上概率十二万分之一,三次及以上三千万分之一。
2017年,通过调查一卡通数据,找到了校园里八百多名“最孤独的人”,他们在一年半内没有一个亲密好友。
而这八百多人里,有一百七十多人,在一年内做过生理方面的咨询或治疗。
我们可以通过这种类型的剖析,尽可能的创造学生中的潜在生理问题患者,并予以相应的帮助。

除了生理状态,我们还能用来预测学生的学业状态。
学生行为规律性是否与成绩有关。

2015年,BBC有个记录片,一个强调纪律的中国高中老师到英国去上课,教诲办法却并不被欧洲人买单,西办法教诲讲究探索,而中国式教诲比较看重纪律。
除了由于教诲资源缺少的无奈之外,我们这种教诲办法,真的没有可取之处吗?

我们剖析了学校里一些大略的数据。
比如党员和非党员成绩差异,创造党员成绩要比非党员要好,缘故原由何在呢?我们找到了成都除节假日外最冷的20天,我们创造在这些日子里,党员均匀吃15次早餐,非党员只有8次。
这解释党员比非党员对自我的哀求更加严谨,这可能对成绩也造成了影响。

基于这个想法,我们做了一套系统,专门预测学生本学期的成绩,它紧张包括三种数据。

第一种是学生的历史成绩,以前考得好,本学期多数也不会差。

第二种,我们称之为diligence,便是学生的努力程度。
这个数据包含了学生进出图书馆的次数和呆的韶光,借了多少书,这些书以什么题材为主,乃至你在传授教化楼里打过多少次水。
这些数据可以很随意马虎的通过教务系统或者一卡通网络到,通过数据,能够很清楚的创造一个学生花了多少韶光在学习上。

我本日重点讲的是第三组数据,我称之为orderness,即一个学生生活规律性与学习成绩之间的关系。

我们通过一卡通数据,统计了学生在澡堂插卡拔卡的韶光,这个数据本身很有趣,还可以看出学生经济状况。
比如沐浴时,有的学生冲水时才插卡,抹沐浴露的韶光拔卡,有的学生就一贯放着水。
电子科技大学的学生洗一次澡从不拔卡的比例略高于三分之一,而西南财大的学生从不拔卡的比例达到了百分之六十。
很明显西南财大的学生比电子科大学生普遍经济条件要好。

各位可以看PPT中A、C这两张图,这是学生沐浴频率的数据。
通过网络学生沐浴时刷一卡通的数据,得出水龙头出第一滴热水的韶光,在一天24小时内的分布。
我们根据这个分布打算出真实熵,来推断学生的生活是否是有规律的。

有了这些东西后,我们可以看A图。
在分布的左边,熵比较小,生活有规律;分布的右边,熵比较大,生活没规律。
我们在图的左边前5%中,选择任意一个生活有规律的人,C图中深蓝色便是他沐浴的韶光分布,他紧张在晚上9点沐浴。
而在A图右边选一个生活没有规律的同学,沐浴韶光反响在C图便是浅蓝色的部分。
他一天24小时大部分韶光都可能涌如今澡堂里,他便是范例生活没有规律的人。
通过这样一个大略的指标,我们就能区分一个学生的生活规律性。

类似的,我们来看B和D,实在便是学生在食堂用餐的韶光分布。
深赤色代表的学生集中在8、12、17点旁边在食堂刷卡用餐,这与学校日常学习韶光高度干系。
而浅赤色代表的学生随时都可能在食堂刷卡进餐,很明显,他的生活没有规律。

大家可以在右边的图中看到,生活的规律性,和四年的GPA成绩是高度干系的。
我们把历史考试成绩、努力程度、生活规律性这三组数据放在一起,便能很精确的预测学生本学期考试专业排名。
我们利用这个做了个匿名系统,学生的行为触及到算法预警时,由后台自动发给学生的辅导员,创造了许多沉迷网吧乃至陷入传销组织的案例。

接下来,我们讲讲怎么用大数据做经济方面的剖析。

首先是线上数据预测经济发展,一个城市信息化程度与经济发展间的关系。
我们做了全国所有地级市GDP与互联网生动成都关系图,横坐标是互联网发展水平,纵坐标是GDP总量。

当然,大部分城市互联网发展水平和GDP总量都是正干系的,但我们创造了一个有趣的征象,有几个城市,在同样的互联网发展水平下,GDP总量相对来说很高,为什么会涌现这样的情形?A图里玄色的点代表这几个城市,分别是鄂尔多斯、崇左、来宾、中卫,这些城市都是高度资源依赖型的。
这样的经济形式实在是很薄弱的,比如鄂尔多斯在2013年的时候,受到国际煤炭市场的影响,经济迅速衰落,产生了很严重的坏账。
基于此,我们提出,如果一个城市在同等的经济体量下,经济形式单一且极易受国际大市场影响,那么进行经济发展方案时就须要加以把稳了。
这便是利用大数据预测经济发展一个范例的例子。

末了给大家举个例子,社会共治。

19大的时候,中心提出要建立聪慧型社会,推动广泛意义下的社会共治。
我们做了件很有趣的事。
首先通过高德百度等渠道,拿到了上百万张成都的街景照片,从中选出了几千张,征集志愿者,每次随机涌现两张街景图片,让志愿者从一个维度进行比较,维度分为卫生、绿化、基建、安全感等几个层面。
我们现在以安全为例,一次两张随机图片进行比拟,当达到一定数量时,我们就能在安全维度上进行排序,再映射到0~1空间中,就能给不同街景安全性进行打分。
这时候就变成了一个非常范例的深度学习的问题,打算机可以通过卷积神经网络的某种变体,来学习为这些街景图片进行打分。

当机器学会如何打分后,便能够为全成都邑的街景图片在各个维度上打分。
我们能够知道城市的哪个部分基建程度较好,哪个部分须要进行管理,管理成果如何。
这种剖析不是人工的主不雅观判断,而是机器学习做出的客不雅观结论。

以上便是大数据与人工智能影响教诲与社会的几个范例例子,这是一种全新的社会管理办法,它有三个核心要素:第一、全自动化;第二、规模化;第三、客不雅观化。

末了,给大家提个两个建议。

在座诸位都是教诲战线的一线事情者,我们都知道,教诲战线和科研战线之间还是有着很大鸿沟。
一个以大数据为原材料,人工智能为引擎的新科技时期的到来不可阻挡,它将影响你所能见到的每一个行业。
比如四川一个有名酒厂,通过人工智能掌握技能,能将生产效率提高两个百分点,这是个很了不起的数据,但如果将这个技能全面铺开的话,全厂几千人大部分会下岗。
以是我给大家第一个建议:充分拥抱这个新时期,不要成为旧时期的关门人。

第二个建议,和冷冰冰的工业不同,教诲是人与人间的交互,除了传播知识,还有人格的养成,这是很难被打算机所代替的。
作为教诲事情者,要思考如何在技能革命下充分发挥人文元素,保持一种镇静的愉快。

送给大家我很喜好的一部电影《机器师》里的台词:胜利,总是青睐有准备的头脑。
希望各位通过不断的学习,尽最大的可能,做充分的准备,成为这个即将到来新时期的胜利者。
感激大家。

对大数据的观点都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入理解

想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零根本以及进阶的经典实战)分享给大家

并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前海内最完全的大数据高端实战实用学习流程体系 。