小张公司比来收到很多反馈信息老板叫用人工智能分析一下_文本_就能
“小张,快过来,业务来了!
”
“王哥,啥业务呀?”
“最近公司业务太好了,收到很多反馈信息,大多数都是好的,但也有一些负面信息,领导叫我们剖析一下。”
“剖析什么呢?”
“领导要给老板做一个申报请示,把这些反馈信息按照正面,负面,中立进行分类,分别统计一个数量,这个不难吧!
”
“这个该当算是人工智能吧,我根本就没研究过,王哥这是要我现学现卖吗?这也太难了吧!
”
“嗯,确实,很少有问题连你这个技能高手说难的,看来真的不大略呀!
”
“王哥洗我脑壳了,我是真没研究过,要不您还是推掉吧,我怕到时候完不造诣瓜起了!
”
“这个任务领导很重视,再加上是老板嘱咐下来的,领导也知道我们公司就你技能最厉害,不好推呀!
”
“那到时候弄不出来别怪我呀,还有我须要韶光。”
“好的,我只管即便给你争取韶光,初步就给你一周韶光吧!
”
“这...”,小张面露难色,一时有点语塞。
王哥安慰道“没事,有事我照着,研究不出来算我的,我相信你一定行!
”
“好..吧..”
三天之后,小张愉快地对王哥说:
“王哥成了…”
“什么王哥成了,你不是被逼疯了吧!
”
“不是,是反馈剖析的任务已经完成了。”
“你不是说你没研究过吗,你小子隐蔽得挺深呀!
”
“不是,真没研究过,虽然弄出来了,但我这几天都没睡好觉,梦里都在想如何办理这个问题,这才勉强成了。”
“看你这样子,眼睛跟熊猫一样,我相信你了,真的是难为你了,我一定要给领导说,让他给老板说道说道,这样的人才不能给埋没了呀!
”
“没事,拿人钱财,***嘛,份内之事罢了。”
“好一个拿人钱财,还是先说说你的方案吧,我挺好奇,你是如何在这么短的韶光内做出来的。”
“好,我就大略先容一下:”
“首先,一段文本是由很多个词组成的,那么这些词就代表了这段文本。我们先要对所有文本进行分词,这里我用到了一个叫做结巴分词的东西。”
“分词后,要打算每个词的逆文本词频,英文名叫TF-IDF。”
“这个TF-IDF是就代表了对应词的含义。”
“小张,打断一下,为什么你说这个什么TF-IDF能代表词的含义呢?”
“王哥,你看过谍战剧吧,虽然电报加了密,还是被破解了,由于虽然笔墨都张冠李戴了,但每个字涌现的频率不会变呀,通过涌现频率,我们就能还原出原始信息了。”
“哦,原来是这样,那你连续讲。”
“先打算TF,TF=某词在文本中涌现的次数/文本中所有词的总数,简而言之,词在当前文本涌现的比重。”
“在打算IDF,IDF=log(总文档数/含有某词的文档数)。”
“TF-IDF=TF×IDF,这样打算出来的TF-IDF能表示出某个词的主要性,而所有词汇合成的向量就能代表这段文本。”
“由于,TF-IDF是一个浮点数,全体文本便是一个浮点数凑集,一样平常叫它向量,有了向量我们就能把它输入到SVM中去演习,演习完成后,我就能用它自动标记反馈的分类了。”
“不过在此之前,我还碰着了两个困难:”“一是,弄演习预见,我们要让模型干事,还须要先教它,这个太费事了,还要一个一个看懂文本的意思。”
“呃,没明白呢,你是手工分类是么,这大几百万反馈文本,不是吧,你这高技能人才可不能干这种事呀?”
“王哥,不是这个意思,我有那么笨吗,不是每一条都教,只教一部分就行了。”
“原来如此,那另一个困难是啥?”
“由于我利用的是SVM模型嘛,它哀求每条演习输入的向量维度必须同等,但是每条反馈文本的长度又不一致。”
“我想了一个晚上,终于想到可以提取文档中的TOP N,便是最主要的N个单词来代表这条反馈文本。”
“经由演习后,效果非常好,我大概看了一下,险些都给准确归类了。”
“小张呀,你太厉害了,都不知道怎么形容你好了。”
“你放心,好好干,有出息!
”
“那,王哥,我来日诰日想安歇一下,行吗,实在受不明晰!
”
“好的,带薪休假,准了!
还给你争取特殊奖金!
”
本文非技能描述部分为虚构,请勿对号入座
本文系作者个人观点,不代表本站立场,转载请注明出处!