学霸的AI系统,第73章拿到样本数据后,大家读手机版

第73章拿到样本数据后

第二日的周一中午，齐凡被王教授叫了过去。

进入办公室，王教授就递过来一个U盘。

“你要的东西都在里面了。小心点用，千万别捅到网上去。”

齐凡心下狐疑着接了过来。这才过了几天，自己要的样本图片数据就弄到手了？

王教授貌似看出了他心中的疑惑。

“你专注你的事情，不相关的一概别问。”

齐凡也就按下了自己的好奇心。

从王教授办公室出来，齐凡拿着那个U盘在手上仔细翻看。U盘的正面依稀有个贴纸撕去后残留的印记，在走廊窗户透入的阳光反射下，貌似是一個圆形的图标。

齐凡仔细看了下，感觉怎么有点像国徽。这尼玛就玩大了呀。

“齐凡，站着干嘛呢。”

正在齐凡震惊之余，前班主任老黄的声音响起。

“黄老师，好久不见。”

老黄赶紧挥手，“愧不敢当，我现在可不是你老师了。按你这速度，一年保研两年读博，我早晚得叫你师兄。”

老黄虽然是开玩笑，可说的也确实有些道理。万一齐凡弄出个什么大新闻，保送读博。那就真成了老黄的师兄辈了。

“黄老师，伱就别开我玩笑了。”

“刚从王教授那出来？”

“对。”

“那你忙吧，我也就是路过。对了，以后顶多叫我师兄。千万别再叫黄老师，拜托拜托。”老黄朝齐凡抱拳，很是郑重的模样。

齐凡见状也只好道，“好吧。黄师兄。”

二人随后就各忙各的了。

老黄是硕士学位。齐凡如今是金陵大学小有名气的学霸，且已是研究生。再喊他老师，确实是让他比较尴尬。辈分和实力都镇不住，那还是不要乱叫的好。

齐凡回到宿舍后，赶紧用贾震的笔记本打开U盘。

U盘根目录是一个文件夹和一张照片。文件夹的名称就叫“新建文件夹”，照片的名称为“未命名.jpg”。主打一个朴实无华。

齐凡出于好奇打开了照片。是一张红底黄字的标语--保密工作要到位，泄密抓到定杀头。

我擦！齐凡在心中暗骂一句。难怪这U盘上隐隐有国徽的印记。

这标语言简意赅、通俗易懂、干练肃杀，确实符合华国近代以来的办事风格。

他随后点开文件夹。

里头是密密麻麻排列的整整齐齐的一个个子文件夹。看这些子文件夹的名称，应该就是以各个停车场名称来命名的。

齐凡又随机点开了一个子文件夹。里头是一张张车牌照片。

他当即统计这个U盘内照片的总数。crtl+A后，屏幕左下角显现出一行小字--168，123个对象。

整整16万8千多张照片，我滴个乖乖。

要是没有金陵大学这层关系，齐凡上哪去弄到这么多样本素材。

齐凡当即就用XCNN_DT模型随机识别了3张图片。

车牌上必定有一个汉字，但XCNN目前对汉字是不支持的，因而汉字位置的识别结果自然是千奇百怪。这个到时在预料之中，齐凡自动忽视掉了。

但是对于剩下的英文字符和数字的识别，却是让人一阵揪心。

哪怕仅仅是挑中的3张测试图片，也没有哪张是完全识别准确的。

“O”和“0”首先就傻傻分不清楚。“I”和“1”也是一样。

再叠加车牌照片的光线明暗阴影问题，一个清清楚楚的“6”竟然能被识别成“0”，原因貌似是“6”的上半部分被阴影遮挡了。总之这识别结果结果是没法看。

齐凡脑子很清醒。

面对识别错误率过高，无非是两种解决办法。

一是细化模型的精度，把模型做得更加细致。二个加大训练样本数量，让模型去学习更多的样本数据。

提升模型精度不是问题，他系统空间的那份模型XCNN图纸，正愁没有用武之地。齐凡此前发布的XCNN_DT2.0版本，不过是这份图纸上最简单的一个模型的落地应用。

要提升精度，那只需加深网络的层数即可。当前的XCNN_DT2.0版本才5个卷积层，有足够多的冗余留给层数叠加。

人工智能深度学习中的神经网络是层层叠加的，可以将其理解为一栋高楼。其处理数据的过程，可以类比为让数据爬楼梯。

数据从一楼开始，一层层往上爬，每上一层就会被处理一次。当数据到达顶层的时候，就是最终结果出来的时候。

以数字识别为例。

进入第一层的数据是一张RGB三通道的图片，最后顶层给出的结果则是0到9之间的一个数字。

以齐凡目前所掌握的理论来说，只要模型的层数越深，也就是这栋楼的层数越高，让数据爬更多的楼层，那自然就会得出更精确的结果。

数据爬楼层的过程，是对数据提取特征的过程。

爬的楼层越多，也就是被提取的特征就越多，自然就会被识别的越准确。

可就如楼房受限于地基和建材，不能无限制堆高一样。模型也是一样的。

模型受限于硬件的水平也是无法无限制加深的。

所以，模型有多深完全取决于显卡有多厉害。显卡有多厉害则完全取决于钱包有多鼓。

齐凡的钱包显然不够鼓。这个他只能后续想办法化缘。

第一个问题的症结分析完毕。

接着是第二个问题--加大训练样本数量。

第二个问题所需的样本眼下倒是有了。可是样本不是有了就行的，AI是科学不是魔术。

AI模型需要人喂给它数据，虽然这个喂的过程是很简单的--给每张照片打个标签，丢给模型就行了。

打标签的方法有两种。

一种比较简便。直接给每张车牌号照片标注出对应的车牌号，这样模型在读到这张照片的时候就能知道它实际的车牌号是多少。

另一种方法则比较麻烦。将照片中的车牌位置用数据标注工具勾勒出轮廓，再将车牌上的每个字符同样勾勒出轮廓。这样做其实就是为了告诉模型，照片中的车牌位置在哪，车牌上每个字符的位置在哪，并且每个字符对应的含义是什么。

第二种方法更费时间，但是经过这样处理后的样本数据更加精细。而越精细的样本数据，自然会得到越准确的预测结果。

如果仅仅从一张照片的角度出发。数据标注的工作是很简单的，也并不费时。

哪怕是一个高中生，稍加指导，也能熟练的完成数据标注。

可再简单的工作一旦乘以一个系数，就可能会变得很庞大。不巧的是，现在这个系数是168123。

即便齐凡偷懒，采用第一种较为简单的标注办法。

假设一分钟完成4张照片的标注，则需要700个小时。

假设采用第二种方法，一分钟只能完成一张照片的标注，那就是2800个小时。

如果为了追求识别精度，采用第二种方法。按照每天八小时工作制，节假日不休息的话，齐凡需要连续工作近一年。

想想就他娘刺激。

菜单书签下一章

第73章 拿到样本数据后

第73章拿到样本数据后