《电子技术应用》
您所在的位置:首页 > 模拟设计 > 业界动态 > 除了秒天秒地的配置,小米10背后的自研AI技术更值得关注

除了秒天秒地的配置,小米10背后的自研AI技术更值得关注

2020-02-13
来源:搜狐科技
关键词: 配置 小米10 自研

  2月13日,预热许久的小米10终于正式登场。由于肺炎疫情,这场发布会采用了纯线上直播的模式,但这丝毫不影响它极高的关注度。作为国内首款骁龙865旗舰,小米10实现了自我突破,带来了不少惊喜。

1.jpeg

  除了骁龙865处理器、LPDDR5内存等亮眼的参数信息外,小米自研AI技术展现出的成果同样值得关注,它们已经渗透到小米产品上的各个角落,对相机、系统、语音等多个方面的使用体验都产生了深远的影响。

  小米AI语音,变得更强了!

  1、小米语音AI技术在快速普及

  2017年7月的一场小米发布会上,小米AI音箱正式发布,小米开启了自研语音AI技术在市场上的试水。

  短短两年多的时间,小米自研的语音AI技术已经渗透到各个类型的小米产品中,除了智能音箱,小米手机、小米电视、小爱老师等小米产品都配备了“小爱同学”。集成了小米语音智能助理的设备,通过语音这种新交互方式让产品使用起来更加便利。

2.jpeg

  语音交互解放了用户的双手,降低了学习成本、提升了用户体验,而且增强了产品的竞争力。

  2、小米10上的智能助理,更有看点

  目前来说,智能手机上的语音助手发出的语音都是人工合成的,基本不会提供个性化的服务,实际使用起来难免感觉机械和不自然,和真人发出的声音差距还是比较大的。

  而小米10上的一大惊喜就是配备了个性化语音合成服务。它采用了最新的合成技术,用户只需要在安静环境下录制少量的声音样本并上传,服务器进行识别、训练并建模后,就能获得定制化的AI语音助手了。

3.jpeg

  别人手机的语音助理发出的语音千篇一律,而小米手机上的小爱同学却能做到千人千音,感觉就像手机里有一个真人助理一样。

4.jpeg

  3、AI语音技术上,小米展现了哪些功力?

  市面上主流语音合成技术有很多不足,具体表现为发出的语音过于机械,像机器人说话一样,还有就是在中英文混合语音中,双语切换的停顿节奏、过度感觉也不自然等。

  小米10上的个性化语音合成服务,则瞄准了这些问题进行改进。具体来说,它的实现过程可以分为这么几步。

  首先,用户要在安静的环境下录制目标声音;

  然后,系统会对采集到的声音信息进行降噪、检错等处理;

  接着,处理完的目标声音会被提取特征;

  最后,小米云端服务器将收集到的信息进行在线模型训练、部署,生成语音合成引擎。

5.jpeg

  这个技术过程看起来比较清晰,但存在很多难点。例如,它对目标声音的数据质量要求比较高,在线训练模型费时费力以及小数据量能否训练出满意的效果。

  不过,小米已经完美地解决了这些问题,模型训练耗时大大缩短,用户完成整个过程只要20-30分钟,此外,它的合成效果稳定,甚至没有英文语料的情况下,也能合成简单的英文语音。

  AI加持,小米10把相机玩出了新花样

  相机方面的提升是小米10系列最重要的卖点之一,1亿像素、四颗后置镜头等都吸引了无数人的关注。除了硬件上疯狂堆料外,小米10的相机也展现出了软件算法上的功力。

  1、小米10换天更强了

  小米CC9的“一键换天”功能得到了很多用户的欢迎,照片拍好后,只需要在编辑选项中轻轻一点,就能把照片中的天空换成自己想要的效果,例如晴天、夕阳、暮光等。

6.jpeg

  这次小米10换天功能在之前的基础上,新增了雨天和雪天,更为强大。从小米的演示对比来看,它在和各类第三方APP PK中大获全胜,换天效果非常自然,基本能达到以假乱真的程度。

7.jpeg

  小米10换天功能背后,是小米在视觉成像技术上的持续投入。MIUI 10推出时,就带来了AI自拍虚化的功能,单摄相机也能有人像虚化效果,就是通过出色的算法实现的。

  小米把之前自拍虚化的算法经验和技术运用在了换天功能上,标注了数万张实际拍摄的天空图片进行训练,并且优化天空分割模型,最终达到了现在的惊人效果。不得不说,实际采集样张,用AI技术来训练模型,相当费时费力,需要长期投入大量的成本。

  当然,这种算法对成像的帮助,也不是一般软件优化所能比的。其实,凭借着出色的成像效果秒天秒地的谷歌Pixel系列,在相机算法上,也是通过实际样张采集训练AI模型的思路。这方面,小米和谷歌想到了一起去。

  2、拍vlog也能一键搞定

  短视频的蓬勃发展让vlog流行起来,但一般人想要剪出很酷很精致的vlog并不容易。首先,视频后期比图片要复杂,而且vlog制作还涉及音乐、字幕、特效等。

  而小米已经敏锐地意识到用户的需求,投入了多个团队来帮助大家搞定入门vlog。简单来说,它优化了这么几个方面。

  首先,自动运镜功能让用户不动手机也能有出色的效果,不需要学习滑轨、手摇等很专业的技能。不过具体实现过程中,技术难度不小。

8.png

  自动运镜时,视频每一帧的角度要精准匹配,还要对4K分辨率的数据做实时的缩放、转场等计算,对算法的精度有很高的要求和考验。小米AI实验室通过算法优化和调校,把CPU、GPU、解码器等多个计算单元结合,“榨干”了手机的计算性能。

9.jpeg

  另外,语音转字幕这个功能也值得点赞。给视频手动加字幕非常麻烦,有了语音AI技术后,小米手机就能把录制视频里的语音自动转为文本字幕,帮vlog制作者省了很多事情。

  3、文档扫描这件“小事”,小米10做到了极致

  小米10相机上另外一个极具亮点的功能是“小米拍文档”,它解决了手机文档扫描过程中的诸多痛点:边框识别不准、细节丢失、显示不清晰、变形、阴影等。

  小米拍文档给人印象比较深刻的是AI技术对文档扫描这个功能的巨大帮助,比如说它的裁剪校正能力很强,即使拍摄文档的背景非常杂乱无章,也能精准的定位到文档边界,并准确地裁切和矫正文档区域,将有干扰的多余元素去除。

  此外,很多时候,拍摄文档的环境光学不理想,成像区域一部分很暗、一部分很亮,非常影响最终的扫描效果。小米拍文档通过针对性的阴影消除技术来解决问题,让文档扫描的成功率大大提升。

10.jpeg

  技术创新铸就了小米拍文档的出色体验,通过神经网络区分图像中光照和阴影部分,利用边缘算法帮助用户对文档进行精确定位,并实际采集多样化的文档使用场景进行训练优化。

  值得一提的是,小米拍文档完全由小米AI实验室武汉视觉团队独立负责完成,疫情当前,他们的工作和贡献值得点赞。

11.jpeg

  小米自研AI技术,值得更进一步的期待

  这次的小米10发布会,让我们看到了很多小米过去容易被忽视的地方,自研AI技术就是其中一个重要的部分。

  首先,小米10为代表的产品展现出了小米在自研AI技术上的强劲实力。不管是个性化语音合成服务、一键换天、vlog自动字幕等AI助力的具体功能,还是通过采集真实数据训练模型的AI研发思路,都让我们看到了小米在自研AI技术上的用心。

  其次,研究AI技术的厂商很多,但像小米这样精准瞄准用户体验的,不太多见。前面我们提到的扫描文档、制作vlog等功能,第三方应用其实都能实现,手机厂商一般不会在这些细节上下太多的功夫。

12.jpeg

  但这些看起来不起眼的细节,都和用户需求息息相关。小米把自研AI技术的成果都投入到这些领域,让自家用户能最直接地享受到AI技术发展的红利。小米AI技术更加注重和用户体验相关的场景落地,每个技术创新都能找准用户的实际需求、提升用户体验。当然,这种注重用户体验的基因,从MIUI诞生开始就一直存在,现在刻入到了小米的AI技术研发中。

  此外,小米涉足的领域远不只手机,家电、智能家居、PC等等行业,都能看到小米活跃的身影。而小米的自研AI技术,也不局限于给手机功能添砖加瓦。未来,我们有望看到小米自研AI技术未来在影像、语音、5G、IoT等多个领域的爆发成果,这非常值得期待。


本站内容除特别声明的原创文章之外,转载内容只为传递更多信息,并不代表本网站赞同其观点。转载的所有的文章、图片、音/视频文件等资料的版权归版权所有权人所有。本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如涉及作品内容、版权和其它问题,请及时通过电子邮件或电话通知我们,以便迅速采取适当措施,避免给双方造成不必要的经济损失。联系电话:010-82306118;邮箱:aet@chinaaet.com。