芯片量产已超百万「探境科技」发布AI双麦降噪语音辨认计划

时间:2019-12-29 15:35:44 阅读：815+ 作者：责任编辑NO。谢兰花0258

文/姜菁玲

修改/石亚琼

12月26日，探境科技举行“黑科技发布会”，正式对外发布AI语音辨认芯片产品矩阵，并推出具有AI双麦降噪功用的语音辨认计划——Voitist音旋风612。

36氪曾多次报导过，探境科技建立于2017年3月，是一个以语音、图画AI芯片为中心产品的AI芯片规划公司，供给软硬件一体化全体计划，产品采纳的中心架构为SFA（Storage First Architecture，存储优先架构），建议以存储驱动核算。

关于SFA架构，36氪曾具体的介绍过，这是一种面临AI芯片里存储墙（AI核算资源丰富，但存储及数据转移功率低下）的问题而设置的架构，从数据层和核算层中心，经过数据航线，进行节点间的数据搬移。控制器经过知道在动态运转过程中，哪些数据和哪些算子需求有必定的相关性，然后构建愈加合理的网络途径。

探境科技表明，与比“类CPU架构”比较，在同等条件下， SFA架构数据拜访可下降10~100倍；28nm工艺条件下，体系能效比到达4T OPS/W，核算资源运用率超越80%，DDR带宽占用率下降5倍。

探境科技CEO鲁勇表明，SFA架构具有通用性，可支撑现在一切的深度学习神经网络，对神经网络参数以及数据类型没有约束，而且，供给零根底用户可运用的东西链，无需用户网络重训即可运用，能够下降算法移植带来的数据精度下降状况。

AI降噪算法+高核算强度的神经网络

音旋风611是探境科技推出的首款语音芯片处理计划，于2019年9月开端量产，现在出货量已超百万。此次推出的Voitist音旋风612是在音旋风611的根底上，完结了语音辨认算法上的晋级，首要表现在在AI降噪算法以及端到端算法两方面。

在语音辨认的研制过程中，一个完好的辨认链路能够简化为麦克风输入、降噪处理、语音辨认、辨认成果输入四个环节。

探境科技副总裁李同治以为，以智能家居场景为例，现在在语音研制范畴遇到的应战有：

低信噪比问题。信噪比，是衡量需求辨认的方针声源与其它搅扰声源强度比值的对数。一般将信噪比低于15dB的称为噪声环境。信噪比越低，辨认难度越大。在实际场景中，假如方针声源强度过小，噪声搅扰强度大就会形成信噪比低的状况，别的，因为人类声响传达还受间隔的影响，间隔越远，声响强度丢掉越多。归纳各种原因，低信噪比问题被以为是最严重的应战。
非稳态的噪声影响。日常日子中，或许会呈现煮饭的敲击声、音乐的忽然节奏改变等，这些关于降噪处理而言，因为有忽然性和不行预见性，具有必定难度。
多声源问题，因为传统的信号处理算法的原理是增强波束内的信号强度，当搅扰源方向比较挨近的时分，传统的处理算法也无法处理。

针对以上痛点，探境科技推出AI降噪算法、高核算强度的神经网络以及双麦算法，期望降噪和辨认两个环节处理。

在降噪方面，选用AI降噪算法，根据深度学习，可对稳态和非稳态的噪声做处理。

在辨认方面，推出高核算强度的神经网络模型HONN，添加更多卷积操作，削减传统DNN/TDNN算法中全衔接的次数，到达进步算力的意图，终究进步辨认方面的功能。

李同治解说，与传统的DNN/TDNN算法比较，卷积操作更挨近大脑的感知体系，添加了一个维度，每个处理单元变成了立体的。

探境科技表明，高强度神经网络所需参数量约为传统DNN算法的五分之一，所需算力则到达106M，高于DNN3.2M的算力约30倍，这带来的影响是，参数量少能够节约芯片的存储空间，削减相关本钱，相当于用更少的贮存空间，带来了更高的算力，提高了全体的功能。

根据FCSP的端到端AI双麦算法，可进步算力

别的，李同治还说到了一种状况，即信噪比为0dB和负dB，意味着噪声和信号强度相同，乃至噪声比语音信号还要强。

针对这样的一种状况，传统的处理计划为运用麦克风阵列信号增强算法，不过，探境科技以为有这种算法有四个方面的问题：

首要在语音信号增强模块，波束成形依赖于声源定位（DOA），DOA依赖于单麦克唤醒词检测。远场环境唤醒词检测运用单麦信号不必增强后的信号，会影响终究的唤醒率。
其次，传统的阵列处理算法包括降噪、信号增强和辨认多个环节，这些环节并不以下降辨认率为优化方针，优化方针为进步人耳听觉的舒适度和终究的辨认率并不彻底等价，会呈现不适配的状况。
再次，因为整套流程对麦克风以及电容元器件的共同性要求十分高，进步了物料本钱。“有时分我们在实验室做得很好，可是量产后发现辨认率变差，便是因为波束成形和声源定位的要求高，假如呈现了动摇，会影响辨认作用。”
别的，波束成形算法原理是增强特定方向波束内的信号强度，衰减波束外的信号起伏。当搅扰声源和方针声源方向十分挨近的时分，两者在同一个波束内，信号和噪声一起被增强，无法提高信噪比。

因而，传统的麦克风阵列处理算法作用并不抱负。

探境科技提出的处理思路是把增强和辨认一体化处理，完结端到端的辨认，推出根据FCSP的端到端AI双麦算法，抛弃了传统的数字信号处理算法来做语音增强，而选用根底于神经网络的AI算法来做信号增强。一起，在模型练习期间，采纳“注意力增强”的学习方法，能够活络地检测到唤醒词和指令词，即便搅扰信号与方针信号方向挨近，也能活络的进行唤醒和辨认。类似于在一个喧闹的环境里边，假如有人喊自己的姓名，那么或许就很快反响过来。

全体上来说，音旋风612计划对进步了多麦的信号处理才能以及高噪声环境下的辨认率和有用算力。鲁勇表明，612首要面向智能家居范畴，预期出货量在千万级。

2年完结商业化落地，量产已破百万

探境科技从2017年建立，2018年开端完结SFA架构雏形，2018年Q3语音芯片611流片，2019年Q1完结量产，截止现在，语音辨认计划已出货打破百万级，整个商业化落地时刻约在2年。

探境科技副总裁李同治告知36氪，2018年头推出SFA架构今后，公司挑选首要推出语音芯片首要出于研制难度和商场要素考虑。

从研制难度上来说，李同治称，在贮存上语音芯片不超越200M，但图画芯片一般需求1G以上，这加大了芯片的规划复杂性。其次因为图画信息量较大，需求更多的接口，在集成度上要求更高。在算力需求方面，图画芯片的算力在4T Ops，而语音芯片在几十G，相差几十倍。归纳考虑下来，语音芯片的研制难度比图画芯片要低，图画芯片的周期投入约是语音芯片的2-3倍。

别的，一个很重要的原因是，探境科技以为语音芯片的商场相较于图画愈加明亮，能够明晰对标IOT商场，需求上会比首要走TO B道路的图画范畴愈加多，规划更大。

除此之外，在会上，探境科技提及了离在线一体化处理计划，以及发布了面向不同场景的产品矩阵。

现在，探境科技盈余规划在千万级，合作伙伴超越30家，有美的、海尔、世强科技、阿凡达智控等。别的，据鲁勇泄漏，探境科技图画芯片已在2019年Q4流片成功，中心能效比达800 IPS/w,图画芯片也在某些范畴开端发生营收。

鲁勇说到，未来探境科技将面向更多场景，推动端云一体化战略，推出更多离在线一体化计划。