腾讯云ASR基于大模型全新升级：首创多语言、多方言混合识别引擎是真的还是假的？

cht 2024-01-04 6次阅读

近日，腾讯云语音识别(Automatic Speech Recognition，ASR)方案基于大模型能力全新升级，依托业界领先的自研语音识别技术和海量的语音行业大数据优势，可为不同行业、不同需求的客户提供高质量的语音识别服务，精准、高效助力千行百业持续创造应用价值、繁荣产业生态。

腾讯云ASR是将语音转化成文字的PaaS产品，依托微信智聆实验室自研技术，有效提高复杂场景的识别准确性，极大地改善复杂音频和低信噪比音频识别的效果。通过业界首创的高性能引擎，能够实现23种方言的语音识别，让用户无需事先定义方言，即可让模型进行自动化适应。突破现有ASR引擎的场景局限，腾讯云ASR在线下销售、下沉市场等不同场景都能够灵活、广泛地进行使用。

目前，腾讯云ASR已经在微信、王者荣耀等腾讯内部产品以及外部不同行业持续落地，覆盖录音质检、会议实时转写、语音输入法等多个场景，产品单日调用量达到百亿次，单月服务的内外部企业客户数达到数千个。

自研多模态融合、蒸馏算法，带来更准确的语音识别性能

语音识别(ASR)是AI最早的应用场景之一，业界不少方案目前仅能针对简单场景进行精准识别，一旦音频环境复杂，或者多人交错说话、声音重叠，识别准确率就会大打折扣。为了助力解决上述语音识别应用难题，腾讯云ASR自研多模态融合算法、蒸馏和半监督算法等，强化上下文理解能力，大幅减少语音数据的标记工作，更好地提升复杂识别环境的准确率。

通过自研多模态融合算法，腾讯云在模型预训练阶段加入文本大语言模型(LLM)，增加上下文预测的准确率，对部分通过纯音频识别无法正确识别的场景有了更好的提升作用，在各行业数据集中(尤其是低信噪比数据集)取得更佳效果。同时采用无监督学习，使得模型中加入大量未经标注的低资源数据，在垂类行业音频和方言音频上取得了重大突破。

同时，腾讯云还自研蒸馏和半监督算法，利用有监督数据，可以让ASR的小参数模型同时学习真值数据和知识蒸馏的数据，利用蒸馏算法，让小模型学习更多数据的相似性，从而提升各自的性能水平。

业界首创高性能引擎，支持多语言和多方言的混合识别

随着智能汽车普及、短视频配音、企业出海等趋势的兴起，多语种、多方言的语音识别需求逐渐加大。如何应对不同口音、语言的准确识别，也成为腾讯云发力ASR大模型创新的焦点。

腾讯云通过采用自研的高新技术，打造多项业界首创的高性能引擎，进一步增强ASR混合识别能力。依托业界首创的支持多种语言和多方言的混合识别引擎，腾讯云成功构建了中文方言大模型能力。提升23个方言语种的平均识别准确率(平均提升指标在7%以上)，识别过程无需事先定义方言种类，实现对“普通话+方言”识别场景的自动化适应，为不同语种用户提供更全面的服务，有效满足了跨省市的语音识别需求。

混合识别引擎之外，腾讯云ASR还支持热词增强版、ASR情绪识别等多项业界首创功能，极大地改善复杂音频和低信噪比音频识别的效果，提升高达20%。通过高准确率、业界首创的语音识别功能创新，腾讯云ASR解决市场上ASR引擎需求问题的同时，成功构建适配多个领域的语音识别大模型，进一步扩展了其在不同场景的应用范围。

灵活、广泛适配多种应用场景，成本可控、性价比更高

将智能客服通话录音转化成文本，可能出现违规用语、危险用语;多数厂商需要依赖有监督数据进行模型的优化，因此在部分对识别要求较高的场景上，客户无法寻求到更合适的解决方案。面对语音识别要求越来越高的现状，如何让客户获取到识别率更好、覆盖面更广、性价比更高的语音识别服务，成为腾讯云ASR努力的目标。

腾讯云语音识别方案不仅能够更好地解决现有ASR引擎在高并发、高可用性方面的局限，在智能客服、语音输入法、下沉市场等多种应用场景，展现出了强大的灵活性和广泛性，使得各行业、各种特征迥异的音频都能获得相对高性能和更准确地转写服务。

例如在智能客服场景，百应科技通过腾讯云ASR强化电话外呼、智能外呼场景的录音文件识别、实时语音识别，大幅提升呼叫中心工作质量管控能力，完成人力难以完成的超大规模呼叫中心的电话录音质检问题;在语音输入法场景，KK键盘依托腾讯云ASR进一步提升产品的趣味性，满足了客户语弹聊天、游戏键盘、趣聊等核心功能的设计，有效提升了产品的留存和转化，以及品牌商业价值。

当前，腾讯云ASR已经落地在客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业，积累了丰富的行业词库和标杆案例。未来，腾讯云将继续推动语音识别能力创新升级，帮助更多应用场景将大模型的技术力价值转化生产力价值，助力产业发展。