腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

cht 2024-01-04 6次阅读

近日,腾讯云语音识别(Automatic Speech Recognition,ASR)方案基于大模型能力全新升级,依托业界领先的自研语音识别技术和海量的语音行业大数据优势,可为不同行业、不同需求的客户提供高质量的语音识别服务,精准、高效助力千行百业持续创造应用价值、繁荣产业生态。

腾讯云ASR是将语音转化成文字的PaaS产品,依托微信智聆实验室自研技术,有效提高复杂场景的识别准确性,极大地改善复杂音频和低信噪比音频识别的效果。通过业界首创的高性能引擎,能够实现23种方言的语音识别,让用户无需事先定义方言,即可让模型进行自动化适应。突破现有ASR引擎的场景局限,腾讯云ASR在线下销售、下沉市场等不同场景都能够灵活、广泛地进行使用。

目前,腾讯云ASR已经在微信、王者荣耀等腾讯内部产品以及外部不同行业持续落地,覆盖录音质检、会议实时转写、语音输入法等多个场景,产品单日调用量达到百亿次,单月服务的内外部企业客户数达到数千个。

自研多模态融合、蒸馏算法,带来更准确的语音识别性能

语音识别(ASR)是AI最早的应用场景之一,业界不少方案目前仅能针对简单场景进行精准识别,一旦音频环境复杂,或者多人交错说话、声音重叠,识别准确率就会大打折扣。为了助力解决上述语音识别应用难题,腾讯云ASR自研多模态融合算法、蒸馏和半监督算法等,强化上下文理解能力,大幅减少语音数据的标记工作,更好地提升复杂识别环境的准确率。

通过自研多模态融合算法,腾讯云在模型预训练阶段加入文本大语言模型(LLM),增加上下文预测的准确率,对部分通过纯音频识别无法正确识别的场景有了更好的提升作用,在各行业数据集中(尤其是低信噪比数据集)取得更佳效果。同时采用无监督学习,使得模型中加入大量未经标注的低资源数据,在垂类行业音频和方言音频上取得了重大突破。

同时,腾讯云还自研蒸馏和半监督算法,利用有监督数据,可以让ASR的小参数模型同时学习真值数据和知识蒸馏的数据,利用蒸馏算法,让小模型学习更多数据的相似性,从而提升各自的性能水平。

业界首创高性能引擎,支持多语言和多方言的混合识别

随着智能汽车普及、短视频配音、企业出海等趋势的兴起,多语种、多方言的语音识别需求逐渐加大。如何应对不同口音、语言的准确识别,也成为腾讯云发力ASR大模型创新的焦点。

腾讯云通过采用自研的高新技术,打造多项业界首创的高性能引擎,进一步增强ASR混合识别能力。依托业界首创的支持多种语言和多方言的混合识别引擎,腾讯云成功构建了中文方言大模型能力。提升23个方言语种的平均识别准确率(平均提升指标在7%以上),识别过程无需事先定义方言种类,实现对“普通话+方言”识别场景的自动化适应,为不同语种用户提供更全面的服务,有效满足了跨省市的语音识别需求。

混合识别引擎之外,腾讯云ASR还支持热词增强版、ASR情绪识别等多项业界首创功能,极大地改善复杂音频和低信噪比音频识别的效果,提升高达20%。通过高准确率、业界首创的语音识别功能创新,腾讯云ASR解决市场上ASR引擎需求问题的同时,成功构建适配多个领域的语音识别大模型,进一步扩展了其在不同场景的应用范围。

灵活、广泛适配多种应用场景,成本可控、性价比更高

将智能客服通话录音转化成文本,可能出现违规用语、危险用语;多数厂商需要依赖有监督数据进行模型的优化,因此在部分对识别要求较高的场景上,客户无法寻求到更合适的解决方案。面对语音识别要求越来越高的现状,如何让客户获取到识别率更好、覆盖面更广、性价比更高的语音识别服务,成为腾讯云ASR努力的目标。

腾讯云语音识别方案不仅能够更好地解决现有ASR引擎在高并发、高可用性方面的局限,在智能客服、语音输入法、下沉市场等多种应用场景,展现出了强大的灵活性和广泛性,使得各行业、各种特征迥异的音频都能获得相对高性能和更准确地转写服务。

例如在智能客服场景,百应科技通过腾讯云ASR强化电话外呼、智能外呼场景的录音文件识别、实时语音识别,大幅提升呼叫中心工作质量管控能力,完成人力难以完成的超大规模呼叫中心的电话录音质检问题;在语音输入法场景,KK键盘依托腾讯云ASR进一步提升产品的趣味性,满足了客户语弹聊天、游戏键盘、趣聊等核心功能的设计,有效提升了产品的留存和转化,以及品牌商业价值。

当前,腾讯云ASR已经落地在客服质检、外呼中心、智能家居、游戏直播、会议转写、语音输入法、法庭、房地产、教育等多个行业,积累了丰富的行业词库和标杆案例。未来,腾讯云将继续推动语音识别能力创新升级,帮助更多应用场景将大模型的技术力价值转化生产力价值,助力产业发展。

举报 0 收藏 0 打赏 0评论 0分享 0

 

 

更多>同类资讯

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

南极人携手YKK、永荣锦江、高士线打造行业里程碑

近日,南极人品牌的持有方南极电商股份有限公司(002127.SZ)分别在上海、福州、深圳召开发布会,与YKK、永荣锦江、高士线正式签署合作协议,并深度造访其工厂与产品,与这三家正式成为战略合作伙伴,后续将在服装制造领域携手并进。经过25年的发展,南极电商已成为中国领

01-04

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

2023小米百万美金技术大奖公布 小米硬核创新进入井喷期

1月4日,第五届小米百万美金年度技术大奖颁奖仪式在小米科技园举办。“一体化大压铸技术”和“小米澎湃OS”凭借在创新性、领先性、影响力三个维度的突出表现,双双获得2023年小米百万美金技术大奖。小米集团创始人、董事长兼CEO雷军表示,2023年对于小米而言,是「人车

01-04

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

京东采销小徐的护眼大梦想 用“护眼宝典”守护百万家庭孩子视力健康

11月11日,在京东11.11媒体开放日上,京东宣布截至目前,京东采销直播累计观看人数已突破了3.2亿,直播间满满吸引力的商品、最具诚意的价格和贴心的服务,激发了大众的消费热情,以护眼学习机为代表的3C数码产品更是取得亮眼成绩,让关心孩子教育和健康的家长们感受了一

01-04

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

这个元旦淘宝AI环球旅拍火了 淘淘秀或成AI实验室

前一秒在东北雪场放烟花,后一秒去三亚吹海风。就在刚刚过去的2024年元旦,很多年轻人在淘宝使用“淘淘秀”的AI环球旅拍功能,体验了一键生成跨年照片。用户只需要打开淘宝,搜索“淘淘秀”就能用自己的照片生成AI环球旅拍跨年照。生成的图片效果非常逼真,配上文案发朋

01-04

阿里大模型让照片跳舞,朋友圈掀起斗舞潮

只要一张照片就能生成一段舞蹈视频,又一个大模型应用出圈!2024年第一个工作日开始,兵马俑、马斯克以及各地网友跳科目三和网红舞的视频就陆续在国内社交媒体和朋友圈刷屏。这些大约10秒左右的视频都不是真人出镜,均由大模型生成,这种低门槛的「跳舞」方式引发了网友

01-04

天花板投屏不是梦!当贝D5X系列灵动云台上线,360°投屏零局限

娱乐化时代,大家的消费需求都变得越来越多样化。而对于投影仪这类单品来说,大家也不只满足于投影仪的清晰度和适玩度,更是在意投影仪的便携性。此次当贝投影为了满足大众对于家用投影仪的多维度需求,全新推出当贝D5X系列灵动云台支架,可以说是提供给用户最贴心最适

01-04

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

2024开年好礼 智能平板三星Galaxy Tab A9+热销中

怀揣对未来生活的期盼,2024正式拉开帷幕。新的一年,无论是日常娱乐还是学习工作都要有个崭新的开始。而为自己与家人朋友添置一份兼顾事业学业与休闲体验的“开年礼物”,也因此成为新年初始阶段极具仪式感的选择。如目前在三星商城“新春大动作 超值狂欢购”活动中热

01-04

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

来自咖啡师的认证!用卡梭CASO全自动咖啡机打造家庭私享咖啡角

自从成为一名专职咖啡师,每天都会为顾客制作各式口味的咖啡,从拿铁到卡布奇诺,从意式到美式,我都能手到擒来,让客人品尝到一杯香醇可口的咖啡。在门店里忙碌了一整天后,下班回家当然也要用一杯好咖来放松自己,不过我实在不想再摆弄那些庞大又复杂的咖啡机器,每天

01-04

这类冒充官方机构工作人员的FaceTime来电有坑,使用微粒贷要警惕

近期,不少诈骗分子冒充“京东客服中心”、“国家征信中心”等平台工作人员身份,使用FaceTime功能(苹果手机的通话软件),向苹果手机用户发起通话,以“白条要整改下架需要配合注销”“微粒贷不关闭影响征信”等为由实施诈骗。电信网络诈骗频发,我们要如何远离诈骗呢?

01-04

性能最强的投影仪推荐,当贝F6投影仪与华为海思V811的完美结合

对于投影仪来说,处理器芯片就像是其“心脏”一样,扮演着处理所有信息的核心角色。它的性能和质量对于投影仪的显示效果和用户体验有着至关重要的影响。那么,在众多的投影仪处理器中,哪一款才是最好的呢?今天,我们就来一起探讨一下投影仪处理器的天梯榜,国产的全新

01-04

腾讯云ASR基于大模型全新升级:首创多语言、多方言混合识别引擎是真的还是假的?

第三代骁龙8登上人民匠心奖榜单,高通高管:生成式AI将从云端向终端转移

回首2023年科技产业最大的惊喜是生成式AI,在该技术的帮助下,人们可以用真正的自然语言与计算机进行交流。这一以前只能出现在科幻电影里的场景,仅在一年时间里,就走入人们日常生活。近日,高通技术公司公共关系副总裁Clare Conley撰文表示,生成式AI在几乎每个行业都

01-04

美的楼宇科技携手火山引擎,打造绿色智慧园区新生态

在2060碳中和战略目标背景下,我们建筑行业正加速迈入智慧化、绿色发展新阶段。当前建筑行业存在诸多难题,传统园区往往面临园区运行能耗高、设施运维难度大、日常运营人员成本高、空间利用率等问题,同时各个场景环节还存在彼此孤立、协同不足的难题。为了解决该园区信息

01-03

安克创新与火山引擎数智平台开展合作:数据分析降门槛 数据协同破边界

近日,消费电子品牌安克创新与火山引擎数智平台(VeDI)达成合作,双方将聚焦安克创新大数据平台的海量数据分析场景,共同探索包括大模型应用、IM(即时通讯,Instant Messaging)办公软件协同等在内的数智升级新方向,进一步释放安克创新的数据新价值。安克创新科技股

01-03

沉浸音频产业化新进展 抖音技术团队牵头制定AVS音频团体标准

近日,AVS(Audio Video Standard) 音频团体标准《信息技术 虚拟现实内容表达 音频》(标准号T/AI 125-2023)发布,标志着国内沉浸音频技术在产业上应用趋于成熟,为多媒体内容多样化与个性化提供了有力的技术支撑。沉浸音频,也称VR音频,3D音频、空间音频,是新一代音

01-03

三星电子将于CES 2024推出全新OLED显示器,扩展玄龙骑士电竞显示器产品阵容

新品显示器包括玄龙骑士OLED G8、玄龙骑士OLED G6和升级版玄龙骑士OLED G92024年1月3日,三星电子宣布其全新玄龙骑士OLED系列电竞显示器将在下周的CES® 2024首次亮相。这场全球最大的科技盛会由美国消费技术协会(CTA)®主办,举办地点位于拉斯维加斯。新款OLED显示器


标签: 腾讯  基于  大模型  全新  升级  首创  语言  方言  混合  识别 


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。