C114讯 12月28日消息(曹天鹏) 一套深蓝色西服,一副金丝边眼镜,加之整齐的头发,人比照片上要更年轻健硕些,处处散发着儒雅的学究气息,谈吐举止皆显大将风范,他就是北京捷通华声语音技术有限公司(下称“捷通华声”)的董事长张连毅。
在近一个小时的访谈中,他语速不紧不慢,娓娓道来捷通华声的过去、现在与未来,一直轻描淡写捷通华声的成就与影响力,极其温和谦逊。在他眼里,捷通华声虽然早已是国内第一家可同时提供语音合成、语音识别、手写识别等多项智能人机交互(HCI)技术的企业,却也才刚刚开始成长。
捷通华声从2000年成立至今,已走过12个春夏秋冬,而智能人机交互(HCI)技术一直是公司的主业,从未动摇过。尤其是捷通华声的语音技术、手写技术最为人称道。数据显示,捷通华声在中文语音技术市场综合占有率已达到50%,手写识别技术市场占有率已达到35%以上。
最近,捷通华声新推出我国云计算领域第一个智能人机交互感知云——“灵云”,已能将语音云合成、手写识别、拍照识别、机器翻译等多项智能技术有机的组合起来,就象一个健全的真人一样,为用户提供多项智能一站式服务,这在全球都属于首创。
灵云,让人机交互像人与人一样沟通
智能人机交互技术,即HCI技术。语音合成、语音识别、手写识别、汉字印刷体识别是当前HCI技术发展的主流。除了以上这些技术,人脸识别、指纹识别、手势识别、虹膜识别、脑波识别等,凡是人和机器之间的互动都属于智能人机交互((HCI)技术范畴。
2011年的12月8日,捷通华声正式推出了我国云计算服务领域第一个感知云----“灵云”。
资料显示,“灵云”是一种可以用语音、手写、拍照,将来甚至可使用脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务,让人机交互就像人与人沟通一样的简单自然。
据张连毅介绍,“灵云”是一个综合的人机交互感知云,提供的不是一种单一服务,而是多项智能服务,即一站式服务。
过去,语音、手写、拍照等智能人机交互(HCI)技术是分离的,而“灵云”把它们组合起来,构成一个完整的“人”。
“智能人机交互(HCI)技术,其实关键是模仿人。所谓语音云合成就是模仿人的嘴说话;扫描识别也好、拍照识别也好就像是人的眼睛;语音识别可以理解为我们用耳能听懂、辩识各种语言的意思;翻译就像人的大脑在工作。这些技术过去是分离的,‘灵云’把它们组合起来,构成一个完整的‘人’。”他用十分形象的语言描述出了“灵云”的本质。
张连毅表示,既然是一个人,他就必须有大脑。“灵云”也是一个有大脑的系统,即自学习系统。在人们通过“灵云”实现人机交互过程中,系统记录、分析每个用户的使用习惯。
他举例说明“灵云”的这种功能。“比如经济日报和北京日报的记者平时用词肯定不一样,搞计算机和做汽车生意的平时用语也不同。而通过我们所建立的这套系统,能将用户日常工作生活中最常用的信息加以记录,保证了‘灵云’服务的准确度。”
这样,“灵云”就让手机、电脑等数字设备在与人的交互过程中,实现能说会听、能写能识,感知并完成人们过去通过键盘、鼠标发出的操作要求,从而使机器设备与人之间的交互变得更轻松、简单、自然,更回归人性。
“灵云”采用“云+端”方式
“灵云”不仅仅是人机的交互,也是一个完整的应用系统。
为了满足在中国不同网络条件,“灵云”同时还提供完整的云端组合式解决策略,目前,三大电信运营商采用的是不同的网络宽带,很多用户实际上还没有使用上3G网络。基于这一点,“灵云”采用“云+端”方式,这样就让客户端减少负担,让云来承担更多工作。同时,为适应不同的带宽,“灵云”也进行了特殊设计,能保证用户在不同带宽条件下“灵云”的使用效率和体验都是一流的。
谈及“灵云”的使用领域,张连毅作了进一步介绍,HCI技术在日常工作、生活和学习中都已经有很多的体验。工作中经常使用语音校正,即时翻译,语音指令;学习中经常使用语音朗读、手写输入、在线学习、拍照翻译、文档管理等。
“灵云”能通过手机、电话、计算机、智能家电、电子医疗、学习机等数字设备,可广泛应用于金融、电信、交通、能源、军事、政府、医疗、教育等几乎所有的领域。
未来,随着“灵云”将不断融入各项不断发展与成熟的HCI技术,包括甚至将来可以融入脑波识别等更前瞻的HCI技术,“灵云”的应用将更加广泛,真正实现无处不在!
北京捷通华声语音技术有限公司董事长 张连毅
“灵云”将进军移动互联网
张连毅透露,“灵云”作为一种智能人机交互(HCI)技术云服务,也必将融入到移动互联网产业之中,与电信运营商、手机制造厂商、应用开发商等产业链上下游展开广泛的合作。
过去近十年的发展,捷通华声的语音合成、语音识别技术在平台级各重大领域、嵌入式终端产品中的应用已经占据市场50%的市场份额。
在平台级领域如金融、保险、电信、企业、政府、教育、医疗等国家支柱型产业中的呼叫中心、客服热线中都有着出色表现。尤其是金融领域,80%以上客户服务中心平台中都用着捷通华声的语音技术产品。
随着移动互联网的发展,捷通华声的语音、手写产品在嵌入式设备中的应用也非常普遍,包括智能手机、平板电脑、导航仪、电子书、电子辞典、学习机、电子书包等智能终端设备。
值得一提的是,捷通华声推出的基于Android系统的的“捷通听书”软件、“动感天气预报”、以及合作推广的棋牌网游“天行乐园语音斗地主”、“天行短信会说话”等具有语音合成技术特点的应用软件在移动互联网上已有相当规模的粉丝。
除了语音合成技术,捷通华声的另一项HCI技术——手写识别技术也走在行业的前列,尤其是录易输入法产品,卖了十余年仍畅销不衰,受到了诺基亚、摩托罗拉、联想、夏普、索爱、中兴、多普达、海信等知名手机厂商的青睐。
截止目前,录易手写输入法(Android版)在各个软件商城中已成为热门下载产品。今年7月份,捷通华声录易手写输入法还发布了海外多语种版,实现了对英语,法语,德语,意大利语,俄语,葡萄牙语,西班牙语等几十种语言的键盘输入及手写输入。
捷通华声十年在HCI市场的耕耘,为“灵云”诞生与发展奠定了坚实的基础。如今,“‘灵云’凭借捷通华声在语音和手写等智能人机交互(HCI)技术与市场方面积累的实力,也凭借云计算、移动互联网的高速发展,一定会将HCI技术走向更宽广的应用市场。”张连毅说。
人机交互的全新时代
张连毅最后强调:智能人机交互(HCI)技术已开启了一个新时代的到来。
当前电子信息产业还处于触控技术当道的时代,这还要得益于苹果公司的推动。显而易见,也正是带有典型触摸特点的技术和产品成就了今天的苹果。
而在苹果的触控技术出现之前,人与机器的交互手段已悄然走过两个阶段:
50年代IBM这个蓝色巨人,把人类社会带进计算机时代,键盘一直成为人们操作计算机的一个非常关键性的、代表性的交互手段,这个手段持续长达几十年,这是第一阶段。
第二阶段中的典型代表是鼠标。微软是这个阶段中很强大的推动者,鼠标成了普通大众使用电脑的最主要设备,远远超过键盘。
苹果所推动的触控时代,代表着人们对手机、计算机等数字设备操控手段的进化进入第三个阶段,然而,触控技术的普及更昭示一个更自然、更人性化的智能人机交互体系会逐渐占据未来应用的主流。
捷通华声推出“灵云”,代表着人们对手机、计算机等数字设备操控手段的进化进入一个全新阶段,一个更自然、更人性化的人机交互体系已开始占据未来主流生活,电子信息产业已全面进入到一个全新的智能人机交互(HCI)技术时代。