科大讯飞胡郁：再过四到五年时间，机器语音识别就能达到人类水准

Classification

产品中心

400-123-4657

传真：+86-123-4567
手机：11883940843
邮箱：admin@youweb.com
地址：山东省东营市琼结县费复大楼636号

立即咨询

当前位置：首页 > 产品中心 > 第五系列

科大讯飞胡郁：再过四到五年时间，机器语音识别就能达到人类水准_米乐M6

发布时间：2024-11-06 05:34:01 丨浏览次数：988

本文摘要：按：这是科大讯飞轮值总裁胡郁在2016网易科技未来峰会上公开发表的为题《“人工智能”以语音和语言为入口的认知革命》的演说。

按：这是科大讯飞轮值总裁胡郁在2016网易科技未来峰会上公开发表的为题《“人工智能”以语音和语言为入口的认知革命》的演说。(公众号：)整理，有删减。刚才（华大基因董事长）汪建老师说道，将来的世界是一个生命科技的时代，我十分表示同意这一点。

将来人类的命运掌控在我们自己手里，我们可以改建自己。人类也想要扮演着上帝的角色。

人类需要在地球上统治者整个世界，是因为我们有智能，现在某种程度自己有智能，还期望需要建构出有新的智能。在当前世界，各种各样的智能层出不穷，甚至有段时间“智能”一词都被用滥了，究竟智能应当向什么方向发展，智能究竟应当给我们带给什么？今天我们带着这个疑惑想要跟大家探究一下。

今年3月份时有个十分知名的AlphaGo大战李世石，在此之前很多人都得出了预测，还包括我自己在内，我当时的预测是机器人一定需要战胜人类。为什么呢？只不过在研究界有句很出名的话，机器人在智能方面战胜人类一定用它最擅长于的方式，而不是用人类思维的方式。我们原本在辩论时总就让下围棋是一个十分高尚的运动，并不是每个人都能把棋士下得很好，但只不过机器显然不是这么想要的，在下完了这个比赛时，凤凰卫视《一虎一席谈》请求我和古力九段和柯洁九段去辩论AlphaGo和李世石对打的情况，柯洁九段在“一虎一席谈”上就较为佩服了（按：比赛之前他曾多次敲话“就算阿法狗战胜了李世石，但它输掉没法我”），他说道这个东西还是要只想打算。AlphaGo为什么需要战胜人类，因为它用的显然不是人类所擅长于的方法，而是机器所擅长于的方法，AlphaGo需要同时计算出来每部棋下几十步甚至上百步的可能性，而且AlphaGo需要忘记三千万种法的对局，而这是我们人类所不擅长于的。

但是人工智能是不是需要在所有方面打破人类呢？我实在这也不一定，因为我们看见棋士是一个几乎信息半透明情况下的公开发表博弈论，就像以前的国际象棋，机器是占据相当大优势的。很多人会问，人工智能究竟反映在什么方面呢？我们告诉人类有农业革命、工业革命，还有现在谈的信息革命，但有可能很多人不告诉的是，人类在统治者地球的过程中只不过经过了漫长的历史发展。有一本书《人类简史》，这本书里写道：人类在地球上早已经常出现两百万到三百万年了，但这些人类在全球各地，就是我们谈的猿人、欧洲的原始人，中国的山顶洞人、元谋人和蓝因人；但经过历史学家和基因工作者的研究找到，七万年前，智人从非洲回头出来把其他猿人都给灭种了，现在不管是黑人白人还是棕色人种、黄种人，都是智人的后代。

在这个过程中，样子智人忽然开窍了一样，人的智能在经过两三百万年的发展中忽然迈上一大步，是什么让他们跑到这一点？历史学家把他们叫作“理解的革命”，因为他们找到这些人跟其他猿人仅次于的有所不同是在他们的语言获得了很大的非常丰富，再行有对话，然后产生文字，产生文字后有几个益处：第一个益处，它可以更佳地叙述周围的大自然世界，比如河边有只狮子，他们告诉狮子长多大，身上是不是病，正处于什么样的状态。更加最重要的是因为有了语言、有了语音，我们可以叙述团队和团队之间的关系，如果没语言，现在动物群种里面的黑猩猩，一个团队仅次于无法多达50头，多达50头就无法管理；但智人因为有了语言，因他们可以的组织上千人的团队。第二个益处，有了语言以后我们可以叙述我们联合想象的内容，一些虚构的概念，“公司”、“梦想”都是从此来作。

所以我们可以看见，现在历史学家一个十分最重要的观点就是人类的认知革命将人类的智能带回一个新的高度。机器擅长于的运算智能，但如果谈到感官智能，机器只不过比我们差得很近。这也是科大讯飞现在正在贯彻的以语音和语言为入口的计算机的认知革命。我们所继续执行的讯飞来超脑计划想做到的事情，就是让机器通过传感器和算法感官世界，并且需要对大自然的人类世界展开理解，作为我们人工智能一个十分最重要的突破点。

怎样构建这种突破，只不过我们有两种有所不同的途径，一种和我们的脑科学十分有关，我们可以对大脑所有的神经元结构和它的工作机理展开分析，甚至可以根据大脑的整个工作机理重构出来确实和大脑完全相同的机制，这是一条思路，但这条思路时间较为宽；另外一条思路就是用互联网的思维，利用我们机器学习算法和大数据，不几乎仿效大脑，但利用机器运算的方法需要仿真我们的感官和理解。我们研究鸟类飞行中用上了飞机，但我们并没建一个鸟出来，是因为我们是告诉了鸟在飞行中的空气动力学；我们研究大脑，只不过并不是把大脑已完成拷贝，而是期望寻找大脑中的智力动力学，更进一步优化我们整个自学的算法。

从另一个角度，如果用互联网思维来解决问题、改良我们的人工智能，要感激三个方面的进展：一是人工神经网络，这个人工神经网络就像我刚说道的，只是教给了大脑一些非常简单的机理，没大脑那么简单，但早已可以很好地工作了；另外拜为互联网和移动互联网所赐，我们可以获得大量大数据；更加最重要的是我们有千千万万的算法，有往返用户的产品，这些产品把用户的用于习惯源源不断起源于后台，我们可以利用网络的效应大大地优化它。正是因为有这三者的承托，我们获得了十分好的结果。确实人工智能的框架应当是什么样的呢？再行给大家荐个例子，人类大脑皮层在工作过程中分成两个层面：一个叫感官层面，就是我们谈的视觉、听力和触觉，还有一个层面是理解层面，当我们看见一只猫，听见猫的鸣叫，或者是碰猫的皮毛，人脑里有一个概念，这些概念构成了我们语言中的单词和词汇，就是“猫”这个概念，它们汇集到我们谈的语言和解读的大脑的理解皮层层面。

所以在讯飞来超脑里分两个层面：感官智能是对我们听见的、看见的、触觉到的东西展开辨识，同时把辨识结果下降到我们理解智能的层面，构成一个概念空间的回应和推理小说，在过去五年中我们陆续把深度自学网络应用在刚才我们谈的感官和理解，还包括视觉、还包括听力，还包括自然语言，还包括翻译成的各个方面。（工作人员播出了三个语音片段）这是一段语音段落，大家听见第一个样子是“睡觉”，第二个样子是“休息室”，但当听得完了原始段落时你不会告诉（按：类似于大脑自动“校正畸变”），原本这句话说道的是“《西游记》之大闹天宫”。人脑是怎么工作的呢？人脑需要记下短时或中间的或宽时的记忆，通过一种迭代的方法辨识语音，现在最新型的迭代神经网络需要仿真我们在大脑方面的感觉，这个过程非常复杂，我就不一一讲解了。但光有迭代还过于，光需要存储记忆还过于，现在近期的一个方式是用我们谈的图像的方法辨识语音，当语音转入我们的耳朵时，我们耳朵里的纤毛不会根据它的长度有所不同与语音中有所不同的频率展开共振，如果把共振的频率分析出来，我们可以获得一张语谱图，这个图形里的信息很非常丰富，在MIT专门有科学家可以根据这些图形就需要跟你说道这句话里用的是什么样的文字。

我们的识别系统如果需要读书这些图，整个性能的稳定性就不会有相当大提升。如果你是一个盲人，你的耳朵就不会尤其灵，因为它借出了我们在视神经方面的一些神经系统和细胞，这样可以把它的一些能力借出过来。我们应用于一个新型的卷积神经网络，它原本是专门用来做到图像的，来处置我们的语音图像，我们获得了一些十分令人吃惊的结果：即使是跟近期的迭代神经网络比起，用卷积神经网络——也就是用辨识图像的方法，我们依然能获得一个48%的提升。

可以说道，现在我们的语音不仅可以听见，而且可以看见。因为这样的结果，我们大家不会更加多地看见，在我们各种各样的输入法里，在我们的语音搜寻里，还有在我们各种各样的语音交互式系统里，语音辨识的错误率正在以每年30%的水平上升，我坚信再行过四到五年的时间，我们最后的语音识别系统就能跟人整个的感觉几乎一样了。在感官方面，我们语音辨识技术大大获得提高，但是在理解方面，它有几个十分核心的任务要已完成，讯飞来超脑关于语言解读及深层、科学知识阐释及推理小说，还有自律自学，要构建这些技术必需要有两个层面的东西：第一是要解决问题自然语言叙述的问题，在此基础上我们要解决问题语言解读及深层，还有我们谈的科学知识阐释及推理小说各个方面。刚才我们提及了大脑在大脑皮层中关于概念的回应，它是一张图，有所不同的词语它们之间概念是有空间的，我给大家荐个例子，比如“大家好”，传统的传达，每个词就代表了一个空间，我们把每个词的经常出现看作“1”，不经常出现的地方看作“0”，这是传统展现出词语的一种方法，词语和词语之间，要不就是距离完全相同，要不就是有所不同。

现在我们使用一种倒数的空间来展现出词语，每个字、每个词都可以用“词语卷积”的方法，用一段倒数的数字，相等于一个空间里的坐标系，这样每两个单词之间的距离就可以把它计算出来。我们把所有词凝了一下类就可以看见这么一个结果，比如我们可以看见新浪、网易、腾讯，这些东西是连在一起的；我们可以看见吕布、张飞、关羽、诸葛亮，他们是较为相似的。如果通过医学的方法来测量，我们也不会找到涉及词语在大脑皮层中存储的方位也是十分相似的。

利用这种方法，我们就创建了一种展现出词语的空间概念的传达体系，在这样的传达体系之下，我们可以更进一步地去分析词语层面、句子层面和篇章层面，他们在各个层面上的相连和计算出来的距离。有了这个以后，我们来看一些实际的起到，他们能做到什么样的事情呢？首先我们看一下语言的解读及深层。首先来看翻译成，在翻译成方面，我们告诉他们要展开语句的锻炼，因为有所不同语言是不一样的，这时候中用人脑中一个十分最重要的概念，关注度模型，比如我们人在看一幅图像，海边有一个灯塔，我们看的时候注意力是集中于在灯塔上而不是其它方面。

这张图较为有意思，上面这张图是一个男司机在驾车时仔细观察各种各样的东西，下面这张图是一个女司机，她的思路就较为狭小。如果我们来看一段文字，这两天正好欧洲杯，我们的注意力只不过也是集中于在那些文字中较为有信息量的地方，这种关注度模型，只不过它的方法是需要把我们最注目的那些输入量自动寻找出来，与我们最后的结果展开对应。我们来看一下基于机器翻译的实际例子：大家都告诉，有所不同的语言之间，他们的机器翻译，比如有很多谓语、主语、宾语，它们的方位是有所不同的，不会展开倒装，顺序也不会再次发生很多变化，原本用规则的方法来叙述这些变化非常复杂，通过我们现在谈的这个神经网络，大家可以看见下面，输出“我是谁”，“谁”和“我”，它们的方位是有差异的，但利用attention这个神经网络，它们可以自动寻找对应关系。使用全新的神经网络的翻译成系统，比起传统系统，提升不会十分多。

再行看下一个明确的例子，我们都告诉最近科大讯飞在教育方面做到了十分多的工作，我们期望需要利用机器人协助我们的老师展开卷面测验，比如我们写出了一个作文，这篇作文，我们期望机器人也能给它投出分数并得出它的评语。大家看这个样例，右边94分是这篇文章的分数，右边有评语，而且从这篇文章中可以看见它中用了排比，中用了一些语句的提到，我们如何来做到，让机器也能看懂这些东西？机器的关注度如何自动落在这些关键的地方呢？只不过很非常简单，右边是一个范文，刚才我们谈了，用倒数空间把它回应出来，这些范文和作文之间的向量，利用我们的关注度模型，不会自动寻找之间较为接入的地方，应当谈，现在我们这方面的结果在中考和中考的作文评卷，不管是中文还是英文，都获得了很好的效果，比普通老师改为得还要精确，当然这是大规模的结果。最后我们来看一个读者解读题。我们看一段话，“月牙的影子在水中摇晃小鸭子看到了，以为是条鱼，急忙游过去”，现在题目是我把“小鸭子”抠掉，让机器看完了这段话以后自动在上面堆出来这地方应当堆什么，利用我们现在的系统，我们不会把篇章和问题展开attention的规划，“小鸭子”也在其它地方也经常出现过，它可以计算出来出有每个地方热力度（关注度）的情况，后来我们找到“小鸭子”的关注度最低，这样我们就可以把“小鸭子”堆在这个地方，而且是填对的。

现在它在读者解读方面能超过6岁儿童的水平，大家不要小看6岁儿童，6岁儿童在常识的解读超过了一个水平，而在6岁以后主要是学各种各样的科学知识，这就跟我们理解到的，2岁、3岁、4岁构成个人最重要的自学能力，这方面是最完全一致的。坚信随着6岁儿童常识的自学能力超过以后，我们再行给他灌输小学、初中、高中的科学知识以后，它最后就能考取大学。原创文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：MILE,米乐M6,米乐M6体育

本文来源：MILE-www.24-7watches.com

网站首页

MILE

产品中心

新闻动态

成功案例

荣誉资质

技术支持

MILE

在线留言

最新公告：

友情链接：