MSRA副总裁周明认为中国NLP如何跻身世界前列?
为了更深入的了解NLP在中国的发展现状和前景,CCF在NLP方向的努力以及NLPCC大会的发展,雷锋网。com采访了CCF中文信息技术委员会主任、微软亚洲研究院副院长周明(兼任中国中文信息学会(CIPS)常务理事、国际计算语言学会ACL候任主席)、北京大学赵东燕教授、CCF中文信息技术委员会秘书长(雷锋com稍后会报道)。
本文的主要内容是周明博士从CCF中文信息技术委员会的角度深入介绍了自然语言处理的研究进展以及自然语言处理在中国的发展现状和前景。他的开场白如下:
目前,各国政府(包括美国、德国、日本、中国等。)都在做一些人工智能的规划,但是中国对人工智能的规划是最清晰的。结合国务院《中国人工智能发展规划》(2017年7月)和总书记十九大报告(2017年10年7月),我们可以看到,我国规划了人工智能发展的两个阶段,第一阶段是2020年进入世界先进水平,第二阶段是2030年。
我们国内的自然语言处理和国家对人工智能的规划基本同步。换句话说,我们将在2020年达到世界先进水平,并有望在2030年达到世界顶级水平。
高级和顶级的区别有多大?先进水平就是你跟着世界上最发达的国家走,你掌握了所有的关键技术,但你不是关键技术的发起者,也就是你不是领导者;顶层其实就是你在引领,你告诉世界往哪个方向走,你提出一个关键的理论模型,别人在跟着你走。这就是区别。
在NLP领域,中国现在是非常好的跟随者。一旦世界上(主要是美国)出现任何技术,我们马上学会掌握并迅速应用,不比美国差。现在不同的是,我们不是第一个提出这个技术和方法的。所以我们CCF中文信息技术委员会认为我们现在基本处于世界先进水平,三年后也就是2020年将达到世界先进水平。在此基础上,我们预计2030年达到世界顶级水平。这是我们的愿景。
以下是周明博士的深入解释。雷锋。com在不改变初衷的情况下,对采访内容进行了简化编辑,为读者奉上晚餐。
首先,自然语言处理是认知智能的核心
雷锋。com:NLP在整个AI领域的地位如何?
周明:近年来,由于大计算、大数据、算法模型(以深度学习为代表)、落地场景四大要素,人工智能进入快速发展期。其主要发展方向:知觉智能和认知智能。
所谓感知智能,就是视觉(图像)、听觉(声音)等感知能力。大家都知道感知智能在突飞猛进,比如针对图像识别的ImageNet评测和针对语音识别的Switchboard评测,在这个测试集中已经达到甚至超过了人类的水平。该领域的研究进展也促进了许多应用的发展,如安全、人脸识别、物体检测,以及语音识别在手机、智能家居等设备中的应用。
认知智能,一般来说,就是“能够理解和思考”。认知智能有很多东西,其核心包括语言智能、知识图谱、用户画像等等。在此基础上,支持智能写作、聊天、诗歌创作、文字生成、游戏等几个应用。有的做的不错,比如以AlphaGo为代表的游戏系统;但是有些并不令人满意。目前认知智能在引入深度学习方面已经落后于感知智能,但处于追赶状态。比如神经机器翻译质量越来越好,聊天系统和人机对话越来越好。
自然语言理解是认知智能的核心。它的进步会带动知识图谱的进步,用户理解能力的增强,整体推理能力的进一步提升。在这个基础上,聊天、解题、翻译、对话也会有所提高。一旦认知智能进步,再加上感知智能的进步,整体人工智能会进一步发展。
比尔·盖茨曾经说过“语言理解是人工智能皇冠上的明珠”,沈向洋博士也说过“得懂语言者得天下”,这些都强调了NLP的重要性。自然语言处理技术将推动人工智能的整体进步,使人工智能技术能够投入实际应用。
二、NLP未来五到十年的发展
雷锋网:NLP未来五到十年将如何发展?
周明:大致有几个方向:1)问答和阅读理解的进步会让搜索引擎更加精准;2)语音识别和神经机器翻译将使口语机器翻译完全实用化;3)由于用户画像的准确性和实时性的提高,促使信息服务和广告更加自然、友好和个性化;4)提高聊天、问答、对话的技巧,促进自然语言对话实用化;5)由于对话技术和知识图谱的进步,智能客服和人工客服更加完美的结合在一起,大大提高了客服效率;6)由于自然语言生成技术的进步,自动写诗、作文、自动生成新闻甚至小说都会普及;7)人机对话的进步推动语音助手、物联网、智能硬件、智能家居的普及;8)最后是NLP+,即NLP广泛应用于金融、法律、教育、医疗等垂直领域。
以搜索引擎的智能化为例。以前的搜索引擎,输入关键词会返回一堆东西,需要你自己去看。随着自动问答、阅读理解等能力的提升,现在的搜索引擎可以问一个问题,句子一点都不怕。它可以分析这个问题,并从浩如烟海的文档中找出答案。即使它不只是给你一个文档链接,它也可以直接给你答案,搜索引擎的结果越来越准确。
雷锋。com:NLP研究未来应该关注哪些方向?
周明:我个人比较在意以下几点:1)通过用户画像的个性化服务;2)通过可解释学习洞察人工智能的机制;3)通过知识和深度学习的结合,提高学习效率;4)通过迁移学习实现领域适应;5)通过强化学习实现持续进化;6)通过无监督学习,充分利用未标记数据;7)多媒体和多模态之间的理解、问答和转换。
第三,中国的NLP研究排名世界第二
雷锋。com:目前中国在NLP领域的发展现状如何?
周明:NLP在中国的发展有两个方面,一个是科研水平,另一个是产业化。在NLP产业化方面,中国做得很好。比如在搜索引擎、电子商务、新闻网站、机器翻译、智能音箱的技术体系中,NLP占据核心地位。我将重点介绍NLP在中国的科研水平。
以ACL为例。ACL是国际上自然语言处理领域的最高学术会议。大约20年前,中国还没有ACL的文章。1998,清华大学黄长宁教授课题组发表了第一篇ACL文章。当时中国在NLP方向的研究基础薄弱,日本、韩国甚至中国台湾省和香港发表的关于ACL的文章都比中国大陆多得多。
微软中国研究院(注:后更名为微软亚洲研究院)成立于6月1998 11,极大地推动了NLP在中国的发展。历届院长都号召大家走向国际,鼓励研究院的研究人员与大学和相关学会合作,这样我们就可以共同努力推动国内的研究水平。微软研究院通过联合实验室、暑期学校和实习项目,帮助中国培养了大量NLP人才。
与此同时,CIPS、CCF等学会组织了各种研讨会和学术会议,引进了国际先进的理论和技术,极大地促进了当地自然语言处理水平的提高。在文章发表方面,中国的NLP人也在不断努力提高自己在ACL的影响力。中国政府通过自然科学基金、863和973计划加强了对自然语言处理领域的投入和引导。通过社会各界的努力,经过近20年左右的快速发展,中国已经成为ACL第二的国家。
近五年,中国关于ACL的文章数量(包括长文和短文)排名第二,仅次于美国。长文方面,距离美国大概20到30篇;同时也遥遥领先于其他所有国家,包括日本、韩国、德国、英国等等。原来中国跟不上这些国家。如果未来中国的ACL长文数量继续增加,三年内赶上美国是有可能的。因为NLP在中国的发展势头很好,这是一个预期的目标。
中文文章方面,2014年,中文第一作者文章占ACL总文章的36%,之后逐年上升。今年是40%,很多都是除中国以外的在华留学生。
从以上数字来看,中国的ACL文章确实已经跃居世界前列。这是一个非常令人惊讶的结果。20年前中国只有一篇ACL文章,现在世界排名第二。
除了文章数量,中国的ACL文章质量也有了很大的提升。比如ACL 2017的22篇优秀论文中,就有5篇来自中国的文章上榜。
中国在国际活动中越来越活跃。例如,ACL执委会有65,438+03名执委会成员,其中3名来自中国,有来自百度的赵和我。我是ACL的候选主席(注:我将于2019上任),赵是秘书长,来自台湾省的是首席IT官。
此外,来自中国的赞助商总数和赞助人数也接近美国;从参与人数来看,我们也排第二。
NLP领域的其他重要会议,如COLING或EMNLP,也类似。
所以中国是NLP第二强国。
基督教儿童基金在这方面做出了很多贡献。CCF中文信息技术委员会组织了NLPCC、ADL讲座等学术会议和多项进大学活动。在NLPCC大会上,专门组织了一个学生工作坊,教学生如何做研究和写论文。基督教儿童基金还与CIPS密切合作,轮流主办语言与智力峰会。本次峰会有效推动了NLP领域的发展,提升了其在社会中的影响力。
当然,我们还有一些问题需要改进。这表现在:1)国内举办的NLP领域的国际会议或活动很少;2)来自中国的ACL成员较少;3)在国际NLP大会中,来自中国的特邀报告、最佳论文、SIG主席、工作坊主席、辅导演讲嘉宾很少;4)虽然来自中国的论文数量排名第二,但很多都或多或少在跟着别人的口味走。预计来自中国的文章将更多地反映未来的领先趋势。
第四,NLP在中国迅速崛起的原因
雷锋。com:是什么因素导致了NLP在中国的快速进步?
周明:?第一,整个国家无论是工农业,还是国民经济,还是综合国力,都在呈上升趋势发展。第二,我们与国际社会的融合越来越好。比如我们NLPCC大会的工作语言是英语,大会主席、节目委员会主席、各领域主席都有两个联合主席,一个来自国内,一个来自国外。再次,国内的大学和公司通过培养和引进,吸收了大量优秀的NLP人才。
特别要提一下国外公司和国内互联网公司对ACL的贡献。例如,微软亚洲研究院与中国和亚洲的多所大学进行了全方位的合作,包括在暑期学校和实验室联合培养博士生和实习生,培养了大量的NLP人才。例如,从65438年到2008年,微软研究院在NLP领域培养了多达450名实习生。这些人来自全国各地。在微软实习后,他们回到各个高校,然后加入公司或学校成为领导任务,进而带动下一波人才的成长,不断推动这个领域的发展。
需要指出的是,百度、阿里、腾讯、JD.COM、今日头条等大型互联网公司,以及众多新锐公司(如Mobvoi、郭爽、奇点机智、小牛翻译、思必驰、新华智云等)也在各个方面为NLP在中国的发展做出了巨大贡献。我代表CCF非常感谢这些国内外企业为NLP的发展和进步做出的贡献。
雷锋。com:日本、韩国等国家在NLP领域的发展早于中国。为什么他们现在落后于中国?
周明:我认为有几个因素。第一个因素是中国在互联网时代抓住了中国互联网的发展和机遇,而其他很多国家在互联网方面(尤其是移动互联网、电子商务、搜索等方面)相对落后。).例如,许多国家没有自己的搜索引擎,但中国有很多,如百度、搜狗和微软的本地化搜索引擎必应。搜索引擎对自然语言有很大的推动作用,因为它对问题理解、文章理解、问答、翻译的需求推动了相关NLP技术的发展。同时,其巨大的经济价值吸引了许多人投入到这一领域的研究和产业化中。一个没有搜索引擎的国家,自然会在NLP上落后。
另一个因素是数据。中国拥有世界上最大的数据,超过8亿的移动互联网用户和大量的电子商务数据,这将有助于研究和技术的发展。
第三是政府在这方面的作用。国家在世界经济链条中的位置,将导致其在互联网和移动互联网时代,尤其是当前人工智能时代的地位。由于中国现在是GDP第二大国,在互联网时代,尤其是移动互联网时代,赶上了这个潮流,中国甚至引领了潮流。中国政府已经制定了相关计划来支持和引导技术和产业的发展。因此,预计在人工智能时代,中国将超过其他国家,成为人工智能顶级发达国家。与人工智能相关的研究也将得到相应的推动,包括NLP。
雷锋。com:除了中国和美国,哪些国家在NLP方面做得比较好?
周明:根据ACL,美国、中国、英国、德国、日本、韩国和加拿大都有自己的特点。英国的爱丁堡大学和牛津大学在自然语言研究方面有很好的特色。
NLP在加拿大也有很好的发展。虽然中国从事自然语言的人相对较少,仅北京从事NLP的人就远远多于加拿大整体,但它提出了很多领先世界的方法,比如神经机器翻译和机器阅读理解的新方法。在理论创新上值得中国借鉴。
动词 (verb的缩写)如何成为一个强大的NLP国家
雷锋。com:中国下一步应该如何提高在NLP方面的研究或应用?
周明:这取决于几个方面。
首先,我认为我们应该抓住中国发展的机遇。1)数字化改造。现在中国讲究数字化转型,所有的企业和行业都要数字化。只有数字化,才能有人工智能。但是很多企业连数字化都没有做好,所以这里机会很多。2)AI热潮。AI热潮带动市场投资需求,人才和数据进一步发展。这是一个非常好的机会,所有从事NLP的人都应该顺势而为。
二要做好普及工作。虽然国内从事NLP的高校很多,但是很多还是比较落后,对最新技术了解不够,很多高校(尤其是西部的)基础比较薄弱,要做好普及工作。CCF委员会有一个专门的工作组,叫“进高校组”。为了响应CCF的号召,我们自然语言学家也进入了大学。我们去了很多高校(比如西藏大学)讲授人工智能,自然语言的发展和最新的技术,号召更多的学生学习人工智能和自然语言。
雷锋网注:微信官方账号(ID: A ItechTalk)一篇有代表性的AI文章的阅读分布在西部地区始终处于两位数(甚至个位数)的状态。这也在一定程度上反映了国内AI工作者的分布情况。
第三,吸引和培养拔尖人才。首先,吸引国际顶尖人才来华,通过回国开会或合作了解中国的发展现状,加强与国内高校和企业的交流。最后,希望有一部分人才被国内发展机会吸引,留下来。此外,更重要的是,通过学校的学位培养模式和公司的实习渠道,培养更多理论基础扎实、实践经验丰富的优秀人才,甚至是高层次的领军人才。
第四,推动我们在中国研究的国际化。包括由基督教儿童基金管理的NLPCC。在过去的几年里,它一直在中国举行。未来,我们还会考虑在新加坡、日本、韩国甚至美国举办会议,把我们中国本土的研究推向世界,尤其是引领国际中文计算领域的潮流。
第五,加强创新。包括1)。比如开发无监督的机器学习算法,利用上下文和用户画像增强NLP任务建模,整合知识和数据提高NLP系统的能力。2)开辟跨学科的新领域,如NLP和图像与视频的交叉。还有对NLP在重要垂直领域的广泛应用的深入研究;3)产品创新,通过软硬件结合,结合具体场景,提升用户体验。
第六,要重视数据和工具,重视评价。CCF和我们的中国计算委员会已经建立了一个数据工作组来共享数据,用于使用、培训和评估。比如NLPCC2017已经吸引了很多学校和公司参与到词汇和语音关系识别、短文本分类、单文档摘要、问答和用户画像等领域。
第七,推进产学研大合作。通过CCF等平台,吸引产业界人士加入我们的研究过程,通过各种合作促进公司的产业发展,以及高校的学术发展。
最后,中国应该考虑在国际会议和组织中发挥更大的影响力。包括组织和承办世界一流的会议,争取成为世界一流学会的执委会委员、总会主席、计划委员会主席、领域主席,更多发挥中国的影响力。
需要指出的是,尽管中国自然语言处理发展势头良好,但我们仍然面临许多困难。需要政府、学校、科研机构、公司、相关社团和社会各界人士的不断努力。特别是加强理论创新,探索交叉学科和垂直领域的新机遇,可以逐渐从追随者过渡到领导者。我相信,如果这些措施都能够得到很好的落实,中国的NLP在下一步一定会稳步向更高的目标发展,并最终跻身世界顶级NLP水平。