近日,由共青团北京市委员会、首都文明办、市委网信办等相关单位开展的“北京青年榜样·时代楷模”评选结果揭晓,30位来自各行各业的青年榜样获此殊荣。在人工智能(AI)技术领域也有一位获奖者——获得“科创达人”称号的百度深度学习技术平台部总监马艳军。他所负责的PaddlePaddle是我国首个也是唯一一个功能完备的自研深度学习开源框架。
在国外已有成熟开源学习框架(如TensorFlow、Caffe等)的情况下,再做国产深度学习框架并开源开放给开发者,是一件吃力但不一定讨好的事情。为什么还要专门做国产的深度学习框架?如何让开发者喜欢上它?《中国科学报》日前对马艳军进行了独家专访,后者对于记者提出的上述问题进行了详细解读。
PaddlePaddle缘起:原是一套内部系统和工具
“其实百度做这个深度学习框架比较自然,原因就在于,百度很早就在研发和使用了深度学习技术。”马艳军举例说,百度早在2012年就开始在语音、OCR场景使用深度学习相关技术,2013年又在搜索、推荐等产品上进行了应用。
经过几年的积累,这套系统和工具,逐渐形成了深度学习框架的雏形。“我们这儿做一下,那儿完善一点,最终就把它抽象成为一套深度学习框架的系统了。”马艳军说,这套系统在2013年前后基本成型,并最终在2016年9月正式宣布开源开放给开发者。
选择开源开放,马艳军对《中国科学报》说,缘于百度看到了深度学习技术给百度产品带来的价值,看到了这项技术给各行各业带来的巨大潜力。
在这一波人工智能浪潮中,深度学习和深度学习框架是基础性的核心技术。其中,深度学习框架作为介于底层硬件和上层应用之间的基础软件能力(其意义相当于操作系统和编译系统,编者注),不仅关乎相关产品和服务的开发,还直接影响到AI芯片指令集的设计。
也正基于此,百度开放了这一核心的基础能力。马艳军对记者说,这也源于百度在AI大势下开放共赢的理念:开放PaddlePaddle 深度学习框架,“Everyone Can AI”。
事实也正是如此。PaddlePaddle深度学习框架开放后,涌入大批开发者打开AI所带来的各类想象。北京工业大学4位自动化专业的大学生基于该框架,开发了供桃农分拣桃子的“桃子选美机”,机器分桃准确率目前已超过90%,每年可帮助桃农节省一大笔雇工费;北京林业大学基于PaddlePaddle研发了面向信息素诱捕器的智能虫情监测系统,该系统大幅降低了虫情监测的人力成本,原本须一周的观察时间一下子缩至30分钟……马艳军说,诸如此类的例子不胜枚举。
开放的底气:PaddlePaddle的“几招鲜”
马艳军告诉《中国科学报》,开源开放PaddlePaddle平台的原因还在于,百度对在人工智能技术领域的积累“还是有底气的”。“在百度内部,2013年左右就把深度学习技术用在许多核心产品上了,2015年百度翻译进行升级,就上线了行业首个基于神经网络的在线翻译引擎。”
此外,马艳军举例说,百度在大规模稀疏场景的推荐引擎、自然语言处理、计算机视觉、自动驾驶等方面的技术长期积累在业界有目共睹,这些技术能力也都沉淀到了PaddlePaddle,形成了在大规模深度学习并行技术、领先的算法模型库、高速推理引擎几个方面的技术优势。
“有这几招鲜,开发者就奔着来了。”马艳军说,比如百度在自然语言理解方面会发布一些预训练模型,开发者或企业能够在很高的起点继续开发,从而取得更好的效果。迄今为止,百度已经先后开放多个领先的预训练中文模型,并将多个在国际大赛中取得冠军的算法模型公之于众,这吸引了许多包括一些国外开发团队在内的开发者使用PaddlePaddle框架。
马艳军告诉记者,如今国外开发团队处理中文任务、研究中国市场的越来越多,加之百度在深度学习技术领域的“几把刷子”被认可,因此一些国外企业或开发者团队使用PaddlePaddle框架并不稀奇。他还看到过美国一家超市使用百度推出的Easy DL(Easy DL是基于PaddlePaddle 的零算法基础定制化训练和服务平台,编者注)开发一款应用,来检测购物车是否有夹带未付款商品。
“我们的产品降低门槛以后,其实也不那么分国界。这个门槛降下去了,用的人自然就多了。”马艳军说。
应对深度学习人才荒:覆盖10万初学者
其实对于马艳军及其团队而言,开源开放PaddlePaddle意味着很大的挑战,开源开放把PaddlePaddle从内部工具变成了服务整个行业的开发套件。当它面对开发者时,开发者是否愿意用、喜欢用,还要不断“大练内功”。
“我们的目标是真正把它做得让开发者容易用,并且具备我们的技术特色,让开发者喜欢用。”马艳军说,在PaddlePaddle刚开源的时候,的确在使用便利性上(如社区不够完善、资料积累不够丰富等)存在一些问题,但随着PaddlePaddle官网的上线、文档和社区资料的丰富和开发套件版本的不断迭代(目前已升级为PaddlePaddle3.0),问题已经得到了“比较彻底的解决”。
不过,在马艳军看来,深度学习人才荒的问题才是真正的挑战。据领英大数据显示,全球AI人才整体供给在340万人左右,其中深度学习人才仅9.5万人,且流动性较大,进一步加大了缺口。
“真正懂深度学习、能够把深度学习的基础理论掌握得比较深入的人才、能够看得懂深度学习框架底层设计进而做一些底层设计和开发的人才在国内还非常稀缺。所以培养和吸引人才来作深度学习开发、使用深度学习框架,一直是我们一个重点任务。”马艳军说。
基于PaddlePaddle平台,百度也在做一些努力。马艳军说,目前,百度已经与国内逾百所高校合作,为其相应的课程提供基于PaddlePaddle的编程环境。“这些学校不必担心没有机器、没有GPU,我们会提供一套AI Studio集成环境,让学生直接在这个环境中学习深度学习的整套内容。”马艳军透露:“通过这种方式我们可以覆盖至少10万名学生。”
同时,马艳军告诉《中国科学报》,百度正在通过类似“黄埔计划”(百度推出的“深度学习架构师培养计划”)的方式,面对面让大家去了解深度学习框架如何在企业中发挥作用。“该活动报名也是非常火爆,不少企业对这个培训很感兴趣,愿意来学习和应用。”马艳军说。
摘自《中国科学报》