时间 2023-06-20

栏目

阅读

1311

网易有道(DAO)：深度布局AI，教育产业的ChatGPT概念股

1. 网易有道:“AI+教育”的探路者

身处科技迭代日新月异的时代,新风口随时可能到来,ChatGPT的爆红再次证明了这一点。这款由美国人工智能研究公司OpenAI研发的“黑科技”产品初出茅庐就技惊四座,在算法和数据的加持下,它能够学习和理解人类语言,掌握海量知识,像人类一样对话,甚至能够完成写论文、写代码等人类才能胜任的工作。

1.1 OpenAI刮起科技旋风

2015年,OpenAI由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得·蒂尔等硅谷科技大亨创立。公司主要目标为制造“通用”机器人和使用自然语言的聊天机器人。

2020年5月,拥有1750亿参数的GPT3启动,利用前面过滤形成的45TB的压缩文本,开始了大规模的机器学习,把能获取的人类书籍、学术论文、新闻、高质量的各种信息作为学习内容,并形成了根据人类反馈的强化学习方案RLHF(reinforcement learning from human feedback)。这个时候的GPT已经达到了大学生的思考能力,关键是它还能自己创编新的知识。

2022年11月30日,ChatGPT开放公众测试,真正实现了完全自主利用人工智能技术来生成内容(AI Generated Content,简称AIGC),包括代码生成、视频生成、文本问答、图像生成。所以,ChatGPT绝不是一个聊天机器人,也不仅仅是拥有强大算力和优秀算法模型的机器,它是活的,是一个不断进化的数字生命体,它已经拥有了几乎人类所有知识的总和,而且拥有三项超乎想象的能力——数字内容孪生能力构建现实世界-虚拟世界映射;数字编辑能力打通现实世界虚拟世界交互通道;数字创作能力从数据理解走向数据创作。根据路透社消息,截至目前,OpenAI的估值已达到270亿美元到290亿美元。

1.2 ChatGPT适配教育行业需求

强大的技术在教育领域刮起了变革风暴,网易有道(DAO)率先出圈。2023年2月8日,据市场消息称,网易有道AI技术团队已投入到ChatGPT同源技术(AIGC)在教育场景的落地研发中,目前该团队已在AI口语老师、中文作文批改、英文写作等细分学习场景中尝试应用。网易有道表示将尽快推出相关的demo版产品,如果能够落地,有道有望成为教育行业首个ChatGPT概念股。此后,科大讯飞、好未来、国新文化、世纪天鸿、中公教育、传智教育等教育概念公司也相继发布了与ChatGPT相关的最新产品和技术信息,概念热度持续上涨。

谈及教育领域,公众的印象普遍还停留在惨痛的2021年,“双减”政策的出台如同一记重锤,打醒了快速扩张的教培行业,各大公司一时间风声鹤唳,新东方(EDU)、好未来(TAL)、网易有道(DAO)等曾经风头无两的头部公司一时间被推到了命运的十字路口,唯有转型才能求存。

新东方向左,网易有道向右——曾经在同一赛道竞速狂飙的老对手,踏上了截然不同的道路。去年夏天,董宇辉老师火爆全网,标志着新东方转型直播带货的成功破局;而自带科技基因的网易有道,则在全面AI之路上继续耕耘。

从AI到ChatGPT,有道的探索并不为人所知。其原因在于当前的主流观点普遍认为搜索引擎才是ChatGPT的用武之地,例如ChatGPT版的必应已经为人所津津乐道。对于ChatGPT能否顺利应用于教育领域,业内众说纷纭。

(1)技术层面

如今的ChatGPT已非“吴下阿蒙”。从算法模式上,ChatGPT经历了GPT-1、GPT-2、GPT-3、InstructGPT及ChatGPT等发展阶段,ChatGPT可以理解成GPT-3.5的微调版本,相较于InstructGPT,ChatGPT效果更加真实,模型的无害性实现些许提升,编码能力更强。因此,ChatGPT不仅能做选择题,也能做解答题,可以解答或者创作新内容。这是和以前的AI有本质不同,也是最近市场对其关注度甚至比去年的元宇宙概念都高的原因。而教育行业在垂类内容的针对性以及个性化交互学习的特点,也让其在ChatGPT以及AIGC相关技术的应用上具有天然的优势。

不少教育板块相关的上市公司也纷纷透露了在ChatGPT领域的观点和计划。网易有道首席科学家在某沙龙中就表示:“AIGC技术更新是一次颠覆性的创新,但在细分场景的应用过程中实际上并不需要这样一个大而全的模型,更需要一些纵深向的探索。比如,有道正在探索ChatGPT同源技术在学习场景中的落地,这个过程加深了我们对于ChatGPT的进一步理解。”

与此同时,科大讯飞也在互动平台表示,ChatGPT主要涉及到自然语言处理相关技术,属于认知智能领域的应用之一,科大讯飞有坚实的相关技术积累。同时还官宣今年5月发布的Al学习机,将成为公司类ChatGPT技术率先落地的产品。

GPT-1:无监督预训练+有监督微调

GPT-1发布于2018年6月,参数量达1.17亿,预训练数据量约5GB。GPT-1包含预训练和微调两个阶段,考虑到自然语言处理任务中有标签的语料少,GPT-1先在大量的无标签数据上训练语言模型,然后在下游具体任务(如分类、常识推理、自然语言推理等)的有标签数据集上进行微调。1)在无监督训练中,GPT-1采用Transformer的架构,即标准的语言模型的目标函数,通过前面的词预测后面的词;2)在有监督训练中,采用标准的分类目标函数,仅需对第一阶段预训练的语言模型做出很小的结构改变,即可应用于各种下游任务。

GPT-1使用了BooksCorpus数据集来训练语言模型,其中有7000余本未出版的书籍。具体表现上,在有监督学习的12项任务中,GPT-1在其中9项上的表现优于专门训练的受监督模型。

GPT-2:无监督预训练+多任务学习

GPT-2发布于2019年2月,参数量达15亿,预训练数据量约40GB。GPT-1使用的概率条件模型为p(output|input),GPT-2 使用相同的无监督模型学习多个任务,将概率条件模型修改为p(output|input, task) ,期望模型对不同任务的相同输入产生不同的输出。此外,GPT-2采取Zero-shot设定,不需要下游任务的标注信息,而是根据给定的指令理解任务。因此 GPT-2的核心思想在于多任务学习。

GPT-4:使用门槛降低,支持多模态

GPT-4备受业界期待,训练成本控制有望带动商业潜力的极大增强。ChatGPT的突出表现使得外界对GPT-4十分期待, 自2021年以来便有报道称GPT-4“即将推出” ,OpenAI公司CEO Sam Altman今年受StrictlyVC采访时表示GPT-4将在 “有信心可以安全且负责任地运行时”推出。外界此前也曾预期,GPT-4的推出或分阶段进行,例如GPT-3也是先开放给合作伙伴、付费用户和学术机构,才在2022年底开放给公众。

在参数量上,针对有传言称GPT-4参数量将达到百万亿,OpenAI公司CEO Sam Altman予以否定。此外,AI专家Alberto Romero预测,GPT-4的重点在数据处理优化上,因此其使用门槛有望降低,我们预计训练成本的控制将带动其商业潜力的增强。

最新消息称GPT-4将于下周推出,支持多模态应用,开启通往人工通用智能之路。根据德国科技媒体“heise在线”报道,当地时间3月9日,微软德国公司首席技术官Andreas Braun在名为“AI in Focus - Digital Kickoff”的活动中透露称 “将在下周推出GPT-4,它将是一个多模态模型,会提供完全不同的可能性——例如视频”。这意味着GPT-4可以管理不同语言数据的输入和输出,也能够做到输出图像甚至视频。在活动上,微软AI技术专家对多模态AI的应用案例进行了介绍,例如能够将电话呼叫的语音直接记录成文本,这为微软位于荷兰的一家大型客户节省500个工作小时/天。

GPT-4对多模态的支持使得外界对模型潜力的预期进一步强化,原因在于多模态感知是建立人工通用智能(AGI)的重要一步,基于此能够执行人类水平的一般任务。

(2)应用层面

学生时代的你当过课代表吗?如果当过,那你一定记得课后帮老师收作业、批改试卷,又累又想打瞌睡的感觉。很无奈,当一个老师面对几十甚至上百名学生时,这些工作一个人根本没办法完成。又快又聪明的ChatGPT则可以完美解决这些问题,全年级的试卷它很快就能批改完,还能即刻提供统计数据;面对课后问题,它可以随时随地代替老师回答,学生不必抢夺短短的课间10分钟“围攻”老师。在问答多、要求及时反馈的教育场景,ChatGPT如鱼得水,不仅能够把老师从大量机械重复性工作中解放出来,还能满足学生的个性化需求。

国外的ChatGPT已经应用到了教学之中。一篇来自美国佐治亚大学的论文《ChatGPT用户体验:对教育的影响》中指出:“ChatGPT能够帮助研究人员撰写连贯、(部分)准确、信息丰富且系统的论文,写作效率极高(2-3小时),而且不需要作者有丰富的专业知识。”Study.com调查显示,已经有21%的老师开始用ChatGPT辅助教学。参考孙正义的“时间机器理论”,ChatGPT进入国内教育行业似乎只是时间问题。

1.3 垂类产品有望率先跑通

匹配教育领域需求的前提下,ChatGPT更适合做通用模型还是做垂类模型?以往的人工智能模型往往都针对某个单一领域,而ChatGPT是自然语言处理(NLP)下的通用大模型,通过大算力、大规模训练数据突破AI瓶颈。打个比方,以前的AI是专精某一领域的专才,像张飞,专擅带兵打仗,上马作战;而ChatGPT则是博闻强记的全才,像诸葛亮,文治武功外交内政,样样都会。

直接让诸葛亮做张飞的工作,效果会更好吗?答案是否定的。首先,ChatGPT虽然懂的多,但无法做到样样精通,不是真正的诸葛亮,顶多算“弱化版诸葛亮”。很多网友都晒出过ChatGPT一本正经地胡说八道的记录,比如问它《红楼梦》里贾宝玉最适合和哪位女性结婚,ChatGPT头头是道地分析一番后给出答案:贾母最合适——真是贻笑大方!作为对比,以Transformer垂类模型为例,网易有道将其运用于机器翻译、语音识别、文本生成等领域,因为是专用模型且迭代多年,Transformer表现的高效出色,是一位英武的“真张飞”。由此可见,通用版的ChatGPT在细分领域还不够精确,不如做过针对性调整的专门模型,换言之,“弱化版诸葛亮”在“上马作战”方面不如“真张飞”。

那么,新兴技术更容易在垂直领域内跑通吗?答案是肯定的。以抖音为例,算法推荐是从信息流场景中变成熟的,抖音作为算法推荐的重要推动者,获得了巨大的商业价值。百度认为,ChatGPT是人工智能的里程碑和分水岭,AI发展已来到临界点,基础扎实后,AI创新将会越来越细分,在各垂直场景开花结果,形成针对特定场景的专门模型。

教育行业具有垂类内容针对性和个性化交互的特点,让AIGC的应用游刃有余。可以把ChatGPT看成一个小孩,他聪明与否、强壮与否很大程度上取决于“吃的好不好”“运动好不好”。例如,GPT-2训练的数据集来自社交新闻平台Reddit,共有约800万篇文章,体积超40GB。在教育场景下,大量标准化的课文、题库是训练ChatGPT模型的完美“食材”;师生间的交互带来了特定场景下的数据,有利于模型在沿着特定方向迭代,是促进发育的优质“运动”。因此,领域越垂,模型越精准,商业价值越高,越有机会跑通。

扎根教育科技的有道绝对足够“垂”。2020年,有道旗下的中国大学MOOC开设554门“国家精品公开课”,占教育部认证的“国家精品在线开放课程”总数的66.7%,所有平台中排名第一;2021年底,网易云课堂平台课程数量超过10000个,课时总数超过10万小时,涵盖十余大门类。再加上2021年前积累的海量K12在线学习内容,有道已经覆盖了从儿童到少年再到成人教育的终身学习内容,沉淀了宝贵的学习素材和用户数据,这些是ChatGPT落地的必不可少的基础设施。

有道有望在垂类率先跑通,另一大驱动力是搭载自研技术的有道硬件。以两大明星产品为例,有道词典笔P5搭载有道自研结构化OCR技术和NLP技术,学习机X10应用了自研的“AI精准学”技术。

这其中的价值不容小觑。参考特斯拉,作为一家新能源车企,特斯拉的估值远高于福特、通用等传统车企,为何?从某种角度,特斯拉是一家披着车企外衣的数据公司,路上每辆行驶的特斯拉汽车都在持续为公司贡献用户数据,而数据可以反哺技术迭代,促进公司自动驾驶等技术的研发,而这才是特斯拉的核心资产,也是特斯拉能和其他对手拉开差距的真正原因。

场景换成教育领域,有道与特斯拉如出一辙。词典笔和学习机的渗透率提升,在实际场景中的应用产生大量数据,数据的积累和复用反过来促进有道算法迭代,推动更优质的硬件面世,二者的相互作用可以帮助有道打造教育垂类领域的AI生态。基于此,如果未来ChatGPT在教育领域落地,同时拥有技术、内容和硬件的有道,表现非常值得期待。

1.4 网易有道的深度AI布局

以往提起有道,公众一般将其归类为“互联网教育”概念股。确实,从财报数字来看,2022Q3有道的学习服务和产品营收占比87.9%,妥妥的教育企业。然而在教育背后,有道在AI领域的长期战略布局却鲜为人知。此次有道在教育圈中能率先联动ChatGPT,究竟为何?

有道本次因ChatGPT出圈并非偶然。实际上,ChatGPT和有道的王牌产品有道词典一样,背后都依赖于NLP(自然语言处理)技术,而有道在NLP和Transformer模型等方面入局很早。2007年作为当时还很稚嫩的有道词典的重点功能立项,2008年奥运会时成功上线第一个版本,开始了长达15年的迭代和升级。当时的算法还是基于统计机器翻译的,有道是第一家将这个能力上线提供用户服务的国内公司。

2016年深度学习的浪潮之下,大量研究机构、公司、人才和资金都涌入了深度学习的赛道,带来了大量应用的创新和AI算法落地,一些基础算法应用了新的技术后质量显著提升,达到了可应用甚至可商业化的门槛。机器翻译就是其中的基础能力之一。在这个过程中,有道还投入了大量精力,创建了视觉、语音的相关团队,构造有道的AI基础能力,并且将相关的标准能力通过有道开放平台,有道智云对外输出。

2017年,有道成功的全面转向基于神经网络的机器翻译算法,面向中国用户,以中文为中心,持续新增多语种支持,打造了全平台的工具产品并且支持技术输出,支持图片、语音、文档、网页、AR、同传、视频等多种模式的翻译交互。

台上能看到的是ChatGPT,台下看不到的是有道在AI领域的励精图治。2016年,公司雄心勃勃地同步组建了语言、视觉、声音三大团队,协同构建AI基础能力。语言方面,2017年有道NMT算法正式上线;2018年TransformerNMT上线;2019年词典笔2代首次搭载离线TransformerNMT,实现了AI与硬件相结合。声音方面,2021年实现了基于Transformer的流式ASR技术落地,质量上和非流式相当;2022年推出的词典笔P5(RK平台),搭载了自研离线ASR,也已升级为Transformer技术。视觉方面,2020年有道亦是部署Transformer模型的行业先行者。

有道致力于用技术让复杂的学习和工作变得简单。去年12月,网易有道全新升级语音合成(Text-To-Speech)的声音定制和声音复刻功能,用户花5分钟在平台录制5-20句话,有道的声音复刻技术就能完成文本分析、声学模型和声码器三个关键步骤,即可得到与本人声音相似的AI声音模型,神经网络和迁移学习技术可以让音色达到很高的还原度。

有道NLP技术场景应用包括:

在线翻译(以有道词典9为例)

网易有道词典9从提升翻译精准度、速度、专业性等多维度为用户提供多场景翻译解决方案,支持截屏翻译、屏幕划词取词等高效便捷操作;同时,作为一款最懂“学术”需求的翻译工具,提供学术检索、阅读、写作全流程服务,一站式解决搜、读、写论文难题,可以实现学术场景全覆盖。

网易有道词典9支持多达109种语言文本翻译, 26种语言支持TTS发音,充分满足不同用户的多语种翻译需求。同时,网易有道词典9在传统的文档翻译、图片翻译基础上,还实现了从视频翻译、音频翻译到会议同传的多场景覆盖,一体化解决了多元场景的翻译需求。

离线翻译

有道所有离线语言模型均支持Linux系统、Android系统和iOS系统。相关能力成功上线在有道翻译官、有道词典等用户APP上,适配绝大多数手机;且成功部署在有道翻译机、有道翻译王、有道词典笔、有道电子词典、AI学习机等多个自研的智能硬件上。

词典笔P5

AI学习机

写作

有道写作上线LaTeX的批改功能——将LaTeX文本相关的语法标签进行分门别类的梳理,生成纯文本后将其送入到纠错系统中纠错,最后再恢复为LaTeX文本。在保证质量的同时,不影响文章格式,渲染效果。这是行业内首个针对LaTeX使用场景推出的全新功能,将大大提高科研人士的论文写作便捷性和准确性。

1.5 “学霸”有道的成长之路

如果说多数互联网企业像引领时尚的“潮人”,那么有道则像一个不染尘世、专心钻研的“理工男”。有道一直是一家技术驱动的公司。1996年,18岁的周枫以无锡理科状元的身份考入了清华大学计算机系。周枫是典型的技术型学霸,在校期间,他担任清华大学科协主席,和同学建立了国内最早的一批局域网,之后还创建了赫赫有名的交友网站ChinaRen,后被搜狐收购。清华本硕毕业之后,周枫赴美拿下了加州大学伯克利分校计算机博士学位。

2006年,互联网萌芽初现,百度、搜狗的快速发展反映出了搜索领域的商业价值,网易创始人丁磊产生了试水搜索领域的想法,于是找到周枫洽谈,在两位计算机学霸的思想碰撞下,网易有道由此诞生。周枫找来清华校友吴迎晖、金磊、刘韧磊组成了初始核心团队,“学霸”的人员配置奠定了有道追求技术的内在风格。

然而现实不尽如人意,当年的搜索业务在互联网浪潮中未掀起预期波浪。周枫曾在采访时提到这个最痛苦的阶段:“那时搜索我们有一定业务量,但是看起来很难做出来,我们就做了一个很艰难的决定,把搜索业务停掉了。”

“山重水复疑无路,柳暗花明又一村”,令很多人没想到的是,搜索这颗大树上长出了新芽。一位网易有道程序员觉得市面上的英语词典不好用,想做一款更好的产品;想法提出后,另一个搜索算法工程师随即用数据做了实验,实验结果获得了大家认可,有道词典的种子自此萌芽。

2007年,有道词典首次公开发布,成为国内第一个基于搜索引擎技术的互联网词典。2011年词典用户数突破1亿,同年中国网民数量5.13亿,相当于每5个网民中就有1人使用网易有道词典,2023年,有道词典注册用户数已接近10亿。

之所以能在新领域获得成功,是因为有道词典的底层技术和搜索引擎同源,都是基于机器深度学习。顺着这一思路,有道将前期在搜索上的积累投入到了新应用中,开发出了众多成功的垂直产品,包括词典、翻译、云笔记等多款教育相关的工具产品,并在相应的领域均做到了行业领先水平,目前有道全线产品用户量已达10亿。

全力奔跑的过程中,有道的“学霸”初心不改,专注技术研发。2019年,有道1699位员工中584名是研发人员,占比34%,远高于当时教育企业的平均水平。有道继承了网易的一贯风格,舍得为研发投入真金白银,从2017年至今,有道研发费用GAGR高达43.29%。;2022年研发费用8.04亿元,研发费用比16.1%,高于诸多一线科技大厂。

2. 有道的AI实力

出圈之后,市场上不乏质疑有道“蹭热点”的声音。有道AI实力究竟有几分?这是市场普遍关心的问题。在目前诸多公司竞相入局AI赛道的大背景下,仅仅有相关技术布局是不够的,如果想出圈,还要够精、够强,才能在一众新老势力的角逐中拔得头筹。

2.1 四大核心技术

网易有道目前拥有四大核心技术:神经网络翻译引擎(YNMT)、计算机视觉、智能语音AI技术和高性能计算(HPC),应用范围覆盖翻译、教育、语音助理、写作等多个领域。作为国内NLP能力领先的公司,网易有道多年致力于Transformer模型的创新和开发,而ChatGPT正是建立在Transformer和NLP的基础上,在对话系统中的具体应用。

有道是国内NLP能力领先的公司,并已多年致力于基于Transformer模型的创新和应用。而ChatGPT正是建立在Transformer和NLP的基础上,在对话系统中的具体应用。NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言,即将人的自然语言转换为计算机可以阅读的指令。

这里简单科普一下,NLP(Natural Language Processing)也就是人们常说的“自然语言处理”,即研究如何让计算机读懂人类语言,将人的自然语言转换为计算机可以阅读的指令。Transformer是基于注意力机制来提高模型训练速度的模型,它能让机器像人一样特别注意图像的某个部分,是AI批改作文等功能的技术基础。

(1)NLP

NLP是什么?

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)。

自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义,而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。

歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。

目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围.

以上存在的问题成为自然语言理解在机器翻译应用中的主要难题,这也就是当今机器翻译系统的译文质量离理想目标仍相差甚远的原因之一;而译文质量是机译系统成败的关键。中国数学家、语言学家周海中教授曾在经典论文《机器翻译五十年》中指出:要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题;单靠若干程序来做机译系统,肯定是无法提高机译质量的;另外在人类尚未明了大脑是如何进行语言的模糊识别和逻辑判断的情况下,机译要想达到“信、达、雅”的程度是不可能的。

NLP类别

文本挖掘:主要包含了文本的分类、聚类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的呈现界面,这些统称为文本挖掘任务。

信息检索:对大规模文档进行索引。可简单对文档中的词汇,赋予不同的权重来建立索引,也可以使用算法来建立更深层的索引。查询时,首先对输入进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。

句法语义分析:针对目标句子,进行各种句法分析,如分词、词性标记、命名实体识别及句法分析、语义角色识别和多义词消歧等。

机器翻译:随着通信技术与互联网技术的飞速发展、信息的急剧增加以及国际联系愈加紧密,让世界上所有人都能跨越语言障碍获取信息的挑战已经超出了人类翻译的能力范围。

机器翻译因其效率高、成本低满足了全球各国多语言信息快速翻译的需求,从最早的基于规则到二十年前的基于统计的方法,再到今天的基于深度学习(编解码)的方法,逐渐形成了一套比较严谨的方法体系。机器翻译属于自然语言信息处理的一个分支,能够根据一种自然语言自动生成另一种自然语言。目前,谷歌翻译、百度翻译、搜狗翻译等人工智能行业巨头推出的翻译平台逐渐凭借其翻译过程的高��性和准确性占据了翻译行业的主导地位。

问答系统:随着互联网的快速发展,网络信息量不断增加,人们需要获取更加精确的信息。传统的搜索引擎技术已经不能满足人们越来越高的需求,而自动问答技术成为了解决这一问题的有效手段。

自动问答是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务,在回答用户问题时,首先要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索、匹配,将获取的答案反馈给用户。

对话系统:系统通过多回合对话,跟用户进行聊天、回答、完成某项任务,主要涉及用户意图识别、通用聊天引擎、问答引擎、对话管理系统等技术。此外,为了提现上下文相关,要具备多轮对话能力。同时,为了提现个性化,对话系统还需要基于用户画像做个性化回复。

总的来看,自然语言处理有2大核心任务,自然语言理解(NLU)和自然语言生成(NLG)。对人来说,理解语言是一件很自然的事情,但对机器来说却是很困难的事情。语言的鲁棒性都是导致自然语言理解的主要难点,其中包括:语言的多样性、歧义性、知识依赖、上下文关系等。这些难点也将会带来实际处理时的一系列困难:生成语句的语法结构、语义表达是否准确,信息是否重复等。

为了解决上述问题,一些基本的自然语言处理方向便应运而生,包括:分词、词性标注、词形还原、依赖关系解析、命名实体识别、序列标注、句子关系识别等。

除此之外,自然语言处理还包括了很多具体应用,例如:信息检索、信息抽取、文本分类与聚类、机器翻译、摘要生成、聊天机器人等等。它涉及与语言处理相关的数据挖掘、机器学习、语言学研究,以及近年来非常流行的深度学习等。

(2)Transformer

Transformer是机器学习中的新发展,引起了很大的关注。它非常擅长跟踪上下文,这就是为什么它写出的文本通常都是有意义的。Transformers可以用来写故事、论文、诗歌、回答问题、翻译语言、与人聊天,甚至可以通过对人类来说很难的考试!那么,它们到底是什么呢?你会很高兴的知道,transformer模型的结构并不复杂,它只是一些非常有用的组件的串联,每一个组件都有自己的功能。

Transformer模型是如何生成文本的呢?它们实际上是一词一词地建构文本。这可能不符合我们的直觉,因为人类形成句子和思考的方式并不是一词一词地进行的。我们首先形成一个基本的想法,然后开始修饰它并添加词语。然而,Transformer模型之所以能够以这种方式工作,一方面是因为这种方式效果非常好,另一方面是因为Transformer模型在跟踪上下文方面非常出色,它们挑选的下一个词恰恰是保持想法连贯所需要的。

那么,Transformer模型是如何训练的呢?答案是大量的数据,实际上是互联网上的所有数据。所以当你向Transformer输入句子“Hello, how are”时,它就知道,基于互联网上的所有文本,下一个最好的词是“you”。

Transformer模型的架构主要由以下部分组成:分词(Tokenization)、嵌入(Embedding)、位置编码(Positional encoding)、Transformer模块(有好几个这样的模块)、Softmax函数。Transformer模块是最复杂的部分,可以串联多个模块,每个模块包含两个主要部分:注意力机制和前馈网络。以下是这些部分的简要说明:

分词(Tokenization):分词是最基本的步骤。它包括一个大型的令牌数据集,包括所有的单词、标点符号等。分词步骤将每个单词、前缀、后缀和标点符号转换为库中的已知令牌。例如,如果句子是“写一个故事”,那么相应的4个令牌将是<写>、<一个>、<故事>和<。>。

嵌入(Embedding):一旦输入被分词,接下来就是将单词转换为数字。为此,我们使用嵌入。嵌入是任何大型语言模型的最重要部分之一;它是文本转化为数字的桥梁。因为人类擅长处理文本,而计算机擅长处理数字,所以这个桥梁越强,语言模型就越强大。简单来说,文本嵌入将每个文本片段发送到一个向量(一个数字列表)。如果两个文本片段相似,那么它们对应向量中的数字就会相似(在同一位置的每一对数字都相似)。如果两个文本片段不同,那么它们对应向量中的数字就会不同。虽然嵌入是数值的,但我喜欢将它们想象成几何的。想象一下,有一个非常简单的嵌入,每个单词都被发送到一个长度为2的向量(即,一个包含2个数字的列表)。如果我们在这两个数字给出的坐标中定位每个单词(想象一个街道和一个大道的号码),那么我们就有所有的单词站在一个大平面上。在这个平面上,相似的单词出现在彼此附近,不同的单词出现在彼此远离的地方。在一个更大的嵌入中,每个单词被发送到一个更长的向量(比如,长度为4096),那么单词就不再生活在一个二维的平面上,而是生活在一个大的4096维的空间中。然而,即使在那个大空间中,我们也可以想象单词彼此之间的远近,所以嵌入的概念仍然有意义。

位置编码:一旦我们得到了每个句子中的代币对应的向量,下一步就是将所有这些向量转换为一个向量以进行处理。将一堆向量转换为一个向量的最常见方法是逐个元素相加。这意味着,我们分别添加每个坐标。例如,如果向量(长度为2)是[1,2]和[3,4],它们对应的和是[1+3, 2+4],等于[4, 6]。这种方法是可行的,但有一个小问题。加法是可交换的,也就是说,[1,2] + [3,4]与[3,4] + [1,2]是相同的。这意味着,如果我们只是简单地将向量相加,那么模型就无法知道向量的顺序。在句子中,单词的顺序是非常重要的,所以我们不能只简单地将向量相加。在编码位置的情况下,我们不仅要知道单词,还要知道它在句子中的位置。这是通过向每个向量添加一个特殊的“位置向量”来实现的。这个位置向量是用一种特殊的方法创建的,这个方法确保了每个位置的向量都是不同的,并且它们的差异在某种意义上与它们的位置差异相关。因此,即使是两个完全相同的单词,如果它们在句子中的位置不同,那么它们的向量也会不同。这样,我们就可以通过将位置向量和单词向量相加,得到一个包含位置信息的向量。然后,我们将所有这些向量相加,得到最后的向量以输入到模型中。

前馈神经网络:在变换器模块中,前馈神经网络是另一部分,它包含一个输入层、一个或多个隐藏层和一个输出层。在这个模型中,信息从输入层开始,然后通过隐藏层流向输出层,没有任何反向或跨层的连接。因此,它被称为“前馈”神经网络。在变压器中,前馈网络主要负责对输入进行处理和转换,为下一阶段提供新的表示形式1。

Softmax:最后,在所有这些步骤之后,我们有了一个向量,这个向量将被传递到Softmax函数。Softmax函数会将这个向量转化为一个概率分布,这样我们就可以从中选择最可能的下一个单词。Softmax函数将确保所有的输出值都在0和1之间,并且所有的输出值加起来等于1,这样我们就可以把输出值解释为概率4。

尽管架构可能看起来相当复杂,但当我们分解为各个部分时,变压器模型实际上是相当直观的。每个组件都有明确的作用,包括标记化、嵌入、位置编码、变压器块(注意力和前馈网络)和Softmax。这些组件共同工作,对输入文本进行处理,生成有意义的输出。注意力机制的引入使模型能够专注于输入的重要部分,而前馈网络则负责处理和转换这些输入,生成新的表示形式。Softmax函数最后确定最可能的下一个词5。

Transformer是一个利用注意力机制来提高模型训练速度的模型。关于注意力机制可以参看这篇文章,trasnformer可以说是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。那什么是transformer呢?你可以简单理解为它是一个黑盒子,当我们在做文本翻译任务是,我输入进去一个中文,经过这个黑盒子之后,输出来翻译过后的英文。

除NLP外,有道还拥有OCR、视觉、语音等几大技术,这些技术的结合可以为NLP的落地提供更多的帮助,符合用户使用场景,更好地满足用户的需求。Optical character recognition或optical character reader简称OCR,中文为光学字符识别。是将打字,手写或印刷的文本的图像电子或机械转换为机器编码的文本,无论是来自扫描的文档,文档的照片还是场景的照片(例如,风景照片中的标牌和广告牌上的文本)或叠加在图像上的字幕文本(例如:电视广播)。有道自研的OCR技术,可以检测并识别照片中的文字结果信息,实现自然语言翻译、智能语音合成,对图片标准文字寻找和识别率达97%以上,对图片特殊文字寻找和识别率也可达90%以上,英文识别准确度高出国内同类产品近10个百分点。

2.2 有道AI如何修炼内功

目前,有道研发的AIGC是基于LLM的应用,与ChatGPT同源,其水平和AI模型的学习能力息息相关。而AI能力高低通常取决于四大要素:数据、算法、算力、场景。这里借用金庸的《倚天屠龙记》来说明有道的AI如何“修炼内功”。

原始状态下的AI模型,就像少年张无忌,刚出场时一无所知,但天资聪颖;数据,是武林中大量实战所产生武功招式,可供学习参考;算法,是武学秘籍,比如《九阳神功》,给张无忌学武设定了基本规则,使他能向着特定的方向学习;算力,是张无忌的单位时间的学习效率,取决于他自身的硬件条件;场景,是实战环境,张无忌只有在实战中才能融会贯通,比如火塔救人,需要用乾坤大挪移,力战光明顶,则用少林龙爪手,一个武林高手不仅要会的多,还要能因地制宜。

有道的“学武”之路走的如何?众所周知,有道拥有丰富的产品矩阵,包括有道词典、有道精品课、有道智云、有道云笔记等,代表作有道词典用户量已突破10亿,日积月累的使用产生大量数据,“武功招式”量大全面。迭代多年的NLP、Transformer,是不断改良的“武学秘籍”,让有道AI不但“学得多”,并且“学得好”。

算力取决于硬件,这方面,有道与瑞芯微已经合作5年,双方围绕Rockchip NPU深度优化了有道AI模型的效率和效果。据了解,有道词典笔P5产品已升级至NPU方案,相对CPU版本的模型推理速度提高了4-10倍,实现了实时的一目十行识别;在模型大小增大15倍的基础上,AI引擎精确度大幅提升,成功保证了端到端推理速度的提升。Q4电话会中周枫表示:“和瑞芯微合作进一步拓展了我们的技术应用范围,让Transformer可以在智能硬件里更加高效地运行。”

这里简单解释一下原理,通常来说,AI模型和硬件之间会相互影响,随着模型增大,端到端推理速度会相应变慢。而有道强大的端侧落地能力很好地解决了这个问题,公司AI团队除了前文提到的视觉、语音、语言三部分之外,还有一个高性能团队,专职负责性能优化,保证AI算法能够更好地在硬件上实现,满足易用性。正是有了有道端侧能力的“内功传输”,NPU芯片才能成为和张无忌一样的“学武奇才”。

最后,有道已经实现AI技术在多种软硬件应用场景的落地,例如有道词典的AI作文批改、有道纵横的AI智能围棋复盘等,大小“江湖场面”,都能从容应对。

“台上一分钟,台下十年功”,可以看出,有道在AI领域入行早、布局深、有干货,本次因ChatGPT出圈可谓水到渠成。而“双减”政策之后的从容转型,同样源于有道自身科技基因的底气。有道目前拥有四大核心技术:神经网络翻译引擎(YNMT)、计算机视觉(OCR)、智能语音AI技术(ASR&TTS)和高性能计算(HPC),应用范围覆盖翻译、教育、语音助理、写作等多个领域。

3. GPT-4时代已至,多模态是AI未来

3.1 万众期待的新一代GPT-4

在当地时间3月9日举行的“AI in Focus-Digital Kickoff ”活动中,微软德国公司的首席技术官安德烈亚斯·布劳恩(Andreas Braun)表示,GPT-4将于下周推出。

目前火爆全球的ChatGPT是OpenAI对人工智能模型GPT-3模型微调后开发出来的对话机器人。此前,OpenAI分别于2018年和2019年推出GPT-1和GPT-2。“GPT-4将是一个多模态模型,能提供完全不同的可能性——生成视频。”布劳恩说。他把LLM(Large Language Model,大型语言模型)比作“游戏规则改变者”。因为LLM教会机器理解自然语言,从而使机器通过统计方式理解以前只能由人类阅读和理解的内容。与此同时,这项技术已经发展到基本上“适用于所有语言”,使用者可以用德语提问,得到意大利语答案。借助多模态,微软(和OpenAI)将使“模型更加全面”。

微软德国公司首席执行官玛丽安·贾尼克(Marianne Janik)谈到了人工智能对企业的颠覆性影响。她强调了人工智能的价值创造潜力,并称当前人工智能和ChatGPT的发展为“iPhone时刻”。国内外机构密切跟踪相关进展,多家券商研报表示,多模态是人工智能未来的发展方向。

3.2 新能力——“涌现”

(1)GPT-4理论基础——多模态涌现

讲到大语言模型的优势,一般首先要提到这类模型的涌现能力和思维链。这两者是大语言模型不断接近人类的关键特征。我们之所以认为GPT-4会是具有里程碑意义的一代,正是因为多模态的GPT-4会从视觉角度和视觉-文字语义融合方面涌现出更多的能力。2022-2023年,可以认为AI是第一次睁开双眼理解这个世界。

在大型语言模型(LLM)中,涌现能力(Emergent Abilities)是指模型具有从原始训练数据中自动学习并发现新的、更高层次的特征和模式的能力。就中文释义而言,涌现能力也指大语言模型涌现出来的新能力。这有点类似于去超市遇到买二赠一,赠品的质量居然还出乎意料。与大语言模型(LLM)相比,多模态大语言模型(Multi-modal Large Language Model,MLLM)可实现更好的常识推理性能,跨模态迁移更有利于知识获取,产生更多新的能力,加速了能力的涌现。这些独立模态或跨模态新特征、能力或模式通常不是通过目的明确的编程或训练获得的,而是模型在大量多模态数据中自然而然的学习到的。

缩放定律(参数增加后精度损失连续减少)V.S 涌现能力(1010-1011参数后新能力的涌现)(来源:OpenAI)

在语言模型发展的早期,通过在更多数据上训练更大的模型,可获得近似连续的精确度提升。(可称为缩放定律/Scaling Laws)到了2015年左右,随着深度学习技术的发展和语料库的增大,模型达到一定的临界规模后,NLP开发者们发现,大语言模型(包括GPT-3、GLaM、LaMDA和Megatron-Turing NLG等)开始表现出一些开发者最开始未能预测的、更复杂的能力和特性,这些新能力和新特性被认为是涌现能力的体现。

当模型尺寸增加到一定大小后,新能力涌现(来源:Google/Deepmind)

我们在研究GPT-4时,发现GPT-4具备了OpenAI在预训练时和发表的技术报告中并未明确的能力。这些能力都属于涌现出来的能力。涌现能力是基于深度学习模型的分层结构和权重学习机制实现的。涌现出来的能力可以是基于文本的,也可以是多模态的。我们可以将GPT-4这类大模型的训练视为解方程,每一层神经元(可视为变量组合)的输出都作为下一层神经元的输入,并且模型的每个权重(Weight)都通过强化学习算法进行学习和更新。这种分层的结构和权重学习机制使得深度学习模型能够自动的学习到从原始数据中提取隐含的特征和模式,从而实现涌现能力。

当大语言模型被训练时,通过学习大量的多模态训练数据,并且根据数据中的统计规律和模式自适应的调整其内部参数和结构,从而表现出一些新的能力和特性。这类似于咱们常说的量变引发质变。涌现能力是大语言模型的重要特性,也是现在火爆的大模型各种能力的理论基础。

涌现能力使得GPT-4能够在无需人工干预的情况下,从原始的多模态数据中自动学习到复杂的特征和模式,从而实现更准确和更高效的预测和决策。涌现能力的另一个重要表现是模型的泛化能力。在没有专门训练过的情况,GPT-4也可以泛化到新的、未知的多模态数据样本上。这种泛化能力取决于模型的结构和训练过程,以及数据的数量和多样性。如果模型具有足够的复杂性和泛化能力,就可以从原始数据中发现新的、未知的特征和模式。

当然,GPT-4涌现出的新能力可能仍有局限性,例如:模型可能产生错误的回答,对某些问题缺乏理解,容易受到输入干扰等。目前认为GPT-4的幻觉与其涌现能力具有相关性。

(2)GPT-4的核心优势——多模态思维链思维链(Chain of Thought)

多模态思维链思维链可视为大语言模型涌现出来的核心能力之一。之所以现在各类GPT研究火爆,也与模型训练出的思维链可进入实用有密切关系。思维链形成机制可以解释为模型通过学习大量的语言数据来构建一个关于语言结构和意义的内在表示,通过一系列中间自然语言推理步骤来完成最终输出。

思维链是ChatGPT和GPT-4能让大众感觉到语言模型“像人”的关键特性。虽然GPT-4这些模型并非具备真正的意识或思考能力,但用类似于人的推理方式的思维链来提示语言模型,极大的提高了GPT-4在推理任务上的表现,打破了精调(Fine-tune)的平坦曲线。具备了多模态思维链能力的GPT-4模型具有一定逻辑分析能力,已经不是传统意义上的词汇概率逼近模型。当然思维链的训练可能并不容易。尽管现在有大量团队进入大语言模型训练领域,但若干年内能找到训练诀窍并完成思维链训练的团队可能不多。对创企来说,完成思维链的训练,才算真正拿到了这波大模型AI竞技的入场券。

通过多模态思维链技术,GPT-4将一个多步骤的问题(例如图表推理)分解为可以单独解决的中间步骤。在解决多步骤推理问题时,模型生成的思维链会模仿人类思维过程。这意味着额外的计算资源被分配给需要更多推理步骤的问题,可以进一步增强GPT-4的表达和推理能力。

当模型尺度增加到一定规模,思维链能力出现(来源:Google)

一般认为模型的思维推理能力与模型参数大小有正相关趋势,一般是突破一个临界规模(大概62B,B代表10亿),模型才能通过思维链提示的训练获得相应的能力。如果在6B以下,那很可能还只是GPT-2级别的初级模型。另外也有研究表明,在语言训练集中加入编程语言(例如Python编程代码)可提升模型逻辑推理能力。具有思维链推理能力的GPT-4模型可用于简单数学问题、符号操作和常识推理等任务。

3.3 打通多模态壁垒

“模态”对应于人类的五种感官,视觉、听觉、触觉、味觉和嗅觉,我们这里的“模态”实际指的是“数据模态”,也就是你需要处理的数据类型。举个例子,“冰淇淋”三个字、一个画着冰淇淋的图片、或者朋友发来的一条问你吃不吃冰淇淋的语音,我们作为人类都能准确理解为冰淇淋这件物品;然而在AI眼里,这是三样不相关的数据,因为他们分别属于文字、图片、语音3个不同数据模态。

有时,人们把"多模态数据"和"非结构化数据"混淆使用,多模态数据是指包含多种数据模态的数据,例如可能包含文本、图像、视频和音频等。非结构化数据的含义更加宽泛,指没有固定数据结构的数据,它可能是文本、图像、视频或音频等任何格式,由于没有统一格式,无法被计算机直接处理。

(1)真实世界的数据都是多模态的

早期的 AI 研究通常都是在单一模态数据上进行的,例如在自然语言处理领域,研究人员通常只关注文本数据,计算机视觉领域的研究人员只关注图像数据。因此,AI 应用总是局限于特定模态,垃圾邮件过滤应用处理的都是文本,照片分类应用处理的都是图像,语音识别应用处理的都是音频。

但是现实世界的数据往往是多模态的。视频常伴随着音轨,还有文本字幕。社交媒体平台的帖子、新闻文章或者其它互联网上的内容经常混合着文本、图像、视频和音频。因此,处理多模态数据的需求促进了多模态 AI 的发展。

(2)“多模态”vs“跨模态”

“多模态”和“跨模态”是另外两个容易混淆的术语,它们的含义是不同的。多模态深度学习是一个相对较新的领域,它关注从多模态数据中学习的算法。例如,人类可以同时通过视觉和听觉来识别人或物体,而多模态深度学习关注的是为计算机开发类似的能力,让模型也能同时处理来自不同模态的输入。跨模态深度学习是一种多模态深度学习的方法,可以使用跨模态深度学习来学习跨越不同模态的关系,比如学习声音和文本之间的关系,图像和文本之间的关系。

(3)多模态深度学习

多模态深度学习是将多种不同的模态作为输入来训练模型,而跨模态深度学习则是学习跨越不同模态的关系。“多模态”指用于多模态数据的 AI 系统,当狭义地指集成不同模式并将它们一起使用的 AI 系统时,“跨模态”则更为准确。

多模态深度学习的应用场景包括:

自动生成图像的文本描述,为图像自动生成语言描述,例如盲人字幕。
搜索与文本匹配的图像,例如“找一张chatgpt的图片”。
文本生成图像,利用文本描述创作图像的生成式艺术系统,例如,创作一张逼真的鸟图片。
生成视频、音频,如数字人的使用、声音的模仿

开发多模态深度学习模型的难点包括:

翻译Translation:如何将数据从一种模式转化(映射)到另一种模式。不仅数据是异构的,而且模态之间的关系通常是开放式的或主观的。例如,存在多种描述图像的正确方法,并且可能不存在一种完美的翻译。
对齐Alignment:从两种或多种不同的模态中识别(子)元素之间的直接关系。例如,我们可能希望将食谱中的步骤与显示正在制作的菜肴的视频对齐。
融合Fusion:结合来自两个或多个模态的信息来执行预测。例如,对于视听语音识别,将嘴唇运动的视觉描述与语音信号融合以预测口语。来自不同模态的信息可能具有不同的预测能力和噪声拓扑,并且可能在至少一种模态中丢失数据。
协同学习Co-learning:从一种模态中学习的知识如何帮助在不同模态上训练的计算模型。挑战是在于模态的表示和它们的预测模型之间转移知识。
表征Representation:学习如何以利用多种模态的互补性和冗余性的方式表示和总结多模态数据。多模态数据的异质性使得构建这样的表示具有挑战性。例如,语言通常是象征性的,而音频和视觉形式将被表示为信号。单模态的表征负责将信息表示为计算机可以处理的数值向量或者进一步抽象为更高层的特征向量,而多模态表征是指通过利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示。

综上,多模态深度学习的关键就是理解不同模态信息之间的关系,你可以利用这种关系搜索现有数据,也就是神经搜索;或者也可以生成新的数据,也就是生成式 AI。更多关于多模态深度学习的信息,可以阅读这篇文章:Jina AI创始人肖涵博士解读多模态AI的范式变革。

(4)有道的多模态能力优势

未来的模型迭代必然以多模态为基础,因为现实世界的数据往往是多模态的。一个年轻人在抖音、B站刷视频,通常伴随音轨和文本字幕;看微信公众号文章,经常混合着文本、图像、视频和音频。人类可以同时通过视觉和听觉来处理信息、识别物体,多模态深度学习关注的正是为计算机开发这种能力,让模型也能同时处理来自不同模态的输入。因此,处理多模态数据的需求促进了多模态AI的发展。多模态深度学习的关键是理解不同模态信息之间的关系,利用这种关系搜索现有数据是神经搜索,生成新的数据则是生成式AI。

有道在多模态的布局始于2020年,在翻译方面已经能实现多模态覆盖,包括图片、语音、文档、网页、AR、同传、视频等。随着智能手机及摄像头的普及,图片成为用户日常生活中非常自然的翻译输入模态,有道通过OCR、智能组段、机器翻译、图片渲染多个技术的应用,实现了用户拍照整页文字即可即时实现文档翻译。在多模态技术的支持下,目前预训练模型已经从早期单一的NLP或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。

此外,有道技术团队攻克了多格式文档翻译、智能语义组段、专业领域、智能渲染等技术,当前支持PDF、PPT、Excel、Word等常见格式,支持扫描文档以及文档中的图片翻译。有道的多模态布局来源于实践,结合了对用户需求的认知迭代和对场景的充分理解,是独到的软实力,也是为未来新技术应用落地打下了硬基础。

4. 有道的估值潜力

2月23日,网易有道公布了2022年财报,交出了一份不错的成绩单。数字显示,2022年有道营收50亿元,同比增长24.8%。其中,Q4营收14.5亿元,同比增长38.6%,并首次实现单季度盈利。

4.1 智能硬件火热带动2022年业绩好转

智能硬件业务是公司的最强增长点,Q4贡献营收4.1亿元,创历史新高,同增28.1%,在“双11购物节”销售额超1.2亿元,同比增长近100%,蝉联天猫、京东同类目产品销冠。搭载了支持第三方功能拓展OS的有道词典笔X5在Q4销量超40万台,学习机亦增速不俗。

去年,有道先后发布了有道智能学习灯、AI学习机X10、有道词典笔X5、AI学习机Y10、有道词典笔P5五款新品。回首发展历程,周枫有了新感悟:“AI不能单独创造价值,只有技术与商业场景相结合才能为用户解决问题。”有道建立起了特色鲜明的“AI+硬件+内容”生态,打通产业链条,实现了直接的商业化落地。

不过,边际向好不代表网易有道面前就是一片坦途。宏观层面,教育行业的政策风险一直是悬在有道头顶的达摩克里斯之剑,“双减”团灭K12教育后,有道一直在探索新市场,这一过程不可避免的面临风险;近年来出生率骤降,对行业而言也是长期挑战。微观层面,公司2022全年净利率-15.5%,虽然同比收窄8个百分点,但仍处于亏损状态;此外,同行们也在快速入局,好未来、科大讯飞近期先后表示将推出AI学习机,未来市场仍然有很多不确定性。

4.2 AI基因能否带动估值重塑

吸收了如此多的增量信息,资本市场已经闻风而动。投资者普遍关注的是:亮眼的财报叠加日益成熟的AI技术,有道的估值水平有望提升吗?

先参考其他AI概念股。2月7日,知乎(ZH)美股单日暴涨31.7%,据业内人士分析,这次上涨的底层逻辑在于知乎拥有庞大的中文信息数据库。作为一家主打用户原创内容的互联网问答社区平台,海量的用户参与数据是知乎的核心资产,包括原创答案、点赞、评论、转发等。在必应中文网页里,很多问题的答案来自知乎。知乎数据库正是训练ChatGPT模型的“优质食粮”,因此被市场普遍看好。

相比知乎,网易有道同样拥有庞大的用户群体和数据库;不同的是,有道还有深耕多年的AI技术和自研硬件产品,与软件技术形成协同。

另一个参考对象或许是国内AI龙头科大讯飞(002230),讯飞主营AI智能语音和软件信息服务,也在推进智能学习平板及词典笔业务,当前流通市值约1130亿。对比之下,网易有道(DAO)当前市值9.12亿美元,折合人民币仅63.5亿元。从估值来看,科大讯飞、网易有道的市销率(P/S)分别为5.61倍和1.37倍,有道同样处于较低水平。

以AI作为公司的新坐标,网易有道的估值体系是否应当重塑?这个问题将交由时间与市场去解答。

5. 风险提示

研发不及预期风险:公司产品销售由研发带动,如果研发进度不及预期,可能影响公司产品竞争力,导致市场份额下滑。

法律法规风险:AI产业在我国属于新兴产业,处于发展早期阶段,相关法律法规尚不完善,未来出台相关政策及法律法规可能对公司业务产生限制,从而产生负面影响。

新技术取代风险:公司业务发展依赖于自身较为前沿的AI技术,如果有更先进技术出现,对公司现有技术形成替代,将对公司业务发展产生较大影响。