京科智慧-AI大模型要革AI的命

新闻

AI大模型要革AI的命

2023-08-12 13:42:17

一个月后，这家公司开始调配资源开发视觉大模型。

此后三个月，头部的机器视觉AI企业关注到这一技术的潜力，截至目前，商汤科技、云从科技等人工智能公司以及传统安防企业，纷纷开始投入这场新的技术竞争。

SAM，是一种面向通用场景的图像分割模型，在今年4月由Meta推出，就像和ChatGPT对话一样，人类可以通过一些语言指令，让SAM自主分辨和思考图片中的内容，SAM被认为是出现在视觉领域的ChatGPT。

全世界的发烧友用它画画、抠图，玩得不亦乐乎，中国研究员们却识别出SAM的威力：若用在自动驾驶、安防监控，以检测人、车和道路，它就是一个从根本上打破传统机器视觉玩法的大模型。

分割和识别图像是机器视觉的核心任务。过去，每创建一个分割图像的任务，都需要训练一次算法、标注一批数据，以叠加小模型的方式让机器“看见”图像中的各类物体。而SAM表现出了一些新的特征：无需为每一个特定任务创建小模型，机器可以自主对任何图像中的任何物体进行分割，甚至是未知的、影像模糊的场景，且操作极为简单。这意味着SAM具有更加通用的特征，且有可能利用这种通用特征，大幅度降低机器视觉识别的成本，从而改变基于原有技术的商业模式和竞争格局。

自2016年开始，拥有巨大市场的中国涌现了上百家人工智能公司，在市场竞争和资本助推下，逐步形成了数家AI独角兽，商汤科技、云从科技、旷视科技、依图科技，这些公司将AI带入安防、政务、工业领域，并利用算法上的精进、规模上的优势建起了护城河。

但如今，随着技术的更迭，这场赛事有可能重新展开。中国移动集团首席科学家、中国人工智能产业发展联盟副理事长冯俊兰对记者表示，AI大模型将带来一种全新的人工智能范式，过去所谓的AI领域的护城河在大模型冲击下基本不存在了。SAM的出现，证明视觉大模型的可实现性，颠覆了一直以来机器视觉的研究框架、交互和生产服务方式。

IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示，之前头部企业的AI能力优势，会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱，取决于它们的转型。

技术路线

作为AI的一个重要分支，机器视觉的目标是让计算机模仿人类视觉系统，实现图像和视频的理解和处理。

2000年后，被称人工智能奠基人的Ge－offreyHinton、YannLeCun和YoshuaBengio突破了深度学习技术，让机器可以模糊地模拟人脑，从海量图像中自动学习并提取特征。

2012年是一个重要时间节点，斯坦福大学教授李飞飞创建的ImageNet项目，将深度学习推向主流：研究者可通过对大量图片的人工标注教会计算机识别各种各样的物体，这大幅提升了机器视觉的准确率，降低了成本，使其有了商业化的可能。

2023年4月，新的变化到来，Meta公司上线了一款名叫SAM的图像分割模型。作为一款大模型，SAM不仅为机器安上感知外界的眼睛，还赋予机器一个真正的大脑，它学会对图像进行观察、感知、思考、逻辑推理、得出结果，且操作极其简单，类似于ChatGPT用人类语言对话的方式给机器命令。

简言之，它更容易地实现了机器视觉的目标，过程中无需大量图像标注、堆叠算法，消耗的算力也更少。英伟达人工智能科学家JimFan表示，SAM大模型是机器视觉的GPT-3时刻，它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）、在模棱两可的情况下也能进行图像分割。

Meta发布SAM后，也将模型及其背后的训练数据集一并开源，并从AR、VR、内容创建等领域，介绍了SAM的应用场景。身在中国的企业和研究人士很快判断出SAM可能具备的商业价值若将其用在自动驾驶、安防监控，以检测人、车和道路，它能从根本上打破传统机器视觉的玩法。

如今，用大模型替代原有的小模型玩法，无需堆叠算法、无需大量标注数据，过程中消耗的算力极少，可以用更简单的人类语言给机器下命令，无需用专业的计算机编程语言。朱兵表示，大模型大幅拉低了AI的研发和部署成本，它建造了一系列新的玩法，重构了行业秩序，尤其计算机视觉行业，之前的大公司构造的技术壁垒已经被抹平了，大家又回到同一个起跑线上。

涌入

围绕上一代机器视觉技术，中国诞生了一批人工智能公司，这些公司提供的技术开始被广泛用于公安、地铁、楼宇商厦的摄像监控识别和安检识别。

“AI四小龙”是指在2011年至2014年间陆续成立的四家中国人工智能企业，分别是商汤科技、云从科技、旷视科技、依图科技。他们的共同特点是以机器视觉为核心技术，此前AI在深度学习路线上的突破为这一批人工智能企业的崛起提供了技术基础，而中国的产业优势又为这些企业的发展提供了市场。

在SAM面世后，它们开始纷纷瞄准这一技术。

记者从多位业内人士处了解到，除了依图科技，“AI四小龙”中商汤科技、云从科技、旷视科技都在研发视觉大模型，号称传统安防的“海大宇”中，海康威视和宇视科技也布局相关技术研发。

4月，就在Meta上线了SAM后的几天，商汤发布“日日新”大模型。商汤智能产业研究院院长田丰对记者表示，“日日新”系列是包含自然语言生成、图片生成、视觉感知等多个大模型的集合，其中“如影”、“琼宇”、“格物”都属于视觉相关的大模型。

5月，云从科技发布了“从容”大模型，是包含视觉在内的多模态大模型，云从科技在最近的投资者会议上表示，视觉大模型是非常重要的，未来也将推出视觉主导的模型。因为公司在计算机视觉方面的储备较强，也因为要解决客户具体业务需要多模态技术。

目前，AI企业开始在“大模型的划时代”意义上达成共识。

商汤智能产业研究院院长田丰和云从科技联合创始人姚志强曾表示，AI1.0是小模型时代，企业以提供专有小模型为主，运用多点技术解决特定场景需求；AI2.0是大模型时代，企业要通过统一的大型技术底座平台，也就是打造一个对世界有通识感知和认知能力的多模态的基础模型，并在此基础上生成一系列行业小模型，以此来解决专业场景和更多海量场景的需求。

在新的竞争中，原有的技术积累和硬件投入仍将发挥作用。

大模型突围市场

“即便没有大模型的冲击，“AI四小龙”也处在一个转型的迷茫期，需要思考自身的价值和出路所在”。苏廉节表示。

一批人工智能企业受到了资本和市场的青睐，其中商汤科技、云从科技已登陆资本市场。商汤在2018-2022年间，每年研发投入累计超过120亿元，并在2021年IPO时募资超50亿元。云从在2018-2022年间，每年研发投入累计超过22亿元，并在2022年IPO时募资17亿元。

技术和资本的良好互动也让中国在视觉识别领域一度取得了领先的优势，在2018年前后，中国在人工智能论文发表量、人工智能融资额等多方面仅次于美国或已超过美国，特别是在视觉识别领域，中国人工智能公司屡屡在国际大赛中打破纪录，取得优良成绩。

但很快，随着市场的推动，原有技术的潜力逐渐见顶，2019年中国科学院院士张钹在接受经济观察报专访时曾提示在现有技术路线上，产业应用的潜力可能已经触碰到天花板。

更重要的是，从商业角度，AI原有技术路线始终难以突破成本瓶颈，以至于更多传统产业客户没有能力买单。朱兵表示，“多年以来，我们没有看到蓬勃向上的新秩序，大量企业在人和车牌识别这两个赛道里残酷竞争，根本原因在于更多算法无法形成规模效应”。

为了增加设备的智能化，AI企业要叠加多个算法，简单说就是堆叠许多个小模型。根据财报，商汤科技已累计拥有6.7万个商用小模型，记者从云从科技获悉，公司也具备数千个商用小模型。但是训练的时间和成本也翻倍上涨。

根据财报，2018至2022年间，云从科技累计亏损31亿元，商汤科技累计亏损超过400亿元。为了进一步降低AI成本、提升市场，“AI四小龙”战略上也出现分化。商汤选择AI大装置，云从选择操作系统，旷视选择芯片，依图选择物联网。

从这个角度，大模型可能带来的并不仅仅是对现有公司的挑战，也可能带来一个全新的商业模式和应用场景。

上述研究员称，公司曾努力在更多市场找AI的生意，比如，公司曾和一家超市谈过AI监控，检测售货员是否在场，公司派出5名算法工程师，光工资就要花30万元，但客户的十几个售货员月薪加起来不到5万元；还跟工厂主谈过AI质检，检测流水线上的包装盒是否破损，对方评估下来认为雇佣工人更经济等等。

这些需求统称为AI的长尾需求：大量的中小型客户，支付能力不强，对AI没有刚需，只是在某种场景下有一些特色需求，可用可不用，不愿意支付动辄上百万的成本。在这位研究员看来，未来，可以将某类大模型或一套多模态大模型，应用于这些视觉检测场景，利用大模型的迁移和通用能力，只需要少量数据标注和算法投入，开发周期和对算力的要求也会更低，这样费用大幅降下来，客户就有更大可能买单。