华科微致力于联合伙伴打造领先的行业数字化、智能化、低碳化解决方案
及工业互联网平台,为社会和客户创造价值
华科微与伙伴坚持以客户为中心,共建“以客户为中心”的文化与机制
营造健康的商业环境,与合作伙伴共同成长,助力客户实现商业成功
2024.12.31
AI降低了人们对技术进步的敏感性,让一切发展都变快了。
在想象中,技术的进步似乎应该是在不经意间改变生活方式,但人工智能的火热却总是停留在微博和知乎上,大众也在这种事不关己的喧嚣中,日渐脱敏。
但这绝不是中国AI圈最真实的样貌,我们可以轻描淡写地说某个AI功能“没啥了不起”,某个技术突破“不过如此”,可站在年末,我们去审视2024年这一年依旧是一场不折不扣的技术狂飙。
2024年:我们对AI的发展脱敏了吗?
文|董道力(节选自微信公众号“新硅NewGeek”)
Ⅲ - AI硬件不再All in AI
如果说“跟着OpenAI走”是AGI赛道的主线,那么在没有主线的AI硬件领域,整个市场就显得百花齐放,年初的CES展上,高喊着AI颠覆一切口号,从而推出的Rabbit R1和AI Pin掀起了原生AI硬件的浪潮,但结果第一代原生AI硬件全部翻车。
随后“万物+AI”开始兴起,AI学习机,AI耳机,AI玩具,甚至于AI鼠标电脑按摩椅层出不穷,但除了价格之外,暂时还未发现什么颠覆之处。
此外,AI硬件的概念让传统的PC OEM厂看到机会。原本PC OEM厂的迭代升级受限于CPU+GPU的换代,自主权较小利润被牢牢锁死,但AI PC的概念则完美对应“软件定义硬件”的思路。
但消费者逐渐发现AI PC与传统PC差异不大。AI PC的NPU性能不足以支持运行高效的本地模型,仍然需要联网才能运行大模型。无论AI PC的算力如何吹嘘,实际体验中,购买一张显卡反而更为实际。
年底,AI眼镜异军突起,Ray-Ban与Meta合作推出的AI眼镜短时间狂卖100万台迅速引爆市场,成为资本最为看好、投融资最为火热的AI硬件赛道。
从技术上看,这款眼镜并不具备什么颠覆性的突破,但之所以热销,首先在于它是一副好眼镜。Meta与Ray-Ban合作,选用了经典的Wayfarer款式,外观时尚大方。此外,在重量方面,Meta并未因搭载科技功能而妥协,官方数据显示其重量仅为48克,与普通眼镜相仿,佩戴感极为舒适。
星际魅族副总裁卢勇认为,智能眼镜的核心要素首先是外观好看,其次是轻便。AI功能并非刚需,用户使用眼镜的70%时间都在听音乐和拍照。Meta AI眼镜的火爆,亦为所有AI硬件的未来发展指明了方向:在追求AI创新之前,首先要做好基础功能,再进一步整合AI技术。
Ⅳ - 结语
从基础大模型到接近AGI的突破,从AI抽象视频到AI生成短剧的爆火,从更加“逼真”的数字人到AI游戏的新玩法……所有这些变化,曾经需要数年的积累,而现在不过发生在短短一年之内。技术进步的速度,正在不断刷新我们的认知。
作为继互联网、云计算、智能手机之后的又一次产业革命,每一个中国人都无比期望在人工智能这轮浪潮中拔得头筹,而不是再一次被冠上“追赶者”的名号。
诚然,谈起AI我们总会说国内环境不好、融资情绪差、技术存在差距、商业化不尽人意零零总总,可回过头来看这一轮AGI革命,曾在电子产业领先的日韩杳无音讯、欧洲只余Mistral一家独苗,还是从硅谷返乡创业。
反观中国,论AI人才梯队的规模和质量,中国仅次于美国,在ChatGPT问世的前一年,中国AI论文数量已经是美国的2倍。
凯文·凯利在2024年上海外滩大会上曾问过一个问题:“想象100年后的世界,你想生活在什么样的环境中?”但面对这飞速变化的时代,1年后的未来都让人无法预测。
注:该文观点仅代表作者本人,华科微仅提供信息转载服务。
Ⅰ- 大模型更加实用,但不再惊艳
2024年初,国内大模型领域呈现出“群雄逐鹿”的局面。 据《每经》统计,截至2024年4月,已经有305个大模型问世,去年诞生的新词“百模大战”到今天依然适用,但价格战的爆发和应用侧的需要已经事实上清退了绝大多数本就没必要诞生的模型。
第一个趋势是小参数的端侧模型。中杯大杯特大杯的分类已经无法满足各类场景的不同需求,大参数模型拥有强大的能力,但它们的训练和调用成本高昂,在硬件能力有限的情况下难以普及。
端侧模型的出现让简单的AI应用进入日常生活不再遥远,最典型的案例是手机/PC端侧模型,比如小米的MiLM、vivo的蓝星大模型等等,它们既在手机上保留关键能力,又能降低资源消耗,这类模型的部署很大程度上成为了AI渗透日常的关键一步。
在此基础上,另一大趋势是混合专家(MoE)技术的应用,一种使模型调用成本更低但依然高效的解决方案。普通的大模型就像一个全知全能的专家什么都会,但价格昂贵(算力需求高)。而MoE模型则如同邀请了一个专家团队,这些专家分别擅长不同领域,用户在需要时调动对应的专家即可。通过这一机制,模型的算力需求和成本大大降低。以Mixtral-8x7B为例,它在性能上与GPT-4差距不大,但在资源需求上却低得多。
此外,多模态的研究也开始成为2024年大模型发展的一个重要方向。人类认知世界是通过视觉、声音、触觉等多模态的方式来实现的,而大模型如果想要真正具备智能,同时真正具备应用价值,仅靠文字输入和输出显然是不够的。以生成配图为例,AI不仅需要理解文字内容,还要能把握图像的语境,随着谷歌发布原生多模态大模型Gemini,多模态能力成为了各大AI公司研究的重点。
对于普通用户来说,大模型回答内容的好坏没有一个特定的评判标准,但大模型能读取的内容越多一定越强。今年3月份,月之暗面的kimi选择了卷“超长文本”这条路。原本我们想让大模型读一本书,或者一篇长文章,都需要用上各种提示词,而kimi直接把大模型的读取能力提高到能够处理200万上下文长度,相当于3本《红楼梦》。随后kimi在国内的影响力一路飙升,连月之暗面接待用户的矿泉水牌子都被扒出来炒作,成就了所谓的“kimi概念股”。
大模型行业的真正“爆点”出现在2024年5月。Deepseek公司掀起了一场价格战,字节、阿里等大厂纷纷跟进降价,百度和讯飞更是推出了免费模型。在技术层面,如模型压缩、混合精度训练等,帮助厂商降低了训练和调用成本,从而为价格调整提供了空间。市场层面,这场价格战无疑是在模仿互联网时代的商业模式,通过降低价格来迅速扩大市场份额。同时,厂商也通过获得更多的用户数据来提升模型的训练效果。
经过这一轮价格战,国内大模型行业的生态得到了重塑。许多中小型企业被迫退出市场,剩下的大厂则通过价格优势占据了市场主导地位。
但领头大模型的技术进步并未停止,2024年9月,OpenAI发布了GPT-o1,该模型通过强化学习和思维链技术,显著提升了推理能力,尤其是在数学问题、编程任务以及科学推理等领域。国内的Kimi和智谱也几乎同步发布了类似的产品,推理能力成为了下半年大模型研究的焦点。
虽然现在的大模型好用便宜,但都不如梦里的GPT-5。
2024年年末,最受关注的大模型消息应该就是GPT-5难产。据《华尔街日报》12月20日报道,OpenAI的GPT-5项目的开发已持续超过18个月,该项目应在2024年年中完成,但现在进度严重滞后。 原因之一是训练成本太高,据估计,GPT-5训练的算力成本可能高达5亿美元(约合36.6亿元人民币),另一方面,可供GPT-5训练的优质数据稀缺,OpenAI不得不专门请一堆人从零给GPT5写训练数据。
希望,2025年能看到GPT-5发布。
Ⅱ - 把功能放进一个软件里
大模型能力是基础,但对于用户日常使用而言,在互联网时代的熏陶下,所有人都期望一个APP能解决所有问题,AI时代也不例外。因此站在软件的角度,整个2024年最清晰的脉络,则是将更多的功能,塞进一个软件里。
▶ AI搜索内容为王
AI搜索被视为大模型应用中最具潜力的方向之一,并且已经成为首个实现大规模落地的领域。生成式大模型本身是一个内容库,它的训练需要大量的数据。此外,生成式大模型最常见的交互方式是对话式这与用户的搜索需求高度契合。
用李彦宏的话来说:“生成式AI与搜索是天作之合。”在此背景下,AI搜索成为了行业的焦点,特别是以AI搜索为核心功能的Perplexity,其估值不断创新高,吸引了OpenAI、谷歌等科技巨头的积极布局,掀起了年初AI搜索的热潮。
腾讯和字节跳动通过借助各自独有的内容生态(抖音和公众号),将AI搜索融入自家的AI助手中,这种策略让它们能够利用现有的庞大用户基础和内容生态,避免了传统搜索引擎的激烈竞争,找到自己独特定位。
▶ 更像人的AI语音
使人工智能能够像人类一样进行自然对话,一直是评估其能力的关键标准,许多人梦想拥有一个类似《钢铁侠》中的贾维斯智能助手。
然而,当前的交互方式仍主要依赖文本。基于此发展起来的音频大模型,实际上是将语音转化为文字,由大模型进行理解和生成,再将生成的文字转换为语音输出。在这一过程中,不可避免地遇到一些文字交互特有的问题,例如对方言的理解困难、情绪识别的不准确,以及用户在对话中途无法有效打断等问题。
在5月OpenAI春季新品发布会上展示了ChatGPT的高级语音模式后,AI语音交流能力的巨大进步引起了广泛关注。
▶ AI视频正在变成生产力工具
在OpenAI于2024年2月15日发布AI视频技术之前,AI视频仍处于实验和抽象阶段,能够实现如PPT一样的背景变化就已被视为领先,代表性的AI软件和公司包括Runway、Pika等。
然而,Sora的出现大大提升了人们对AI视频的期望,scaling law被证实在视频领域也有效,于是各大公司开始投入AI视频,争相在时长、画面运镜、风格和画质上“卷”出更多差异。
然而,AI视频最大的问题在于商业化,这也不被不少人认为是Sora迟迟不发布的原因。恰逢短剧市场火爆,并且短剧在制作上不需要天衣无缝的画面,契合一致性不强的AI视频,抖音快手开始尝试AI+短剧的模式,借此宣传自家AI视频软件。抖音《三星堆:未来启示录》和快手《山海奇镜之劈波斩浪》分别在各自平台获得了1.35亿和5200万的播放量。
AI视频商业化的关键在于把软件卖出去,尤其是在“最佳”AI视频sora还处于画饼阶段。而相较于付费意愿不强的国内市场来说,海外用户付费习惯更好,市场空间明显更大。
为了让AI视频更有生产力,而不是停留在整活视频。AI视频短剧平台产品出现,进一步降低了AI短剧的制作门槛。这些平台将脚本创作、分镜设计、视频生成等短剧制作所需的各个步骤整合在同一个应用中,极大简化了创作流程。比如8月,昆仑万维发布全球首个集成视频大模型与3D大模型的AI短剧平台SkyReels,让创作者“一键成剧”。
▶ 门槛降低的AI Agent
前文提到的AI视频、AI语音、AI搜索等功能,都可以归纳为AI Agent。简而言之,AI Agent是由人工智能驱动的代理人,能够代替人类完成各类任务。
2023年3月,AutoGPT框架项目的发布掀起了AI Agent的浪潮,随后,Baby AGI、AgentGPT等类似产品相继涌现。 然而,由于开发门槛较高,用户数量相对有限。
2024年,AI Agent的趋势逐渐聚焦于降低开发门槛,推动技术的普及。
在今年4月的Create大会上,百度发布AI开发工具AgentBuilder、AI原生应用开发工具AppBuild,主打一个会说话就能开发AI。
12月字节跳动的AI开发平台扣子,也频频更新低代码开发软件,如Project IDE、UI Builder等。
尽管许多用户通过AI Agent实现了“开发者”身份,可“如何让AI开发者赚到钱”却成为了大厂们最新的问题。
目前的AI Agent大部分只能针对单一任务,如编程、修图、写文章等,让AI Agent从单一任务转向广泛通用是发展的另一大趋势。
11月智谱AI发布了其重磅产品——AutoGLM,这款AI Agent能够真正帮助用户自动完成各类任务。在发布会上,智谱AI的CEO张鹏通过AutoGLM向现场人员发放了20000元红包,并宣称这是“历史上AI首次向人类发送红包”。
相关动态
中美人形机器人落地进展大比拼
2024.07.26
《2023世界机器人报告》显示,2022年中国工业机器人装机量29万套,同比增长5%,占全球装机量的比重为52%,连续十年成为全球最大工业机器人消费市场...
英伟达凭什么成为AI时代缔造者?
2024.06.04
英伟达CEO黄仁勋6月2日在台大COMPUTEX大会上发表开幕演讲,正式宣告:新的工业革命由AI正式开启,英伟达是最重要的公司,没有之一...
IDC:预计2023-2028年中国液冷服务器市场年复合增长率为45.8%
2024.04.16
随着ChatGPT等人工智能大模型的推出,让人们认识到AI技术的巨大潜力。高效、快速处理海量数据并即时提供分析结果以支撑企业精准决策,几乎是所有企业用户的诉求...