首页 > 新闻中心 > 环球报道

AI周报| 大模型测不出9.11和9.9哪个大；OpenAI发布轻量化模型GPT-4o mini

作者: 第一财经　日期:2024-07-21 15:47　阅读:0 　来源:第一财经　

分享到：

邮箱：news@skykiwi.com

大模型测不出9.11和9.9哪个大

一道小学生难度的数学题难倒了一众海内外AI大模型。9.11和9.9哪个更大？就此问题，7月17日，第一财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9。

点评：失误背后，大模型数学能力较差是长期存在的问题，有行业人士认为，生成式的语言模型从设计上就更像文字思维而不是数字思维。不过，针对性的语料训练或许能在未来逐步提升模型的理科答题能力。

OpenAI发布轻量化模型GPT-4o mini，两年时间模型成本下降99%

当地时间7月18日，OpenAI发布了新款轻量级的大模型GPT-4o mini。据介绍，GPT-4o mini即日起将在问答机器人ChatGPT中取代GPT-3.5 Turbo，企业用户则能从下周起访问GPT-4o mini。“我们预计GPT-4o mini将扩大人工智能的应用，让人工智能变得更实惠。”OpenAI官网文章称，GPT-4o mini的输入价格为15美分（0.15美元）/百万tokens（词元），输出价格为60美分（0.6美元）/百万tokens，比GPT-3.5 Turbo便宜60%。OpenAI称，公司还将在提高模型性能的同时继续降低成本。相比2022年的text-davinci-003型号，GPT-4o mini的成本下降了99%。

点评:虽然OpenAI迟迟未发布下一代模型GPT-5，但在现有能力基础上，仍在更新模型，继续推动大模型成本下降。其他大模型厂商今年也在推动模型轻量化。谷歌今年5月发布了轻量级模型Gemini 1.5 Flash。Anthropic 3月发布的Claude 3系列中，则包括轻量级的Claude 3 Haiku。参数较小的大模型今年来展现了颇高的潜力，通过加大数据量而不是加大参数量的方式训练提升性能。

六家大模型厂商回应大模型数字能力差的问题

第一财经记者近日联系并采访了多家大模型厂商，包括阿里通义、腾讯混元团队、月之暗面Kimi、MiniMax海螺、学而思九章、网易有道等在采访中解答了大模型数学差的问题。阿里通义实验室产品经理王晓明表示，类似问题是常见的数学计算和逻辑推理问题，也是模型训练和使用的过程中研发者常进行测试的case（案例），大模型“答对”或“答错”其实是个概率问题。腾讯混元团队表示，大模型本身是一个概率模型，要让它在各种情况下都能稳定地解决这种数值计算或比较问题比较难。

点评:“9.11和9.9哪个大”对人类不难，对大模型而言，却不一定是容易回答的问题。综合回复来看，大模型厂商相关负责人提到的观点包括，大模型还没有精准掌控数字间的运算或比较规则，同时，人类对大模型的能力探索处于非常早期的阶段。多名业内人士还认为，未来需要增强底层基础模型的智能水平，并从训练数据层面和外部工具层面去解决这样的失误，最终方案可能是提升下一代模型的能力。对这种案例的发现，有助于厂商增加对大模型能力边界的了解。

《人工智能法案》将于8月1日在整个欧盟范围内生效

欧盟发布的全球首个《人工智能法案》（EU AI Act）将于8月1日在整个欧盟范围内生效，这也是迄今为止全球发布的一项最为全面的针对人工智能监管的法案。欧盟《人工智能法案》也为全球人工智能监管奠定了基础，旨在实现与《通用数据保护条例》（GDPR）相同的“布鲁塞尔效应”。根据最新的法案，违反规定的企业将被处以最高3500万欧元或最高年收入7%的行政罚款，以较高者为准。

点评：欧盟一直走在技术监管的最前沿。欧盟《人工智能法案》是全球首个全面的人工智能监管法案，显示了欧盟在技术监管领域的前瞻性和领导力。不过，规则也会增加企业的营运成本，上海大邦律师事务所合伙人游云庭表示， GDPR实施以来，企业的成本，尤其是合规成本是大幅上升的。预计《人工智能法案》也一样，意味着企业针对新的规定必须进行投资，并且任命专门的人员去研究合规政策，另外，处理违规通知、公开披露制度等也会增加成本。

七大模型参加“高考”后分数出炉：理科只能上二本

此前6月，上海人工智能实验室旗下司南评测体系OpenCompass发布了首个AI高考全卷评测结果，显示语数外三科加起来，AI考生最高能得303分，数学全不及格。7月17日，OpenCompass进一步发布了扩大学科范围的测评，团队对7个AI大模型进行了高考9个科目的全科目测试，这样一来也就能与高考录取分数线作比较。

如果AI参加高考，能被什么大学录取？OpenCompass测试发现，大模型如果参加文科考试，最好的成绩能被“录取”到一本，而参加理科考试，则最多只能被二本“录取”（以今年高考人数最多的河南省的分数线为参考）。

点评：从阅卷老师们的评价来看，相对于人类考生，目前大模型依然存在较大局限性。完成阅卷后，老师们一致认为，大模型虽然对于基础知识的掌握表现出色，但在逻辑推理和知识灵活应用方面，仍然差强人意。具体而言，在作答主观题时，大模型往往无法完整理解题干，不明白代词指向，结果导致答非所问；解答数学题时，解题过程机械且逻辑性差，对于几何题，常出现与空间逻辑相违背的推断。

李飞飞孵化“独角兽”，World Labs估值超10亿美元

7月17日，有消息称，著名华裔计算机科学家李飞飞创办的"空间智能"创企World Labs估值已经超10亿美元。该创企主要利用类似人类的视觉数据处理技术，使AI具备高级推理能力。

从今年4月成立至今，World Labs已经进行了两轮融资，投资方包括顶级科技投资者Andreessen Horowitz和AI基金Radical Ventures。据了解，该企业最新一轮的融资金额可能达到约1亿美元。李飞飞、Andreessen Horowitz和Radical Ventures均未回应置评请求。

点评：作为一个传奇人物，李飞飞的创业动向也颇受业界关注。李飞飞在33岁成为斯坦福计算机系终身教授，44岁成为美国国家工程院院士，现任斯坦福以人为本人工智能研究院（HAI）院长。计算机视觉领域标杆成果ImageNet亦是由她一手推动。其门下高徒颇多，如先后在OpenAI、特斯拉任职的Andrej Karpathy、目前在英伟达的Jim Fan等，也都是AI领域内颇具影响力的人物。

AI芯片和云厂商巨头“抢购”全球AI企业

据企业服务数据库公司Crunchbase统计，今年上半年全球AI初创公司融资同比增长了24%至356亿美元，第二季度是近年AI投资最多的一个季度。第一财经记者据公开资料统计，今年英伟达已经投资或收购了不少于16家AI相关企业，其中多数融资轮次总金额过亿美元。微软投资OpenAI后，今年也参与了多轮总金额过亿美元的融资。谷歌则通过旗下多个投资平台广泛布局AI生态，参与了不少于31轮融资。这轮AI投资热潮中，活跃的身影还包括AMD、亚马逊、软银等。

点评:AI的火热直观体现在投资中。各大巨头投资风格偏好不完全相同，值得玩味的是，不论是英伟达、AMD这种主业为半导体硬件的厂商，还是微软、谷歌、亚马逊这种云厂商，或多或少都希望投资一些大模型厂商，云厂商对强绑定大模型初创企业的意愿更加强烈。观察今年业内最大的几笔融资，可以发现基础大模型、自动驾驶、AI数据和人形机器人是最大的热点。

英国对微软、Inflection AI交易展开反垄断调查

英国反垄断监管机构“竞争与市场管理局”（CMA）近日表示，该机构已开始对微软-Inflection AI交易展开正式的反垄断调查。今年3月，微软同意向AI初创公司Inflection AI支付6.5亿美元，用于获得其AI软件的授权。此外，微软还宣布聘用Inflection AI的联合创始人Mustafa Suleyman和Karén Simonyan，以及该公司的大部分员工。

点评：Inflection AI的估值约为40亿美元，业内人士称，微软的行为相当于低价、变相吞并Inflection AI。与收购不同的是，Inflection AI仍然保留其专有的技术。除了英国，上个月还有报道称，美国联邦贸易委员会（FTC）也正在对这一交易进行审查。报道称，FTC已向微软和Inflection AI发出传票，要求提供过去两年的相关文件。

人形机器人公司逐际动力完成A轮融资

7月15日，第一财经记者获悉，通用人形机器人初创公司逐际动力完成A轮融资，领投方为招商局创投、上汽集团旗下私募股权投资平台尚颀资本，老股东峰瑞资本、绿洲资本和明势资本跟投，融资额还未披露。此前，阿里也投资了逐际动力。逐际动力成立于2022年，创始人张巍是南方科技大学长聘教授，逐际动力旗下产品包括全尺寸人形机器人、四足机器人、双足机器人及相关解决方案。

点评:多家人形机器人公司还在融资过程中。今年来，人形机器人赛道融资事件不断。今年1月，星动纪元宣布完成过亿元天使轮融资，随后，宇树科技宣布完成10亿元B2轮融资，开普勒探索机器人完成天使轮融资，银河通用机器人完成7亿元天使轮融资。互联网大厂腾讯、百度、阿里分别投资了优必选、智元机器人、逐际动力，美团则投资了银河通用机器人、宇树机器人。人形机器人企业纷纷融资后，下一步的看点是如何量产落地。

英伟达联合Mistral AI发布大模型Mistral-NeMo

7月19日消息，英伟达联合法国初创公司Mistral AI发布Mistral-NeMo AI大语言模型，拥有120亿个参数，上下文窗口（AI模型一次能够处理的最大Token数量）为12.8万个token。Mistral-NeMo AI大模型主要面向企业环境，不需要使用大量云资源的情况下，实施人工智能解决方案。

点评:Mistral AI今年已完成6亿欧元融资，投资者名单中包括英伟达、三星。微软此前也宣布向Mistral AI投资1500万欧元，这笔资金将在Mistral AI的下一轮融资中转换为股权。Mistral AI已与英伟达合作推出大模型，该公司还将在各大巨头之间平衡并寻求合作。英伟达则正在更深地介入AI生态，此前还开源Nemotron-4 340B系列模型，供开发人员使用以生成合成数据，用于训练大型语言模型。