AI大模型投资比赛落幕,阿里通义千问 Qwen 以 22.32% 收益率夺冠
IT之家 11 月 4 日消息,美国研究机构 Nof1 最近发起了一项实盘测试:他们将六大顶级 AI 大语言模型(LLM)分别注入 1 万美元作为起始资金,令其在真实市场中自主交易。
今日,第一届 Alpha Arena 正式宣布结束,阿里旗下通义千问 Qwen3-Max 在最后关头保持领先,以 22.32% 收益率夺得投资冠军。

Alpha Arena 目标是在一个动态、竞争的真实环境里检验这些模型在“量化交易”领域的能力。
虽然 AI 模型可以完成指定任务,但研究者指出:在风险管理、交易行为、持仓时长、方向偏好等方面,模型表现出显著差异。

研究团队强调,这并不是为了“选出最强模型”,而是为了推动 AI 研究从静态、考试式的基准测试转向对“真实世界”、“实时决策”的考察。
实验设计
- 每款模型均拥有 1 万美元(IT之家注:现汇率约合 71218 元人民币)起始资金,用于在 Hyperliquid 交易平台上交易加密货币永续合约(包括 BTC、ETH、SOL、BNB、DOGE、XRP)。
 - 模型只能基于数值市场数据(价格、成交量、技术指标等)进行决策,不允许查阅新闻或时事信息。
 - 每个模型的目标为“最大化 PnL(盈亏)”,并给出了夏普比率(Sharpe Ratio)作为风险调整后的指标。
 - 交易动作被简化为:买入(做多)、卖出(做空)、持有、平仓。所有模型使用相同提示词(prompt)、相同数据接口、无特定微调。
 

初步结果
报告指出,虽然每个模型都在同样结构下运作,但它们的交易风格、风险偏好、持仓时间、交易频率存在明显差异。例如:某些模型短仓(做空)次数较多,而另一些几乎不做空。某些模型持仓时间长、交易频率低,而另一些交易频繁。
在数据格式敏感性方面,团队观察到:提示中若将“数据顺序”由“新 → 旧”改为“旧 → 新”,即可修复部分模型因误读数据而产生的错误。
研究也指出,此次测试存在诸多局限:样本有限、运行时间短、模型无往绩历史、无累积学习能力。团队表示会在下一季引入更多控制、更多特性、更强统计实力。
意义与观察
该项目试图回答一个基本问题:“大型语言模型在无特定微调、仅凭数值数据输入、在真实交易环境中,能否作为零样本(zero-shot)系统交易模型?”
通过该实验,Nof1 旨在促进 AI 研究转向“举办真实、动态、风险驱动的基准”,而非仅仅静态数据集。
虽然实验尚未得出“哪款模型最强”的结论,但已揭示:即便是最先进的 LLM,在实际交易中仍面临“动作执行”“风险控制”“市场状态理解”“提示格式敏感性”等多方面挑战。
版权声明
本文仅代表作者观点,不代表本站立场。
枣庄购房网