和DeepSeek一样强的公司,上海也潜伏一家
2 小时前 / 阅读约14分钟
来源:凤凰网
阶跃星辰的技术实力为商业化积累了良好口碑

近日,《麻省理工科技评论》(MIT Technology Review)发表文章《关注DeepSeek之外的四家中国人工智能初创公司》,聚焦阶跃星辰(Stepfun)、面壁智能(ModelBest)、智谱AI(Zhipu)和无问芯穹(Infinigence AI)四家企业,认为它们展现出不逊于DeepSeek的技术实力与全球竞争力。

此前,我们已经介绍过面壁智能、智谱AI、无问芯穹等公司,作为一家专注于实现通用人工智能(AGI)的人工智能初创企业,阶跃星辰成立于2023年4月,由前微软全球副总裁姜大昕博士创立,以下是对这家公司的详细分析。

1、成立背景和发展历程

2023年4月,在人工智能领域快速发展、大模型成为行业焦点的背景下,姜大昕博士创立了阶跃星辰。公司名字灵感来自「阶跃函数」(Step Function),使命是「智能阶跃,十倍每一个人的可能」,总部位于上海市徐汇区。

作为创始人,姜大昕博士拥有深厚的学术背景和丰富的业界经验。他早年在纽约州立大学布法罗分校获得计算机科学博士学位,随后在新加坡南洋理工大学计算机科学与工程学院担任助理教授。

2007年,姜大昕加入微软亚洲研究院担任首席研究员,开启了他在微软长达16年的职业生涯。在此期间,他在机器学习、数据挖掘、自然语言处理和生物信息学等领域积累了丰富的研究和工程经验,并于2008年获得SIGKDD最佳应用论文奖。

2011年,他转入微软亚洲互联网工程院(STCA)工作。凭借出色的表现,他于2017年晋升为微软全球合伙人,并担任STCA副院长及首席科学家。

2023年3月,他进一步升任微软副总裁,离职前,他领导着一支400多人的精英团队,负责必应(Bing)的全球搜索体验、AI School China以及NLP方向的技术研发工作。

在创立阶跃星辰时,姜大昕看到了大模型在通用人工智能(AGI)方向的巨大发展空间。尽管当时这一领域面临着技术研发难度大、数据隐私与安全、模型泛化能力等诸多挑战,但他决心按照自己对AGI的理解,构建全新的技术体系和产品生态。

公司创立后,研发团队于2023年7月起正式开始训练模型,虽然初期保持低调,但发展速度惊人。

2023年8月,公司发布首款大模型产品Step-1(千亿参数语言大模型),标志着技术研发的初步成果。同年11月,又完成了Step-1V(千亿参数多模态大模型)的训练,该模型在多模态理解能力上表现突出,支持图像分析、逻辑推理、内容创作等任务,并在中国评估平台「司南」中位列第一,性能对标GPT-4V。

2024年3月,阶跃星辰在上海全球开发者先锋大会上发布Step-2(万亿参数MoE语言大模型)预览版,成为国内首家推出万亿参数模型的初创公司。

该模型采用混合专家(MoE)架构,聚焦深度智能探索,并开放API接口供合作伙伴试用。

到2024年11月,Step-2在LiveBench测评榜单中位列国产基座大模型第一,仅次于OpenAI o1和Claude;同月,Step-1V在LMSYS Chatbot Arena榜单中位列视觉领域中国大模型第一。

2024年12月,公司完成数亿美元B轮融资,估值达20亿美元,投资方包括上海国资、腾讯、五源资本等。

2025年1月,公司进一步发布首款推理模型Step R-mini,具备主动规划与深度逻辑推理能力,并在跃问网页版全面上线。

在技术路线上,公司专注于通用人工智能(AGI)研发,提出「单模态→多模态→多模理解和生成的统一→世界模型→AGI」的发展路径,并围绕算力、系统、数据和算法四大要素进行综合布局。

算力方面,阶跃星辰对外投资了上海智能算力科技有限公司,占股10%,该公司核心股东还包括云赛智联、仪电集团等。

商业化方面,公司采取「基础模型+AI应用」双轮驱动战略,推出To C产品「跃问」(效率工具)和「冒泡鸭」(AI开放世界平台),同时聚焦重点行业构建大模型生态。

行业应用方面,阶跃星辰与上海报业旗下界面财联社达成深度合作,共同推进大模型在AIGC财经资讯、智能投研、智能投顾等领域的应用;此外,还与中文在线、中国知网等达成战略合作,探索大模型在网络文学创作、知识服务等领域的应用。

公司的技术实力也为商业化积累了良好口碑。

2024年下半年,阶跃星辰多模态API的调用量增长超45倍,Step系列模型已经积累了一批活跃的应用开发者。多个走红社交网络的AI应用,如「歌词爆改机」、「胃之书」、「林间疗愈室」等,均采用阶跃星辰的多模态模型。

2、团队构成和专业背景

阶跃星辰的团队人才密度较高,超过80%的顶尖AI学者和专家组成,涵盖算法、系统、数据全链条,核心成员包括计算机视觉领域经典论文ResNet主要作者之一的张祥雨,以及曾任职于微软、字节跳动、谷歌的AI系统专家的朱亦博。

姜大昕博士-创始人、CEO

姜大昕博士全面负责公司战略规划和技术产品研发。他本科毕业于中国科学技术大学,随后在中国科学院软件研究所获得硕士学位,并于2005年在纽约州立大学布法罗分校获得计算机科学博士学位。博士毕业后,他曾在新加坡南洋理工大学计算机科学与工程学院担任助理教授。

2007年,姜大昕加入微软亚洲研究院担任首席研究员,开启了他为期16年的微软职业生涯。2011年,他转入微软亚洲互联网工程院(STCA),负责必应(Bing)搜索、Cortana智能助手、Azure认知服务等产品的技术研发。

他于2017年晋升为微软全球合伙人,并担任STCA副院长及首席科学家。2023年3月,他进一步升任微软全球副总裁,兼任亚洲软件技术中心WebXT S+D集团总经理,领导着一支400多人的团队。

学术成就方面,姜大昕在数据挖掘和自然语言处理领域拥有多项专利,已在SIGKDD、ACL、AAAI等国际顶级会议和期刊发表论文100余篇,GoogleScholar统计的引用量超过1.7万次,H-index达到53。

凭借在上下文感知搜索和语言Scaling方法上的突出贡献,他入选国际电气和电子工程师协会(IEEE)2025年度Fellow名单,是唯一来自中国大模型创业公司的入选者。

张祥雨-首席科学家

张祥雨博士主要负责公司的技术战略与核心算法研发。

他于2008年考入西安交通大学,后转入软件工程专业。在校期间,他在2011年美国大学生数学建模竞赛(MCM)中获得特等奖提名,创造了西安交大历史最佳成绩。

2012年获得软件工程学士学位后,他入选西安交通大学与微软亚洲研究院(MSRA)的联合博士培养项目,师从孙剑和何恺明。

在博士期间,张祥雨主导了ResNet的研究工作,负责底层框架和编码实现。该研究成果获得2016年CVPR最佳论文奖,论文引用量超过32万次。此外,他还主导开发了ShuffleNet,推动了手机毫秒级人脸解锁技术的实现。

2017年获得博士学位后,他加入旷视科技,担任旷视研究院基础模块组负责人和首席科学家。

张祥雨的研究方向覆盖高性能卷积网络设计、AutoML(自动化机器学习)、神经网络架构搜索,以及深度模型的裁剪与加速等领域。他的论文总引用量超过32万次,h-index达到59。

焦斌星-联合创始人、数据负责人

焦斌星博士是阶跃星辰的联合创始人和数据负责人。他毕业于中国科学技术大学,并入选中科大与微软亚洲研究院(MSRA)的联合培养博士项目。

博士毕业后,他加入微软,担任必应引擎核心搜索团队负责人,主要负责利用数据挖掘和NLP算法优化索引和搜索质量。在微软期间,他还开发了全球高质量站点的自动挖掘算法,用于站点排序和索引,为必应搜索引擎的性能提升做出了重要贡献。

2023年,他与姜大昕博士共同创立阶跃星辰,作为核心创始团队成员担任数据负责人,为公司的大模型研发提供关键的数据支持。

朱亦博-系统负责人

朱亦博博士是阶跃星辰的核心创始团队成员之一,担任系统负责人和公司监事。他毕业于美国加州大学圣芭芭拉分校(UCSB),并在该校完成了博士学位。

在加入阶跃星辰之前,朱亦博曾在微软、字节跳动和Google等公司工作,积累了丰富的大规模系统建设经验。他曾担任字节跳动AI基础设施负责人,在微软期间也参与了大规模集群与系统建设工作。

在阶跃星辰,朱亦博主要负责系统方面的工作,包括构建和优化公司的大规模计算集群,保障大模型训练和运行时的系统稳定性和高效性,为公司的模型研发和产品部署提供关键的系统支持。

3、主要产品

(1)Step系列基座模型

a. 文本大模型

当前阶跃星辰已推出step-1和step-2正式版两大系列文本大模型。

step-1

step-1系列千亿参数经典架构大模型,能够处理各种复杂的语言任务。无论是文本创作、跨语种交流,还是解答问题、逻辑推理等,它都能提高使用者工作效率。此外,该系列模型还具备出色的数学和代码能力,在科学计算、程序开发等领域也能发挥重要作用。

step-1-flash

step-1系列极速版大模型,能够处理通用领域的任务。在首字延迟和输出速度上表现优异,为高性价比模型。上下文长度为8k,模型名为step-1-flash。

step-2

新一代MoE架构大模型,参数规模突破万亿。模型性能/体感/planning能力全面逼近国际主流大模型,满足用户在中/英文领域各种需求。

step-2-mini

基于新一代自研Attention架构MFA的极速大模型,用极低成本达到和step1类似的效果,同时保持了更高的吞吐和更快响应时延。能够处理通用任务,在代码能力上具备特长,上下文长度为8k。

step-2-16k-exp

step-2模型的实验版本,包含最新的特性,滚动更新中。

b. 视觉理解大模型

视觉理解大模型在文本大模型的基础上,增加了图像和视频输入能力,以实现更全面、更准确的理解和推理。

step-1v

该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度分别为8k和32k。

step-1o-vision-32k

该模型拥有强大的图像理解能力,暂时只开放文本和图像输入,且仅支持文本生成。上下文长度为 32k。相比于 step-1v 系列模型,拥有更强的视觉性能。

step-1.5v-mini

该模型拥有强大的视频理解能力,暂时只开放文本、图像和视频输入,且仅支持文本生成。上下文长度为 32k。

c. 语音大模型

阶跃星辰语音模型基于业界先进的语音生成等技术,开放 TTS、音频复刻、语音识别接口,帮助用户实现音频相关能力。可应用于智能客服、有声阅读、音视频创作、游戏NPC、会议记录等应用场景。

step-asr

该模型具有强大的中英文语音识别能力,能够自动区分语音和噪音,支持中英文混合语音识别,可广泛应用于语音输入、语音控制、会议记录等场景。此外,该模型还具有强大的重口音普通话识别能力,支持识别多种不同地方的重口音普通话。

step-tts-mini

该模型具有强大的文字转语音能力,在中英文混合输入场景表现突出,可广泛应用于有声阅读、音视频创作等场景。

此外,该模型还具有强大的音频复刻能力,仅需提供5-10秒的音源,即可极速复刻。支持中、英、日语复刻。

d. 生图模型

文生图模型是一种基于深度学习的模型,能够根据给定的文本描述或其他形式的输入,生成高质量、多样化的图像。生图模型在艺术创作、设计、游戏开发等领域具有广泛的应用前景。

step-1x

该模型拥有强大的图像生成能力,支持文本描述作为输入方式。具备原生的中文支持,能够更好的理解和处理中文文本描述,并且能够更准确地捕捉文本描述中的语义信息,并将其转化为图像特征,从而实现更精准的图像生成。模型能够根据输入生成高分辨率、高质量的图像,并具备一定的风格迁移能力。

(2)C端应用

智能助手跃问

支持多模态交互,可帮助用户解决工作和生活场景下的各种问题,例如在创作方面提供创意、解答问答类问题、进行搜索等。

并且其多模态智能视觉搜索功能「拍照问」,是国内首个集成到iPhone16相机控制键中的大模型应用产品能力,用户可以通过手机拍照直接进行视觉搜索,获取相关信息。

AI开放世界平台冒泡鸭

一个由剧情和角色组成的AI开放交互平台,能满足多种娱乐和社交需求。

4、融资情况

阶跃星辰在成立后短时间内获得多轮融资。最近的一次是B轮融资,于2024年12月完成,总融资金额达数亿美元。

此次融资吸引了包括国资、战略和财务投资人在内的多家机构参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,以及腾讯投资、五源资本、启明创投等知名投资机构。

这笔融资将用于继续投入基础模型研发,强化多模态和复杂推理能力,并通过产品和生态加大覆盖C端应用场景,提供丰富的用户体验。

5、小结

作为一家成立仅两年的AI初创企业,阶跃星辰已在大模型领域取得显著成就。公司自研的Step系列模型在多个权威评测中表现优异,以姜大昕、张祥雨等为代表的核心团队,凭借深厚的学术背景和丰富的工业界经验,为公司的持续创新提供了有力支撑。

展望未来,公司将继续沿着「单模态→多模态→世界模型→AGI」的技术路线,为中国AI产业的发展贡献力量。