新闻资讯

作业帮银河大模型正式发布，在两大权威测评榜单中均位列第一

当前栏目：新闻资讯发布日期：2023-09-02阅读量：

新京报讯（记者刘洋）9月2日，2023中国国际服务贸易交易会在京开幕。伴随新技术不断涌现，AI、大数据、VR/AR等前沿技术与教育的融合更加深化，众多教育“黑科技”亮相成为本次服贸会上一大看点。在本届服贸会上，参展教育科技机构作业帮正式发布自研银河大模型，并同时公布了银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示，作业帮银河大模型在C-Eval、CMMLU双榜排名第一，成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。

如何写一篇描写春天的作文？几何题如何解析通俗易懂？植物需要睡眠吗？在作业帮展区，面对现场观众提出的涵盖多学科、多学段、多场景的问题，银河大模型均一一给出答案。现场，银河大模型在智能解题、知识问答、中英文写作及AI伴学等方面的表现也吸引了不少观众驻足并互动体验。

作业帮发布的银河大模型吸引了不少现场观众驻足观看。受访者供图

据介绍，2023年国产大模型进入高速发展期，银河大模型作为作业帮自主研发的大语言模型，深度融合作业帮多年的AI算法沉淀和教育数据积累，是一款专为教育领域量身打造的覆盖多学科、多学段、多场景的教育大模型。它不仅具备多学科知识解答能力，更能协助不同学段学生进行创意写作，同时还能够实现自主提问、陪伴式辅导等，助力学生个性化学习与成长。

作业帮银河大模型的综合实力也在测评榜单中得到验证。根据作业帮公布的、银河大模型在C-Eval的成绩显示，银河大模型以平均分73.7分位居C-Eval榜首。C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集，是全球最具影响力的中文评测集之一，该测评包含13948道多项选择题，涵盖52个不同学科和四个难度级别。

作业帮发布的C-Eval成绩排名。受访者供图

同时，在由MBZUAI、上海交通大学、微软亚洲研究院共同推出的CMMLU榜单中，银河大模型在Five-shot和Zero-shot测试中分别以74.03分及73.85分占据榜首，CMMLU共涵盖了67个主题，涉及自然科学、社会科学、工程、人文以及常识等，测试结果印证了银河大模型在知识储备和语言理解方面的实力。

英文表现方面，由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学等高校联合打造的全球性大规模多任务语言理解评测基准MMLU，在集合了科学、工程、数学、人文、社会科学等领域的57个科目的评测中，作业帮银河大模型平均分达71.88分，体现了其在英文领域的专业能力和问题解决能力。