通义,由通义千问更名而来,是阿里云推出的语言模型,于2023年9月13日正式向公众开放。
属于(AI Generated Content,AIGC)领域,是一个MaaS(模型即服务)的底座。
为多模态大模型(Multimodal Models)。
通义意为“通情,达义”,具备全副AI能力,致力于成为人们的工作、学习、生活助手。
功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创作能力,能够续写小说,编写邮件等。
2023年4月7日,通义的前身通义千问开始邀请测试 ,4月11日,通义千问在2023阿里云峰会上揭晓。
4月18日,钉钉正式接通通义千问大模型。
9月13日,通义千问大模型通过首批备案,正式向公众开放。
通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。
12月1日,阿里云开源通义千问720亿参数模型。
12月22日,阿里云通义千问成为首个“大模型标准符合性评测”中首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。
]2024年4月7日,阿里云通义千问开源320亿参数模型Qwen1.5-32B,可最大限度兼顾性能、效率和内存占用的平衡。
5月,通义千问2.5大模型发布并更名。
5月9日,阿里云正式发布了通义千问2.5版本。
2024年8月19日,通义千问宣布启用新域名:tongyi.ai。
2025年3月6日,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。
3月27日,通义千问宣布发布Qwen2.5-Omni
主要功能
通义千问是阿里巴巴达摩院自主研发的超大规模语言模型。
诞生源于阿里巴巴对人工智能技术的探索和实践,旨在为各行各业提供优质的自然语言处理服务,并且能够应对各种复杂的任务挑战。
截至2024年5月,通义千问提供通义灵码(编码助手)、通义智文(阅读助手)、通义听悟(工作学习)、通义星尘(个性化角色创作平台)、通义点金(投研助手)、通义晓蜜(智能客服)、通义仁心(健康助手)、通义法睿(法律顾问)8大行业模型。
8大行业模型可以帮助人们写代码、读代码、查BUG、优化代码等;短时间内获取长文本提要和概述,掌握要点;对音频内容转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT提取等功能,并支持标重点、记笔记; 可以解读财报研报,分析金融业事件,自动绘制图表表格,实时市场数据分析等。
系列产品
通义灵码
通义灵码可以辅助程序员写代码、读代码、查BUG、优化代码等。掌握Java、Python、Go、JavaScript、TypeScript、C/C++、C#等200多种编程语言,可帮助程序员提升超10%的开发效率。程序员、编程爱好者、学生无需下载专业软件,使用通义千问就能写代码和学代码。
通义智文
通义智文是阿里云推出的基于通义大模型的免费AI阅读助手,可智能阅读网页、论文、图书和文档,帮助用户在短时间内获取提要和概述,掌握要点,提高阅读效率。同时支持自由提问,可解答用户关于文章的问题或其他不解之处。
通义听悟
生活中,音视频承载了密集的信息内容,但因涉及多模态理解、自然语言处理、搜索等多项复杂技术,存在查找难、回顾难、提炼难问题。通义听悟提供包括转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT提取等功能,并支持标重点、记笔记。
通义听悟也可以通过多语言Query处理、长篇章文本理解、指令演化框架优化及检索增强生成算法,实现对超长音视频的单记录、跨记录、多语言自由问答。
用户不仅可在单一记录页呼唤小悟,对最高6小时、6G大小的音视频提问任何相关话题,可直接要求小悟整理金句、梳理结论、写会议纪要;更可在首页针对用户所有记录提问,支持一次性扫描理解上百条音视频内容;也可对英文视频用中文提问,将直接给出中文回答。
通义星尘
通义星尘是一款个性化角色创作平台,其基于大规模高质量个性化对话数据,采用分阶段的个性化训练策略,使得模型在保持通用能力的基础上,延伸出拟人、具有情感、鲜明语言风格的能力,在角色的个性、风格遵循上具有更强的指令遵循能力。可以深度定义人设、和用户建立起深度连接、支持多种形式的对话互动,并且可以基于具体的事件设定展开对话。可应用于情感陪伴、游戏NPC、IP复刻等场景。
通义点金可以解读财报研报,分析金融业事件,自动绘制图表表格,实时市场数据分析。 智能投研机器人可以分析事件,绘制表格,查询资讯,研究财报;文档分析机器人可以总结要点,扩展资讯,文档问答,片段分析,财报、研报公告;金融信息搜索引擎可以搜数据、查研报、找公告等。
通义晓蜜提供全渠道联络中心与AI应用的整体方案,助力企业服务向信息化、智能化、多模态转型。
其中,对话机器人支持多种形态的知识,比如文档网页、高频问题、复杂多轮、表格、数据库等;智能坐席助理全方位陪伴人工坐席,助力客服、销售业绩提升,提供产品介绍、通话过程剖析、案例沉淀、通话技巧提升等功能;多模态智能联络中心则为全渠道多模态的企业智能服务平台,支持电话、IM、视频统一接入、统一调度服务数据和客户体验完整、一致,也为客户给提供面向下一代的多模态服务体验,告别单调的文字、语音交流。
通义仁心是个人健康助手,提供问报告、问症状、问用药、问疾病功能。
通义法睿
通义法睿能够回答用户提出的法律问题,具有推理法律适用、 推送裁判类案、辅助案情分析、生成法律文书、检索法律知识等功能。旨在帮助法律专业人士提高生产力水平, 同时也可为非专业人士提供便捷的法律咨询服务。
提供针对用户的法律问题,以法律规定作为大前提,情形匹配作为小前提,按照逻辑三段论推理生成答案;根据用户描述的文本信息或上传的材料信息,结合专业模版定制化生成起诉状、答辩状等文书;利用大模型推理优势,通过语意理解提高用户搜索准确性和相关性,从法规和判例库找准信息。
长文本功能
通义千问向所有人免费开放1000万字的长文档处理功能。通过调优算法或者通过算力甚至使用RAG(检索增强生成技术,是对大型语言模型输出进行优化的方法,使其能够在生成响应之前引用训练数据来源之外的知识库),都可以打造出该体验。
模型框架
通义千问模型基于Transformer框架,采用了开源大语言模型训练方法LLaMA。
模型修改
开发团队对架构主要做了以下修改:
-
Embedding and output projection:通义千问模型选择了不受限的嵌入方法,而不是捆绑输入嵌入和输出投影的权重,此项改动是为了以内存成本为代价获得更好的性能。
-
位置编码(Positional embedding):模型采用RoPE(Rotary Positional Embedding)为位置编码,并选择使用FP32精确度而不是BF16或FP16的逆频率矩阵,以此提高模型的性能表现和精确度。
-
偏差(Bias):开发团队在模型中的大多数层(layer)种移除了偏差,而是在QKV注意力层中添加了偏差,以增强模型的外推能力。
-
Pre-Norm & RMSNorm:模型采用预规范化方法(pre-normalization)提高训练稳定性,并将传统层归一化方法替换为RMSNorm。
-
激活函数(Activation function):模型采用SwiGLU激活函数,缩小了前馈网络(feed-forward network ,FFN)的维度,由原来隐藏大小的4倍变成隐藏大小的8/3倍。
Transformer模型的注意力机制在上下文长度上有很大的限制,即随着上下文长度的增加,二层复杂度计算会使模型的计算成本和内存成倍增加。千问模型利用了简单的免训练技术,在推理过程中扩展上下文长度,这些技术包括:
-
NTK感知插值:这项技术以免训练的方式调整尺度以防止高频信息丢失,为了进一步提高性能。开发团队还实现了一个名为动态NTK感知插值的简单扩展动态NTK感知插值,它按块动态改变规模,避免严重的性能下降。这些技术有效地扩展了Transformer模型的上下文长度,而不会影响其计算效率或准确性。
-
LogN-Scaling:这项技术通过一个取决于上下文长度与训练长度之比的因子重新调整查询和值的点积,确保注意力值的熵随着上下文长度的增长保持稳定。
-
Window attention:这项技术将注意力限制在一个上下文窗口内,防止模型关注到太远的内容。基于千问模型的长上下文建模能力在不同层之间有所不同,与较高层相比,较低层对上下文长度扩展更加敏感,开发团队为每一层分配不同的窗口大小:较低的层使用较短的窗口,而较高的层使用较长的窗口。
千问模型的训练遵循自回归语言建模的标准方法,即模型通过前面Token的内容预测下一个Token,其他训练细节包括:模型训练的最大长度为2048,为了构建批次数据,开发团队对文本内容进行随机打乱及合并,再将其截断到指定长度;模型在注意力模块(attention modules)采用Flash Attention技术,以提高训练速度;模型在优化器(optimizer)方面采用标准优化器AdamW,设置超参数β1、β2和ϵ为别为0.9、0.95和10−8;模型采用余弦学习率计划,为每个模型大小指定一个指定的峰值学习率,学习率衰减至最小学习率峰值学习率的10%;采用BFloat16进行混合精度训练以保证训练稳定性。