不合AI模型应该若何选择设备?_显存_模子
通过理解这些术语和它们对硬件配置的影响,企业可以更准确地选择适宜自身需求的AI模型和硬件配置,从而优化资源利用和提升业务表现。
大模型推理显存需求在选择用于大模型推理的硬件配置时,显存需求是一个关键成分。显存的大小直接影响模型能否顺利加载和运行。精度和参数量是影响显存需求的主要成分,常用模型参数量-显存占用估计统计如下表:
精度&显存模型占用量32bit(FP32)-单精度
16bit(FP16/BF16)-半精度
8bit(int8)
4bit(int4)
参数量
1
4byte
2byte
1byte
0.5byte
1B
4GB
2GB
1GB
0.5GB
2B
8GB
4GB
2GB
1GB
7B
28GB
14GB
7GB
3.5GB
13B
52GB
26GB
13GB
6.5GB
32B
128GB
64GB
32GB
16GB
70B
280GB
140GB
70GB
35GB
Hugging Face显存估算工具为了更准确地估算大模型的显存需求,可以利用Hugging Face供应的显存估算工具。该工具可以帮助您根据模型参数量和精度类型估算所需的显存大小。
访问链接:https://huggingface.co/spaces/hf-accelerate/model-memory-usage
Hugging Face显存估算工具(英文,且须要外网访问)。
其余,正睿官网也供应AI客服在线体验,截至目前,此页面为7B的单精度模型供您参考。
正睿AI客服在线体验 (https://zrway.com/AI/chat/)
推理显存演习所需的显存是模型参数所占显存的1倍(1x 为模型)。例如,利用单浮点精度FP32演习一个1B模型大约须要4GB(4GB x 1)。对付float32类型:1B(10亿参数)x 4(float的字节数)=4G
演习显存<由于反向传播、Adam优化和Transformer架构等成分,守旧估计,演习所需的显存是模型参数所占显存的4倍(1x 为模型 、1x 为梯度、1~2x 为优化器)。
注1:利用AdamW优化器,显存需求为2x;利用SGD优化器,显存需求为1x
为了确保演习期间模型收敛,参数类型一样平常不能是int8或int4。常日利用FP32或量化到BF16。
例如,利用单浮点精度FP32演习一个1B模型大约须要16GB(4GB x 4)。
对付float32类型:1B(10亿参数)x 4(float的字节数)+ 14 + 24 = 44=16G对付half/BF16类型参数:1B(10亿参数)x 2(每个BF16参数字节数)x 4 = 8 GB推举产品同时,对付预算有限的用户,正睿还供应AI模型演习的做事,仅需购买AI推理做事器,而无需付出昂贵的演习用的高端配置花销。若有需求请联系客服以获取定制服务。
疑问没办理? 我们帮您!如果您在本文中未能找到办理当前疑问的办法,不用担心——正睿专业技能支持团队随时待命
部分数据来源:模型参数量与显存占用剖析 作者:马鹏森
本文系作者个人观点,不代表本站立场,转载请注明出处!