▲图源Huggingface
据悉,系列模型采用了150万个Token,并以256块H100 GPU花3天完成模型训练而成。MosaicML本次发布了3个版本模型,包括MPT-7B-8k、MPT-7B-8k-Instruct和MPT-7B-8k-Chat。
其中,第一个版本MPT-7B-8k、是以Transformer解码器为基础,并以FlashAttention和FasterTransformer机制来加速训练与推论,能一次处理8000字文本,MosaicML公司表示,该模型开源、允许商用。
第二个版本MPT-7B-8k-Instruct是以第一个版本MPT-7B-8k微调而成,MosaicML公司表示,MPT-7B-8k-Instruct模型可处理长篇指令,特别注重于生成“摘要和问答”,该模型一样开源且可商用。
第三个版本MPT-7B-8k-Chat则是
机器人对话式的AI模型,MosaicML公司宣称,该模型额外多用了15亿个聊天数据Token,在第一版模型MPT-7B-8k之上继续训练而成,该模型开源,但不允许商用。
IT之家此前报道,MosaicML公司也推出了一款号称训练成本仅为竞品零头的MPT-30B开源模型,该公司日前已将所有开源模型发布于Huggingface平台,感兴趣的小伙伴们可以前往进行相关了解,还可以在本地硬件上使用自己的数据,在下载后,对模型进行各种微调。