【环球网科技综合报道】3月6日消息,据外媒报道,微软于近日推出了多模式大型语言模型Kosmos-1。
据悉,Kosmos-1可以处理文本、图像、音频和
视频等内容。比如,该模型可分析图像的内容,进行文本识别以及理解自然语言指令等。
据微软方面介绍,用于训练Kosmos-1的数据源自网络。研发人员为Kosmos-1加入图像内容理解能力之后,将有助于Kosmos-1识别文字以外的图像内容,甚至进一步识别动态
视频内容。