首页>行情 >内容

微软让人工智慧看图说故事靠一张照片就能写出惊悚故事

行情2021-02-25 17:33:44
最佳答案

微软释出了Pix2story,让使用者只要指定图片,人工智慧就能看图说故事。微软提到,他们试图教导人工智慧创意,试图将人工智慧发展至另一个层次,而在Pix2story中,他们让人工智慧发挥创意结合特定类型产生故事。

微软提到,说故事是人的天性之一,在写作被发明之前,人们就透过讲故事分享价值观,而编写故事并非一件简单的事,特别如果是光靠看图片,并以各类艺术类型(Genre)写出故事。自然语言处理技术发展至今,是作为推动电脑与人类互动革新的领域,微软试着让自然语言处理能以更自然和更聚焦的方式叙事。

微软在Azure上开发了Pix2Story,这是一个应用类神经网路的网页应用程式,使用者只要选择图片,Pix2Story就会发挥创意为该张照片编写出一小段冒险、科幻和惊悚类型风格的故事。而该系统的架构设计,首先要从上传的照片取得图说,并将这些图说输入至递迴神经网路(Recurrent Neural Network)模型,根据图片以及文体产生故事。

产生输入照片图说的方法,微软以MS COCO图说资料集的30万张图片,训练了视觉语意嵌入模型,对上传的图像进行分析和产生的图说。视觉语义嵌入负责将输入的图片转换成图说,这部分包含两个模型,第一个是卷积神经网路,用于萃取称为注释向量的特徵向量。第二个模型则是长期短期记忆(Long Short-Term Memory)网路,透过上下文向量、先前的隐藏状态以及先前产生的单词,一次产生一个单词。

另外,还要以不同的艺术类型产生故事,为此微软以2千部小说,花费两个星期训练编码解码(Encoder-Decoder)模型。微软将小说的段落映射到Skip-thought向量(Vector),而这是一种可以生成用于不同任务的通用型语句表达的模型。微软提到,在这个专案中,他们训练编码解码模型,并使用书本中文字的连续性,来重建编码段落周围的句子。编码器会将句子映射到向量中,而解码器接着对该向量进行调整,为来源句子进行类型翻译。

由于视觉语意嵌入模型输入给Skip-thought模型短句子,则输出也会是短句子,因此当结果想要输出是更加叙事的段落,则需要对输入做风格转换,这意味要使用Skip-thought向量表达,将输入设置加上成想要输出包含的特徵,这个操作的公式为Skip-thought的输入等于,图片编码图说减去平均所有图说编码,再加上相似长度的编码段落以及预期输出的特徵。

免责声明:本文由用户上传,如有侵权请联系删除!