微软让人工智慧看图说故事靠一张照片就能写出惊悚故事

行情2021-02-25 17:33:44

最佳答案

微软释出了Pix2story，让使用者只要指定图片，人工智慧就能看图说故事。微软提到，他们试图教导人工智慧创意，试图将人工智慧发展至另一个层次，而在Pix2story中，他们让人工智慧发挥创意结合特定类型产生故事。

微软提到，说故事是人的天性之一，在写作被发明之前，人们就透过讲故事分享价值观，而编写故事并非一件简单的事，特别如果是光靠看图片，并以各类艺术类型（Genre）写出故事。自然语言处理技术发展至今，是作为推动电脑与人类互动革新的领域，微软试着让自然语言处理能以更自然和更聚焦的方式叙事。

微软在Azure上开发了Pix2Story，这是一个应用类神经网路的网页应用程式，使用者只要选择图片，Pix2Story就会发挥创意为该张照片编写出一小段冒险、科幻和惊悚类型风格的故事。而该系统的架构设计，首先要从上传的照片取得图说，并将这些图说输入至递迴神经网路（Recurrent Neural Network）模型，根据图片以及文体产生故事。

产生输入照片图说的方法，微软以MS COCO图说资料集的30万张图片，训练了视觉语意嵌入模型，对上传的图像进行分析和产生的图说。视觉语义嵌入负责将输入的图片转换成图说，这部分包含两个模型，第一个是卷积神经网路，用于萃取称为注释向量的特徵向量。第二个模型则是长期短期记忆（Long Short-Term Memory）网路，透过上下文向量、先前的隐藏状态以及先前产生的单词，一次产生一个单词。

另外，还要以不同的艺术类型产生故事，为此微软以2千部小说，花费两个星期训练编码解码（Encoder-Decoder）模型。微软将小说的段落映射到Skip-thought向量（Vector），而这是一种可以生成用于不同任务的通用型语句表达的模型。微软提到，在这个专案中，他们训练编码解码模型，并使用书本中文字的连续性，来重建编码段落周围的句子。编码器会将句子映射到向量中，而解码器接着对该向量进行调整，为来源句子进行类型翻译。

由于视觉语意嵌入模型输入给Skip-thought模型短句子，则输出也会是短句子，因此当结果想要输出是更加叙事的段落，则需要对输入做风格转换，这意味要使用Skip-thought向量表达，将输入设置加上成想要输出包含的特徵，这个操作的公式为Skip-thought的输入等于，图片编码图说减去平均所有图说编码，再加上相似长度的编码段落以及预期输出的特徵。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇：Sonos通过无线扬声器技术起诉谷歌

下一篇：监控与指标分析工具Grafana新增原生云端日誌平台Loki

微软让人工智慧看图说故事靠一张照片就能写出惊悚故事

热门文章

栏目推荐

微软让人工智慧看图说故事靠一张照片就能写出惊悚故事

猜你喜欢

最新文章

热门文章

栏目推荐