查看原文
其他

VAisual:全球视觉数据集第一平台,收录具有许可的人像数据 | 东西「文娱科技」

东西文娱 2023-10-23

The following article is from 共同虚拟 Author 共同虚拟


东西「文娱科技」
上期PlusMusic.ai(见文末)
关注文化娱乐科技的产品化与场景应用
欢迎交流,联系请见文末

,好莱坞的演员工会与制片公司正闹得不可开胶,而争议点就在于演员希望确保电影公司在使用演员的数字复制品之前能争取演员的“知情同意”,并为演员提供公平合理的报酬。


演员们担心如果放任电影公司去使用自身的肖像权,就会让未来像《黑镜》故事那样,被影视公司恶意使用。


目前,已经有一家名为VAisual的初创公司计划会采取一些措施,能够为大公司提供肖像与面部数据库,并通过AI生成的人体模型来解决上述这些有关道德与法律的问题。


vaisual 号称是世界上最大的视觉数据集公司。尤为关键的是,这些数据提供者是完全允许被该公司使用的,也就是说是完全“合法且干净”的。



VAisual的战略布局
形成“合法干净”的视觉数据集


VAisual创始人兼首席执行官Michael Osterrieder曾是一位摄影师,还拥有超过20年知识产权相关的工作经验。他与曾在授权存储图库媒体长期工作的Nicolas Menijes于2020年共同成立了VAisual,而后东欧第一家互联网摄影机构的创始人Mark Milstein与匈牙利经理人Istvan Novak也加入其中。


VAisual目前的主要业务为3D 图形、摄影和摄像方面等视觉媒体的AI生成的全流程制作,包括数据集的生成和交付以及最终优化,并为商业广告行业以及机器学习行业提供生成的内容。它的愿景是引领内容创作的变革,打造一个无限创造力的平台。



VAisual的主要策略就是提供完全符合道德且来源合法干净的数据集。该公司于2022年推出Dataset Shop的数据集市场网站,用于为AI提供训练素材。截至目前,该网站上收录了超过 全球50万张具有许可的现实人类图像,并且涵盖了大多数人类表情,包括各种角度和变化。


而Dataset Shop最重要的是其所有受试者都签署了一份生物识别模型授权书,该授权书提供了有关 GDPR(欧盟)或 BIPA(美国)法律下个人数据使用的法律明确性。目前,Dataset Shop已经成为世界上最大的视觉数据集网站。



一些AIGC内容公司例如Stability AI等目前正在面对法律上的问题,Osterrieder表示:“我们开始看到一些司法管辖区出现了数据集披露要求,这意味着任何基于抓取数据进行训练的AI模型都将面临被屏蔽的风险。”


对于VAisual来说,不断提供合法干净的数据集来满足AI训练的要求,同时也为原始内容创作者提供报酬,是其确保构建AI技术的公司以道德和负责任的方式开展工作的重要一步。


Osterrieder认为,”在版权所有者同意的情况下,提供包含优质视觉内容的定制数据集。这对于AI行业成熟为一个真正商业和可行的行业至关重要。”


VAisual主要通过使用360度摄影机旋转拍摄每个受试者的所有基本表情,来创建全身表情和视频的数据集。所有静态图像数据集的图像均为42MP像素,而所有视频数据集的视频均为4k120 帧分辨率。


VAisual已经与其他一些初创公司达成合作伙伴关系,为其提供可供AI训练的数据集。包括文字转图像AI公司Bria.ai以及生物识别公司Tech5。


“我们的新技术将使所有人能够表达他们的愿景和想法。”Osterrieder表示,“它将把商业内容创作提升到一个比现在更有活力的新领域,并将开辟我们以前不敢梦想的新沟通方式。”



  

丰富数据资源

VAisual不断拓宽赛道多样性



VAisual早期的人像数据主要由欧美族裔人群提供,但并没有顾及到少数族裔群体。Osterrieder也表示,“过去,当算法以不准确或冒犯性的方式描绘不同种族的人时,我们已经看到了巨大的争议。规避这个问题的最佳方法是确保训练数据包含不同的人群。”


而在今年,VAisual分别于专注于中土和北非图像的图库网站The Middle Frame,以及越南图库公司Dragonimages合作,用来生成独属于亚非场景的图像。该数据集于今年7月推出,包括2万张图像。VAisual以此合作来保证对于少数族裔群体的尊重。



VAisual也在不断补充自己的数据资源,而其中不仅包括人像。8月2日,VAisual与在线商业图像存储公司Wirestock.io达成一项内容协议,将其收集的超过 900 万个资产打包成用于 AI 训练的数据集,包括图像、插画以及视频等。


Michael Osterrieder表示,这笔交易是制作高度具体的数据集以满足AI开发人员道德和负责任的需求的重要一步。


“AI模型 100% 依赖于高质量数据。数据越多越好。这笔交易确保我们能够编译大型图像数据集,以满足客户非常精确的目的。例如,机场需要行李数据集,医院需要成人携带婴儿的图像,或者工作场所的丙烷气罐用于安全监控AI。”


除了人像内容,在今年年初VAisual于自然和旅游图像提供商Danita Delimont达成协议,将利用其80万张自然风光摄影作品为AI进行训练。


而最近VAisual最新的动向不止在于视觉内容,也将目光转移向了音频上。就在8月8日,VAisual与音乐版权提供商Rightsify达成协作,将其收集的数百万首歌曲打包成用于AI训练的数据集。Osterrieder表示,这笔交易是制作高度具体的数据集以满足AI开发人员想要创建音乐类AIGC模型的需求的重要一步。



前期东西「文娱科技」


Hello!

我们在为更加闭环、更加高效的服务模式做准备

欢迎加入限定白名单

与我们一起探索







您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存