查看原文
其他

通义听悟整了个大活:视频自动提取PPT,长视频一键转文字

杨文 AI先锋官 2023-11-05

作者杨文

编辑六耳

来源AI先锋官



  先锋官有话说:

测评应用:通义听悟

推荐指数:★★★★☆

测评意见:通义听悟作为一款办公神器,极大地提高了打工人的工作效率。用户只需上传或录制音频就可以迅速转写文字,还能一键提取PPT,不过,通义听悟还有进步的空间,未来需在转写和翻译的准确性上下功夫。此外,虽然通义听悟可以提取视频中的PPT,但是只能以截图的形式,用户无法任意复制、编辑PPT中的内容。

近日,阿里云通义听悟又上线了三大新功能,分别为:


1. 视频自动提取PPT,首创国内音视频AI领域,解决培训、网课“求PPT难”问题。

2. 浏览器插件支持Chrome和Edge浏览器全程录制,实时生成双语字幕。

3.钉钉和微信小程序移动端支持一键转写手机和聊天记录的音视频文件。


废话不多说,今天咱们就来瞅瞅通义听悟的“本事”。


Round 1:音视频转写文字


用户只需录制或上传一段音视频,通义听悟就能迅速转写成文字。


目前,通义听悟只支持中文、英语、粤语、中英文自由说四种语言,最多可同时转写 50 个文件。


值得注意的是,通义听悟支持多种格式的本地音视频文件转文字,其中视频支持mp4 格式,单个不超过 4G;音频支持mp3、wav、wma、aac、ogg、amr、flac 格式,单个不超过 500M。


第一步:注册登录通义听悟后,点击首页上传音视频。


 

第二步:选择上传本地音视频文件。点击或拖拽上传符合格式要求的文件,并选择转写语言和发言人数,通义听悟将自动区分不同发言人。跨国沟通场景下,还可以同步开启翻译功能。



小编上传了一段马斯克接受采访的视频,并设置了转写语言为英语,翻译成中文,发言人数是2人对话。



第三步:点击开始转写。转写进度将会展示在列表中,你可以查看进度、停止转写。转写成功后,结果将会自动出现在“我的记录”中。


 

用户点击即可查看转写结果,以及通义听悟提炼的关键词、全文概要、章节速览以及发言总结等内容。


 

用户也可以点击上方的“批量摘取”图标,选择“摘取所有原文内容”或者“摘取标记内容”,通义听悟转写的内容就可以呈现在右侧的空白栏处。用户还可以自由编辑,插入图片、表格等。



对于这段8分钟的采访视频,通义听悟给出的章节速览分别是:

1.How to give a good life

2.How to find a place in the knowledge landscape

3.How to get ahead in the business world


 

通义听悟这重点抓的还是挺到位的,但转成的文字以及译文时不时会跳出bug。


首先,通义听悟有时会胡乱断句。例如,“There is hands-on sort of finding a company or a placeor set of people that do the thing you're passionate about joining them as early aspossible. ”这本是完整的句子,但通义听悟断成了两句话。



这倒也无可厚非,毕竟我们谈话时会停下思考,会停顿,AI反应不过来也是正常的。


其次,通义听悟有时会“听错”某些单词,这将加大用户的理解难度。例如,马斯克说:“try to have a positive net contribution”(尽量对社会有正面的净贡献),而通义听悟把“positive”听成了“puzzle of ”,因此这句话就成了“try to have a puzzle of net contribution to society”(试着有一个对社会净贡献的谜题)?


 

此外,翻译还比较生硬。譬如,马斯克表示:“Try to be useful. You do things that are useful to your fellow human beings, to the world.Its very hard to be useful. Very hard.”


他的本意是让年轻人“尽量做个有用的人,你做的事情对人类、对世界有用。成为有用的人非常难,很难。”但通义听悟翻译成“很难有用,非常努力”,这就曲解了马斯克的本意。


 

虽然官方表示通义听悟目前只“懂”粤语这一种方言,但小编偏要搞事情,故意甩给它一段山东话,看看通义听悟能否Hold得住。



还别说,通义听悟真“听懂”了,除了“土”这个字没搞明白外,其他都转写的像模像样。



Round 2:视频提取PPT


该功能通过引入视觉AI算法,自动将PPT讲解视频分割为演示文稿,并对每页PPT进行要点总结,形成一份图文并茂的大纲,解决培训、网课学习等场景“求PPT难”的问题。


用法也很简单。视频转写成功后,进入转写页面,在“章节速览”旁边出现“提取PPT”栏目,用户可以点击“复制”按钮,粘贴到左边空白处。



总体来说,通义听悟作为一款办公神器,极大地提高了打工人的工作效率。用户只需上传或录制一段音频就可以迅速转写文字,而且还能一键提取PPT,小编再也不用听着会议疯狂敲键盘了。不过,通义听悟还有进步的空间,未来需在转写和翻译的准确性上下功夫。此外,虽然通义听悟可以提取视频中的PPT,但是只能以截图的形式,用户无法任意复制、编辑PPT中的内容。


 .END.

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。



往期文章回顾


继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存