如今人们上网交流除了使用文字外,也常使用各种图像。像Facebook这种月活跃用户超过20亿的社交平台,每天都有大量的图片和米姆现象出现,如何才能避免屏幕前的用户所看到或发出的各种表情包、图片或视频中含不良言论而违反网络内容政策呢?Facebook已经创建并部署了一个名为Rosetta的AI机器学习系统来解决这个问题。
Facebook自主研发技术利用光学字符识别系统来定期处理大量内容,在Facebook的社交网络上,Rosetta每天实时地从超过10亿张图像和视频帧中提取文本,并能识别多种语言。
在一篇博客文章中,Facebook介绍了Rosetta的工作原理:首先检测图像中可能包含文本的矩形区域,然后使用卷积神经网络来识别和转录其中的文本内容,即便是像阿拉伯语和印地语这样的非英语单词或非拉丁字母的文本也能被识别出来。为了更好地实现识别功能,Facebook使用了含人类-机器混合注释的公共图像对Rosetta进行培训。
Facebook和Instagram的多个团队已经在使用Rosetta来处理大量的内容和管理平台的内容审核,该公司计划继续增加Rosetta能读懂的语言种类,使其更有效地从视频帧中提取文本。
© 版权声明
文章版权归作者所有,未经允许请勿转载。