作为一名专注于多模态技术的研究者,我深知在2023年中国模式识别与计算机视觉大会(PRCV)上,学术界和产业界对于智能文档处理技术的关注。随着信息渠道的多样化发展,异构化、跨模态数据层出不穷,而文档图像作为文字与图片交汇点,其多模态属性使其成为一个值得探索的领域。在“视言碰撞:语言模型与视觉生态协同论坛”上,我分享了关于文档图像前沿技术热点话题。我强调,多模态技术可以充分利用文档图像的视觉和语言属性,并借助语言大模型已取得优异性能和积累,为文档图像处理领域提供新的研究方向。
我提到,我们已对该方向进行了研究,并在数据高效利用及垂直领域识别项目中取得阶段性成果。大模型技术的突破让生成式AI拥有更广泛落地空间,但也给予了不法分子更多机会。因此,我们开发了一套智能文档处理技术,覆盖从图像预处理到AI安全等全生命周期。我们的图像篡改检测技术不仅适用于自然场景,还能应用于资质证书、合同、银行保单等截图鉴别。
针对图片生成式造假,我们基于空域与频域关系建模,利用度特征来分辨真实图片和生成式图片之间的细微差异,以判断是否由AI生成。我认为,提升检测系统鲁棒性和泛化能力是学术界与企业界需要合作推进的一个重要方向。为了实现这一目标,我们已经联合中国信通院发起《文本图像篡改检测系统技术规范》标准制定,并致力于推动AI技术在图像安全领域更广泛应用,为用户提供更加安全、高效的工作环境。