语言模型与视觉生态如何协同？合合信息瞄准“多模态”

4新闻产业

·直接扫“纯净码”即可付费离场
·上海：2026年建成双万兆城市
·语言模型与视觉生态如何协同？合合信息瞄准“多模态”

语言模型与视觉生态如何协同？合合信息瞄准“多模态”

IT时报记者林斐
　　随着信息渠道的多样化发展，异构化、跨模态的数据层出不穷。文档图像是文字与图片领域的交集点，天然具备多模态属性。在2023年中国模式识别与计算机视觉大会（PRCV）的“视言碰撞：语言模型与视觉生态协同论坛”上，合合信息图像算法研发总监郭丰俊表示，多模态技术可充分利用文档图像的视觉和语言属性，并借助语言大模型已取得的优异性能和技术积累，正逐渐成为文档图像处理领域的热门研究方向。
　　“从目前评测的情况来看，已知的多模态预训练系统在文档图像识别准确率上还逊于最先进的OCR识别系统。”郭丰俊提到，合合信息-华南理工大学文档图像分析识别与理解联合实验室对该方向展开了研究，并在数据高效利用及垂直领域识别项目中取得了阶段性成果。
　　大模型技术的突破让生成式AI拥有了更广泛的落地空间，也让图片伪造的门槛变得更低，给了不法分子可乘之机。大会现场，郭丰俊对合合信息在AI图像安全方面的工作进行了分享。据介绍，合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期，图像篡改检测技术不仅能够应用于自然场景，还能应用于资质证书、文档合同、银行保单等截图的鉴别上。针对图片生成式造假，合合信息基于空域与频域关系建模，利用多维度特征来分辨真实图片和生成式图片的细微差异，判断图片是否由AI生成。
　　今年8月，合合信息获得了文档分析与识别国际会议（ICDAR 2023）“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持低误检率的同时，准确识别并定位图片中文本的篡改行为，从而有效保障文本信息的真实性。相关方案已在银行、证券、保险等多个场景中应用。
　　“目前，图像篡改检测技术的应用也面临着篡改手段不断变化、场景复杂等系列挑战，不断提升检测系统的鲁棒性和泛化能力，是学术界与企业界需要深入合作的重要方向。”郭丰俊表示，合合信息已联合中国信通院，发起了《文本图像篡改检测系统技术规范》标准制定，希望持续推动AI技术在图像安全领域的广泛应用，带给用户更加安全、高效的工作和生活体验。