近日,甲骨文信息处理教育部重点实验室2023级硕士生丁增茂以共同第一作者身份撰写的论文“OracleFusion: Assisting the Decipherment of Oracle Bone Script with Structurally Constrained Semantic Typography”被International Conference on Computer Vision 会议(ICCV)录用。
该论文提出了一种新颖的两阶段语义排版框架OracleFusion。在第一阶段,该方法利用具有增强空间感知推理(SAR)的多模态大型语言模型(MLLM)来分析甲骨文字符的字形结构,并对关键部件进行视觉定位。在第二阶段,引入甲骨文结构矢量融合(SOVF),结合字形结构约束和字形维持约束,以确保准确生成语义丰富的矢量字体。这种方法保持了字形结构的客观完整性,提供了视觉增强的表示,以帮助专家破译甲骨文。大量的定性和定量实验表明,OracleFusion在语义、视觉吸引力和字形维护方面均超越了最先进的基线模型,显著提升了可读性和美观度。此外,OracleFusion还能为未见的甲骨文字符提供专家级的洞察,使其成为推进甲骨文释读的有效工具。
据悉,计算机视觉国际大会 (IEEE International Conference on Computer Vision,简称ICCV) 是计算机视觉领域的顶级会议,中国计算机学会(CCF)推荐的A类国际学术会议,每两年举办一次,与CVPR、ECCV并称为计算机视觉领域的三大顶级会议,具有极高的学术影响力。
(责任编辑 孙晓峰)