AI手写体文本行生成
搜索文档
ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源
机器之心· 2025-10-20 09:15
技术突破与核心创新 - 提出名为DiffBrush的全新扩散模型,首次将扩散模型应用于文本行级别的手写体生成任务[2][7] - 模型能够生成风格逼真、内容准确、排版自然的手写体文本行,支持英文、中文等多语言场景[2][7] - 通过内容解耦的风格模块,将风格学习和内容学习分离,避免两者相互干扰[11][12] - 采用“列掩码+行掩码”的内容解耦策略,分别从垂直和水平方向对字符内容进行掩蔽,有效保留书写风格[16][17] - 构建多尺度内容判别模块,包含行级和词级判别器,兼顾全局字符顺序与局部字符结构的准确性[19] 技术方案细节 - 整体框架包括内容解耦的风格模块、风格-内容融合模块、条件扩散生成器和多尺度内容判别模块[13] - 风格编码器采用CNN-Transformer结构,通过列向与行向掩码增强垂直和水平方向的风格学习[13][17] - 多尺度内容判别模块中,行级判别器使用3D-CNN确保字符顺序与词间空白准确,词级判别器通过预训练CNN-LSTM模块确保单词内容准确性[19] - 风格-内容融合模块使用6层Transformer Decoder组成的Blender,先进行垂直风格融合,再进行水平风格融合[20] 性能评估结果 - 在IAM英文数据集上,DiffBrush的HWD指标为1.41,DCER为8.59,DWER为28.60,FID为8.69,IS为1.85,均优于对比方法[23] - 在CVL数据集上,DiffBrush的HWD指标为1.06,DCER为20.92,DWER为36.38,FID为7.57,IS为1.70,表现最佳[23] - 与One-DM方法相比,在中文数据集上字符错误率显著降低,DCER从81.99降至0.73,DWER从82.80降至96.65[23] - 消融实验表明,完整模型(Base+§style+Dline+Dword)的HWD为1.41,DCER为8.59,DWER为28.60,性能最优[29] 应用前景 - 技术可用于个性化字体定制,轻松创造属于用户个人的字体库[4] - 在字体设计、笔迹验证等领域具有广阔应用前景[4] - 未来在历史笔迹复原、鲁棒文本行识别器训练等方面具有应用潜力[35]