基于卷积变换神经网络从输入的数值型表示的语法树序列中提取相关语义特征

为了能够获得项目源码的语义特征，同时减少跨项目缺陷预测中的源项目和目标项目之间的数据分布差异，本论文提出了基于深度学习的卷积变换神经网络模型，该算法的整体流程如图1所示。

该算法首先将源文件源码通过Python的Java Lang模块转换为语法树序列形式，然后使用word2vec算法^[12]获取语法树节点对应的数值型向量，最后基于卷积变换神经网络从输入的数值型表示的语法树序列中提取相关语义特征。为了能够减少源项目和目标项目之间由于数据分布差异导致源项目和目标项目之间的可迁移语义缺失问题，CTNN模型在训练过程中不仅要使得模型的预测损失最小，同时也需要模型提取到源项目和目标项目之间的可迁移语义的数据分布差异最小化，最后基于提取的深度学习语义特征构建跨项目缺陷预测模型，并通过实验验证该模型的性能。