基于one-class SVM比例标签学习的商业银行重要基金客户识别研究

摘要：现实中,由于隐私保护的限制，使得对重要客户的识别十分困难。具体地，我们很难获取商业银行重要基金客户的具体标签信息，这给建立相关的预测模型带来了极大的挑战。然而，通过特定的客户群估计重要基金客户所占比例是可行的。因此，本文提出了一种基于one-class SVM比例标签学习的商业银行重要基金客户挖掘新方法。该方法的特点在于仅仅使用样本标签比例信息（label proportions information）去构建分类模型，进而有效地识别商业银行中的重要基金客户。同时，大量的实验结果表明了该方法的有效性，这对于有效解决隐私保护下的重要基金客户识别问题提供了一种新途径，具有明显的现实意义及实践价值。

关键词：比例标签学习模式识别机器学习重要客户识别
1引言
客户分类是企业了解客户的重要手段，它基于企业对客户具有的价值的认知，将客户划分为不同的重要等级，并以此制定客户的差别化服务政策。通过有效的客户分类可以使企业将有限的资源不均等地分配到具有不同价值的客户身上，从而更有效的利用生产资源，优化客户资产。传统机器学习中的分类问题可获取的样本中每个样本的标签是可知的，通过利用大量样本已知的标签属性学习得到一个分类器，进而对未知的样本进行预测。但现实中，在大数据环境下人工标注样本标签成本太高，或者由于隐私保护等问题的限制，有时可得到的数据样本不能获取每个样本的标签，而仅仅已知所有样本中某类样本所占比例，使得对重要客户的识别十分困难。例如某商业银行基金客户数据中未标记具体某个客户是否为重要客户，但通常情况下基金客户管理者根据以往的管理经验可以估计出所有的基金客户中重要客户所占的比例，那如何利用仅有的这个比例去挖掘和识别基金客户中重要客户？在机器学习中，这类问题可归类为比例标签学习问题，即利用估计得到的比例信息和有关机器学习算法去挖掘和识别基金客户中重要客户。我们对这类问题的研究具有非常重要的现实意义。[基金项目：国家自然科学基金项目（71331005；71110107026；91546201）
作者简介：石勇，中国科学院大学经济与管理学院，中国科学院大数据挖掘与知识管理重点实验室主任，中国科学院虚拟经济与数据科学研究中心，博士生导师，博士；马福海，中国科学院大学经济与管理学院，中国科学院虚拟经济与数据科学研究中心，硕士研究生]
作者：马福海石勇