新闻中心

基于机器学习和对金融风险控制贷款违约预测分析的深入研究

2024-03-31
浏览次数:
返回列表
金融风险控制贷款违约预测分析基于机器学习和深度学习 金融风险控制贷款违约预测分析基于机器学习和深度学习 文件目录 一、赛题分析 1. 任务说明 2. 数据属性 3. 评价指标体系 4. 难题分类 5. 基本思路 二、数据可视化分析 1. 统计分析整体数据 2. 数值数据分析 3. 非数值数据分析 4. 多自变量分布及相关分析 三、数据预处理和逻辑回归模型 1. 数据预处理和特征结构 2. 数据信息分箱 3. 特征交叉 4. 选择特点 5. 数据持久化 四、模型选择和预测 1. 模型选择 2. 练习和整合 五、赛果 六、困难与解决 1. 用GPU练习 2. semlock操作中的错误 leak 3. 模型选择 4. 标值特征和类型特征 5. 防止多重共线性 七、获得和体验经验 本次大作业论文选题为“零基础入门金融风险控制-贷款违约预测”。以金融风险控制中的个人贷款为主题,应根据贷款申请人的数据和信息预测分析是否有违约的可能性,并准确预测违约的可能性。以金融风险控制中的个人贷款为主题,应根据借款人的数据信息预测分析是否存在违约的可能性,并准确预测违约概率。 本次赛题的任务是预测和分析客户贷款是否违约。该数据来自一个贷款平台的贷款记录,总信息量超过120w,包括47列自变量信息,其中15列为密名自变量。本次比赛从超过120w的数据中提取80万个作为测试集,20万个作为验证集。此外,本次比赛的所有信息都已经全面脱敏。 在本次比赛中,数据信息共有47个字段名,其中15个被列入密名自变量,其他属于非密名自变量。每个用户标识符与叙述之间的关系如下: ①Id:唯一一个为贷款明细分配的个人信用标志 ②loanAmnt:贷款额度 ③term:贷款期限 ④interestRate:银行贷款利率 ⑤installment:分期还款金额 ⑥grade:借款级别 ⑦subGrade:贷款级别的子级 ⑧employmentTitle:学生就业技术职称 ⑨employmentLength:学生就业期(年) ⑩homeOwnership:贷款人在申请时提供的房屋产权 ⑪annualIncome:年薪 ⑫verificationStatus:认证情况 ⑬issueDate:贷款月份 ⑭purpose:贷款人申请贷款时的贷款用途类型 ⑮postCode:贷款人在贷款申请中提供的邮政代码前三位数字 ⑯regionCode:地区编码 ⑰dti:债务收入比 ⑱delinquency_2years:贷款人过去两年信用系统贷款逾期30天以上的违约事件数 ⑲ficoRangeLow:贷款时,贷款人的fico属于下限范畴 ⑳ficoRangeHigh:贷款时贷款人的fico属于上限范畴 ㉑openAcc:贷款人信用系统中未结算信用额度的总数 ㉒pubRec:抵消公共性记录的总数 ㉓pubRecBankruptcies:清除公布记录的总数 ㉔revolBal:银行信贷资金周转账户余额总额总额 ㉕revolUtil:循环额度利用率,或者与所有可以使用循环信贷的银行信贷额度相比,贷款人使用的信贷额度可以使用 ㉖totalAcc:现阶段贷款人信用系统中信用额度的数量 ㉗initialListStatus:贷款初始目录 ㉘applicationType:说明贷款是个人申请还是与两个共同贷款人联合行动申请 ㉙earliesCreditLine:贷款人开始报告的信用额度开立的第一个月 ㉚title:贷款人提供的贷款名称 ㉛policyCode:公布可用思路_编码=1新产品不公开可用思路_编码=2 评价标准是检验实体模型水平的最终指标值。本次比赛最终提交的结论是,AUC用于评估每个测试样本为1的概率。本次比赛最终提交的结论是,AUC用于评估每个测试样本为1的概率。 AUC(Area Under Curve)也就是说,ROC曲线图下的总面积是二分类问题的经典评价指标系统。它意味着随机选择正样本和负样本,分类算法得出正样本的score高于负样本的概率。 ROC(Receiver Operating Characteristic Curve)曲线是接受者的实际操作特征曲线,它以伪检出率为横坐标轴,以心检出率为纵轴模型拟合的预测力进行评价。二分类模型的阀值很可能设置为高或低,每个阀值的设置都会受到各种影响 FPR 和 TPR ,FPR和TPR将相同实体模型的每个阀值 座标都画在 ROC ROC曲线图成为空间中的一种特殊模型。 AUC值为0~1,越接近1,分类算法性能越好。 图 1:AUC平面图 本赛题规定准确预测贷款申请人是否违约的概率,因此是最常见的分类任务(Classification Problem)。此外,对于每个贷款申请人来说,只有两种情况可以违反合同或不违反合同。因此,这个话题是最常见的二分类问题(Binary Classification Problem)。将验证集分为两类,如下图所示。 图 2:二分类问题平面图 机器学习算法或深度神经网络可以解决这类二分类问题。如果使用机器学习算法,更常见的解决方案是逻辑回归(Logistic Regression),近邻算法KNN(K - Nearest Neighbors),svm算法(Support Vector Machine),朴素贝叶斯(Naive Bayes),梯度提升(Gradient Boosting)等等...如果使用深度神经网络,可以通过建立神经网络准确预测贷款违约。 针对上述方法,在完成逻辑回归模型后,我进行了一系列的尝试,并通过交叉验证和分层(Stacking)模型拟合等方式进行检测和集成。 针对上述方法,在完成逻辑回归模型后,我进行了一系列的尝试,并通过交叉验证和分层(Stacking)模型拟合等方式进行检测和集成。 根据答题思路,这篇大作业论文的选题是经典的二分类问题“贷款违约预测”。本次比赛数据信息量较大,全部数据包括100W行47列。数据量很大,挑战了数据预处理和模型推理。 对问题类型进行初步分析,贷款违约率是本问题的定义。在我看来,危害贷款违约率的因素可以从客户的个人属性和贷款特点两个方面来考虑。个人属性、不同用户的年薪、工作时间和信誉等级将影响用户偿还贷款的能力。贷款特点、银行贷款利率、贷款类型等也会影响贷款的还款率。 根据本赛题的特点和大数据挖掘项目的构思,我们将所有赛题的思路绘制成以下思维导图,在后续工作中以本图为指导。 图 3:流程表 首先,读取测试集数据和验证集数据信息,并将验证集与测试集数据结合起来,有利于数据可视化分析。 图 4:读取测试集合拼 首先查询业务合并数据信息的初始特征维度。 图 5:查询初始特征维度 不难发现,总共有100万条数据信息,其中80万是训练样本,20万是测试报告。总共有47个字段名,每个字段的含义早已从上一部分得到。实际每个字段名如下: 图 6:每个字段名表示 为了更好地进行数据分析,便于数据解决,需要查看基本数据类型。根据df.info()查询所有信息的数据类型。 图 7:基本数据类型列表 可以看出,47个特征中有42个数值特征和5个非数值特征。对于数值型特征,必须进一步分析逻辑回归模型,对于非数值型特征,必须转化为数值型特征,便于实体模型解决。以下是对数据缺乏情况的分析: 图 8:异常值数量 图 9:统计图表的异常值 可以看出,47个特征中有23个特征有异常值。此外,大多数数数据失真都出现在密名特征中。 图 10:异常值零度引流矩阵 通过检查异常值零度引流矩阵,不难发现特征缺乏汇聚,即部分信息缺乏几个特征根。 图 11:唯一值特点 由于特征一般由类型特征和数值特征组成,数值特征可分为连续变量和离散特征。类型特征有时有非标值关联,有时也有标值关联。例如‘grade等级A,B,C等,是简单的分类,还是A优于其他具体的判断。下面,将对特征类别进行判断,分为数值特征和非数值特征。 图 12:数值型特点 图 13:非数值型特征 包括离散变量和连续变量的数值型特征。在这里,我认为对于一个特征,如果它们有大约10个不同的值,它们被称为连续变量,否则它们被称为离散自变量。由此可分为连续变量和任意自变量,如下所示: 图 14:连续型变量 图 15:离散自变量 对于离散自变量,能够分析数据的分布和选值如下: 分析Term的现状: 图 16:分析Term的现状 homeownership现状分析: 图 17:homeownership现状分析 VerificationStatus现状分析: 图 18 :VerificationStatus现状分析 initialliststatus现状分析: 图 19:initialliststatus现状分析 applicationtype现状分析: 图 20:applicationtype现状分析 policyCode现状分析: 图 21:policyCode现状分析 N11现状分析: 图 22 :N11现状分析 N12现状分析: 图 23:N12现状分析 根据对离散变量的分析,不难发现,一部分特点(applicationType,n11、n12)部分选值占99%,其余不到1%。我们将在逻辑回归模型中处理此事的自变量。此外,policycode的特征只包含一个值,因此它不能被认为是一个可以探索和学习的特征,而是一个变量定义,因此在处理特征时可以直接删除。此外,policycode的特征只包含一个值,因此它不能被认为是一个可以探索和学习的特征,而是一个变量定义,因此在处理特征时可以直接删除。 对于连续变量,数据可视化其数据分类,以便更好地获得图像特征。 图 24:八个连续变量的信息布局图 图 25:24个连续变量的信息布局图 图 26:连续变量的信息布局图 根据上述连续变量数据分类分析,不难看出,loanamnt的分布类似于标准正态分布。如果实体模型在练习线性拟合时想要快速收敛,可以正态化,观察正态化后的标值。 图 27:loanAmnt数据的特征 图 28:loanamnt正态化后,标值遍布全国 根据前面的分析,我们可以知道有以下五个非数值数据。 图 29:五个非数值特征 下一步将逐一分析这些特征。Grade特点: 图 30:Grade特点 Subgrade的特点: 图 31:Subgrade的特点 不难发现,Grade和SubGrade都是字符串数组格式的数据信息,同时,通过进一步的数据统计分析,不难发现Subgrade中的第一个字母是Grade中的英文字母,因此在数据预处理中可以选择删除Grade的特征,并标记Subgrade。 Employmentlength特点: 图 32:Employmentlengt特性 针对Employmentlengt特性,发现其中均为期限这类的字符,因此,在数据预处理过程中,years可以直接删除,并将其转换为整数金额,以便于实体模型的解决。 Isssuedate特点: 图 33:IssueDate特征 IssueDate的特征是日期格式,其存储时间为2007年至2018年。 earliescreditline特点: 图 34:CreditLineearlies特征 CreditLineearlies特征都是日期格式的,但与上面IssueDate的日期格式不太一样,而且earliescreditline数据信息具有很高的渗透性,是中总数类型的特点(high cardinality categorical attributes)。因此,数据类型可以在数据预处理过程中统一。因此,数据类型可以在数据预处理过程中统一。 在这一部分,我们将分析每个自变量特征的数据分类,以便以后进行数据预处理和逻辑回归模型。employmentlength是将其数据分类数据可视化如下所示的一个非常重要的特征 图 35:employmentlength数据分类数据可视化 此外,几个自变量中间的综合分布特征也特别重要,数据可视化的另一个特征也可以根据一个不同的特征进行交叉。 图 36:为isdefault分布Grade和employmentlength 上图为grade和employmentlength的布局图,用于毁约或不毁约人。不难发现,他们的employmentlength分布基本相同,而grade则有很大差异。不难发现,他们的employmentLength的分布基本相同,而Grade有很大的不同。AB级别在不违反合同的人中所占的比例将远高于违反合同的人中AB级别的比例。 图 37:LoanAmnt为isdefault分布 上图是LoanAmnt为毁约或不毁约人的布局图。可以发现,他们的Loanamnt基本相同,但对于违约群体,他的贷款总数越来越少。不难理解,对于“老赖”来说,他的声誉水平很差,所以金融机构可能不会给他们更多的钱;及时还款的群体经常借更多的钱,因为他们的个人信用更合适。 图 38:对比毁约群体和不毁约群体前后 能看到违约的群体比违约的群体少很多,不违约的人数是违约人数的五倍左右。 图 39:特点热地图 图 40:斯皮尔曼级别相关系数r图 热图和相关系数r图可以清楚地看到每个特征之间的相关性,从而更好地预处理数据。根据以上特点的热地图,可以知道很多密名自变量间的相关性相对较高。此外,instalment、loanamnt、purpose、purpose、loanamnt等其他特征之间的相关性相对较高title,postCode和regionCode等。 俗话说:“逻辑回归模型确定模型预测限制”。逻辑回归模型的准确性和足够的逻辑回归模型非常重要。结合上述数据统计分析,完成了以下逻辑回归模型。 首先要注意的是,Grade字段和SubGrade字段名都是等级英文字母,然后直接用数据替换,方便实体模型解决。 图 41:Grade字段名 图 42:Subgrade字段名称 图 43:清理Grade字段和Subgrade字段名称 同样,将employmentlength解决为整形手术,去除years并替换。 图 44:employmentlength字段名称 图 45:清理employmentlength字段名称 另外,将两个日期解决为整形手术,并且以整数金额时间间隔的形式构建了全新的特点,便于实体模型的学习和训练。 图 46:解决日期文件格式的字段 然后填写dti字段的异常值1000,过滤掉违法负数。 图 47:dti字段处理 图 48:空字符解决 最后,为了降低特征总数,降低训练时的特征维度,提高训练效率和准确性,整合每个变量的现实意义。对某些特征,不要触及入账价值,而是利用比率关联构建新的特征,然后浇筑特征。对于某些特征,不要触摸入账价值,而是利用比率关联构建新的特征,然后浇筑特征。需要注意的是,由于某些特征具有空字符或0值,因此不能直接进行比较,因此必须添加0.1来解决数据。 图 49:搭建新特点 利用大数据,不难发现新结构的特点是连续变量,数量众多。为了简化模型解决方案,提高异常值,连续数据可以通过分箱转换为离散数据信息,从而大大提高实体模型的响应速度。 常见的数据信息分箱方式分为无监督分箱和有监督分箱。选择无监督分箱内的定距分箱法进行分箱实际操作。 分箱总数对最终学习成绩影响较大,利用大数据及其实际测试可得出较好的分箱结论。annualIncome_bin和loanAmnt_bin2的特点分为10箱。interestrate_bin,dti_bin,installment_bin,revolBal_bin,revolUtil_bin共五个特点分为100个箱。 图 50:对七个特征进行分箱 为了进一步提取特征,在这里,我有很多重要的特征(loanAmnt, installment, interestRate, annualIncome, dti, openAcc, revolBal, revolUtil, totalAcc)特征交叉展开。由于这个问题是金融投资问题,根据数据收集,近年来金融投资问题的特点数据信息非常有效;长期以来反映的规律性较差,不利于实体模型的学习和培训。由于这个问题是金融投资问题,根据数据收集,近期金融投资问题的特点数据信息非常有效;长期以来反映的规律性较差,不利于实体模型的学习和培训。因此,在六个月内选择交叉数据。此外,在交叉环节中,为了进一步提高鲁棒性,我不选择使用原始记录进行交叉,而是直接使用中值的平均值编号。通过实验比较,大大提高了特征的交叉效果和鲁棒性。 图 51:特征交叉 通过数据预处理、特征结构、数据信息分箱及其特征交叉,我们已经获得了足够的特征,但现在数据信息量相对较大,如果所有浇筑也会导致运行时间较长,并且有一些复杂的特征容易混合。因此,我们需要选择适合自己的特点,而不是所有的信息。 图 52:预处理数据前原始记录尺寸 这场比赛被称为风险控制系统的风险评估,在风险控制中,可靠性压倒了一切。主要原因是,一套风险控制系统通常需要很长时间(通常超过一年)才能被更换和退出。假如实体模型不稳定,说明实体模型难以控制,对业务流程来说是一种可变性风险,直接关系到管理决策的合理性。这也是不可接受的。因此,根据数据的收集,引入了人群可靠性指标值(Population Stability Index,PSI)考虑到特征的稳定发展,选择选择合适的特征。PSI反映了各分数分布和模型反应变量的稳定性。在模型中,常用于筛选特征变量,评价模型的可靠性。 可通过以下公式计算PSI: 在这里,大家对PSI的错误有了全面的了解,只需要知道他指出的内涵。在这里,我通过toad库计算PSI的结果,然后进行升序导出,实际结果如下: 图 53:PSI指标值排序图通过数据预处理和特征结构 PSI越多,说明特征越不稳定,在测试集和验证密度上的特征也不太一致,您可以选择从特征目录中删除此特征。因此,使用PSI排列后,将PSI超过0.1的特性全部丢失。因此,使用PSI排列后,将PSI超过0.1的特性全部丢失。 在编写编码清理数据的过程中,我发现每次运行都非常耗时,因为数据很多。此外,由于实践将在计算服务器上进行,云服务器CPUCPU的主频一般较低,因此清洁设备运行状态的代码需要更长的时间。因此,在选择在PC机上完成数据处理方法和逻辑回归模型后,将物理模型导出到Pickle文档中,隐藏在计算机硬盘中,只需将Pickle文件复制到计算服务器上即可。 图 54:持续练习数据 通过数据统计分析、数据预处理及其模型建立,下一步将准确预测数据信息浇筑。为了使最终预测结果更强,通过查阅相关论文,我首先依靠MLJAR的自动学习库,通过已经清理了更多的数据信息(Automated Machine Learning)选择Decision Tree,Extra Tree,Random Forest,XGBoost,Neural Network,LightGBM,CatBoost,Ensemble很有可能在这个预测分析问题中进行经典的模型算法,进行自动学习,明确模型构建的大趋势。箱型图自动学习结果如下: 图 55:箱型图自动学习 根据图片观察,不难发现,XGBoost,LightGBM,根据Gradintent,Catbost三种 bosting的树型有相对较高的AUC,神经网络的AUC稍弱,但是神经网络预测过程中的AUC粒度分布非常大,因此尝试使用XGBost,LightGBM,Catboost三种物理模型集成K折叠交叉验证进行Stacking模型集成,将输出预测结果作为神经网络的输入,与之前的特征一起,通过神经网络获得最终结果。(本处只反映最佳实体模型。事实上,我用了很多实体模型进行了一系列的尝试,这实际上显示了“六、困难与处理”的一部分) 图 56:模型预测流程表 训练过程分为以下两个步骤: 最先,XGBost在测试集中采用优化算法,LightGBM,Catboost训练了三个基础学习器。然后,用这个基础学习器的输入参数形成一个新的测试集,并在其上练习一个元学习器(meta-classifier),用于机构使用基础学习器的答案,即输入底层模型答案,使元学习器学习组织分配与底层模型答案相匹配的权重。然后,用这个基础学习器的输入参数形成一个新的测试集,并在其上练习一个元学习器(meta-classifier),用于机构使用基础学习器的答案,即输入底层模型答案,使元学习器学习组织将匹配权重分配给底层模型答案。为了使训练过程更准确,避免多线性,我采用了五折交叉验证。 图 57:三个基础学习器 图 58:5折Stacking开发模型集成 Stacking完成后,将计算结果作为一个新的特征,并与原始特征一起进入神经网络进行精确预测。我重新定义了以下互联网,每层尺寸比为300:64:32:8:1。 图 59:神经网络结构 为了防止神经网络的多重共线性,我重新定义了学习率也会随着EPCho而降低,从而减少多重共线性。 图 60:学习率的动态变化 神经元网络运行结束后,将结果以提交格式的csv文档保存到本地,并提交到活动网页。 图 61:将结果保存到当地 通过上一部分模型拟合的选择和几次提交,我终于在网上分为0.7491,排名3/9391,高考排名0.03%。 图 62:提交成绩和考试成绩图 图 63:递交结论图 图 64:总Rank排名图 由于本次比赛的数据量非常大,整个模型推理过程需要很长时间,所以我选择使用GPU服务器加速。我选择学院给服务器运行代码,服务器使用Intel(R) Xeon(R) Silver 4210R CPU @ 2.40GHzCPU,Ubuntu20.04软件,两个Nvidia Tesla A100独立显卡。 发现编码立即植入服务器后不能正常运行,即虽然打开GPU加速,但GPU资源占0%,根据收集数据,发现XGBost和LightGBM库实体模型,根据PIP快速下载版本不能使用GPU加速,如果应用GPU加速,需要下载CMAKE并编译程序。 图 65:GPU版本号在Linux上编译程序LightGBM 安装后,GPU不仅可以应用于加快培训。(Catbost库是根据pip安装的,包括对GPU的大力支持,因此无需编译自己的程序) 图 66:用GPU练习 在Stacking链接中,当单模推理到Catbost模型时,该过程突然被自动杀死,然后出现了以下错误:“There appear to be 6 leaked semlock objects to clean up at shutdown. There appear to be 1 leaked folder objects to clean up at shutdown.” 图 67:过程被杀死 但是在我个人的笔记本上可以正常工作,一开始我猜可能是两边工作环境不一致造成的。所以我说服务器上卸载了已经安全的库并重新安装。所以我说服务器上卸载了已经安全的库并重新安装。结论还是会出错。 图 68:组装库的文件目录 而且当服务器和我电脑的每个库完全一样的时候,还是会出错。经过仔细的科学研究,我发现虽然我已经重新安装了Python库和3.8版本库,但Python3.6仍然是默认设置在服务器上运行的,所以这个问题可能是由于版本号不同造成的。 图 69:Python版本号为3.6 因此,我们将Python完全卸载到服务器上,重新安装Python3.8后,问题就解决了。最后,将GPU应用于服务器加速练习。 事实上,我不仅用自动机器学习库来完成练习,还尝试了很多实体模型,同时提交了很多次,最后整合了自动机器学习的结果。我决定使用三种树模型进行Stacking层叠,并使用神经元网络进行最后一轮练习。试图如下所示实际集成: ①Catbost应用于单模推理 图 70:应用Catbost练习 练习结果如下: 图 71:Catbost练习结论 ②利用LightGBM进行单模推理 图 72:使用LightGBM进行练习 练习结果如下: 图 73:LightGBM练习结论 ③XGBost应用于单模推理 图 74:应用XGBost练习 练习结果如下: 图 75:XGBoost练习结论 ④应用神经元网络进行单模推理 图 76:神经网络训练结论 ⑤使用SVM进行单模型推理 对于当地这样的二分类问题,经典算法是SVM(Support Vector Machine,svm算法)。SVM算法是一种理论线性分类器,根据无监督学习方法对数据进行二元分类。SVM算法是一种根据无监督学习方法对数据进行二元分类的理论线性分类器。SVM是一种稀疏稳定的分类算法,因为在SVM获取系统软件中添加了正则化项,以实现合理的结构风险。广泛应用于人像识别和文本挖掘行业。 图 77:用SVM练习 练习结论: 图 78:SVM练习结论 ⑥应用逻辑回归(LogisticRegression)进行单模型推理 逻辑回归算法可以在Sigmoid()函数中映射线性方程得到的结果,二分类问题常用的优化算法是预测事物发生的概率并进行筛选。 图 79:Logisticregresion练习结论 ⑦运用决策树算法(DecisionTree)进行单模型推理 决策树模型以树的形式分解问题,并根据一步一步地确定标准是否筛选问题,是二分类问题中常见的优化算法。 图 80:decisiontree练习结论 刚开始训练的时候发现运动效果一直很差,好像有些是通过清洗后的特征模型拟合最终练习结论造成的。但查看文本文档后发现,如果不设置"cat_features用于区分类型的类型特征(如:1、2、3..)将被称为数值特征(即1小于2、2小于3)。但是,查看文本文档后,发现如果没有设置“cat_features"用于区分类型的类型特征(如1、2、3..)将被称为数值特征(即1小于2、2小于3)。但实际上没有尺寸相关性,标值尺寸仅供参考。 图 81:类型特点 选择类型特征后,在训练中设置主要参数,独立处理类型特征。 图 82:独立解决类型特征 在训练过程中,多重共线性往往是一个头痛的问题。如果选定的练习轮空较少,实体模型没有完全收敛,最终偏差将非常大;如果选定的练习轮空过多,实体模型是多线性的,最终偏差将相对较大。因此,预防实体模型的多重共线性对提高运动效果非常重要。 图 83:多重共线性平面图 一般来说,处理多重共线性的方法有以下几种:
基于机器学习和对金融风险控制贷款违约预测分析的深入研究
基于机器学习和对金融风险控制贷款违约预测分析的深入研究
① 选择更多的数据信息 在这次比赛中,我选择了50%的折扣交叉验证,而不是10%或更多的折扣,这在一定程度上确保了每个练习的数据量非常大,从而减少了多个共线性。 ② 多实体模型不是单实体模型 在本次比赛中,我使用三种树模型进行各自的预测和分析,并在三种树模型Stacking后重复使用神经元网络进行最后的预测和分析。我使用了各种实体模型,并在一定程度上防止了多个共线性的产生。 ③ 选择适合自己的迭代次数 在训练过程中,迭代次数少,导致实体模型不趋同;迭代次数过多导致多线性,因此选择合适的迭代次数非常重要。在这次比赛中,我选择应用Tensor Board可视化练习过程中结果的数据,从而找到最佳迭代次数。
基于机器学习和对金融风险控制贷款违约预测分析的深入研究
图 84:可视化结论的练习过程 根据数据可视化,不难发现,3800左右迭代更新时的运动效果达到顶峰,超过3800后出现多重共线性。因此,可以在3750左右安装训练时的迭代次数。 重庆抵押放款 天山天池大数据赛事“贷款违约预测分析”是本次大数据挖掘学科的期末作业,根据现实生活中金融领域贷款违约概率预测进行了探索、分析和预测。 对于这个大作业,我从论文选题的第一天开始就开始进行数据统计和数据处理。为了实现这项工作,我查看了各种各样的信息,从中收获了很多。起初,我的逻辑回归模型并不全面,导致模型预测的结果非常糟糕。通过进一步的分析,我立即调整了逻辑回归模型,提高了模型预测的准确性。逻辑回归模型更好后,选择合适的实体模型是另一个大问题。我选择了七八个经常用于二分类问题的数据来尝试单一的实体模型。结论不同,很难确定一个非常明确的改进方向。受网上毕业论文的启发,我选择了全自动机器学习库。经过一天一夜的练习,我获得了学习成绩和分析曲线图。通过进一步收集数据,我最终选择了三种树模型进行分层,然后将分层预测结果作为新特征再次进入神经网络预测,并将最终神经网络预测结果作为最终提交方法。

搜索