Stacking Ensemble-benadering voor het voorspellen van de goedkeuring van leningen met behulp van machine learning-technieken

Kunchakara  Raja Sekhar; Shaiku Shahida Saheb

doi:10.3791/68832

Research Article

Stacking Ensemble-benadering voor het voorspellen van de goedkeuring van leningen met behulp van machine learning-technieken

DOI:

10.3791/68832

⸱

September 23rd, 2025

Kunchakara Raja Sekhar¹ , Shaiku Shahida Saheb¹

¹VIT-AP School of Business, VIT-AP University

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Deze studie ontwikkelt een stapelensemblemodel dat XGBoost, CatBoost (Gradient Boosting Model), LightGBM (Efficient Gradient Boosting Model), AdaBoost en Extra Trees integreert om leninggoedkeuringen te voorspellen met behulp van Kaggle-gegevens. Met een nauwkeurigheid van 98% identificeert het belangrijke voorspellers zoals inkomen en kredietscore, waardoor eerlijke, efficiënte beslissingen over de goedkeuring en/of afwijzing van leningen worden bevorderd.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Digitale leningen en fintech-innovaties hebben gevestigde banksystemen op zijn kop gezet, waardoor financiële inclusie en beschikbaarheid van krediet in landen over de hele wereld zijn veranderd. Deze studie onderzoekt hoe peer-to-peer (P2P) en digitale leenplatforms veranderen, en benadrukt hoe technologieën zoals kunstmatige intelligentie en machine learning de manier veranderen waarop leningen worden goedgekeurd. Een grondige studie van de literatuur belicht de kansen en problemen in het ecosysteem van digitale kredietverlening, zoals algoritmische risicobeoordeling, klantvertrouwen, financiële uitsluiting en mazen in de regelgeving. Dit artikel stelt een sterke machine learning-benadering voor die gebruikmaakt van een stapelensemblemodel om de goedkeuring van leningen nauwkeurig te voorspellen om deze problemen aan te pakken. De gegevens werden voorbewerkt met behulp van train-test partitionering, verkennende analyse en labelcodering met behulp van een openbaar toegankelijke Kaggle-dataset die demografische gegevens, financiële kenmerken en kredietgeschiedenis van sollicitanten bevatte. Met XGBoost als meta-leerling, bevat het ensemble de classificaties Gradient Boosting, Efficient Gradient Boosting, AdaBoost en Extra Trees als basisleerlingen. Met een nauwkeurigheid van 98% werd het model beoordeeld aan de hand van metingen zoals nauwkeurigheid, precisie, herinnering, F1-score en foutmetrieken (MAE-Mean Absolute Error, MSE-Mean Squared Error en RMSE-Root Mean Square Error). Volgens correlatiestudies hebben factoren zoals activa, inkomen en CIBIL-scores een aanzienlijke invloed op de goedkeuring van leningen. Het model presteerde beter dan conventionele methoden en vertoonde evenwicht en generalisatie in beide klassen. Het nut van deze modellen voor geautomatiseerde, datagestuurde kredietbepalingen wordt benadrukt in de conclusie van het artikel.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

In de laatste fase van de technologische transformatie van de banksector zijn disruptieve nieuwe financiële dienstverleners van buiten het gevestigde banksysteem op de markt gekomen¹. BigTech (grote technologiebedrijven die zich voornamelijk richten op directe leningen of met financiële instellingen) en FinTech (financiële technologie, inclusief modellen zoals P2P-leningen en online kredietalternatieven voor traditionele banken) bedrijven maken een aanzienlijke opmars in de financiële sector en vormen een uitdaging voor traditioneel bankieren, ondanks de inspanningen van banken om zich aan te passen aan het digitale landschap². Deze snelle evolutie duidt op een verschuiving in het financiële ecosysteem, waar niet-traditionele spelers de manier waarop financiële diensten worden geraadpleegd en verleend steeds meer hervormen³. De opkomst van digitale leningen heeft een negatieve correlatie met bankkrediet, wat suggereert dat wanneer nieuwe kredietverstrekkers de markt betreden, traditioneel bankieren plaats kan maken voor alternatief digitaal krediet⁴. Deze overgang werd verder gekatalyseerd door de wereldwijde financiële crisis (GFC) van 2008, die het vertrouwen van klanten in financiële diensten drastisch verminderde en de uitbreiding van financiële technologie of Fintech-ondernemingen hielp stimuleren⁵. Fintech is de term voor de combinatie van technologie en financiën, wat verwijst naar de toepassing van technologie om financiële oplossingen te bieden⁶. Naarmate Fintech volwassener werd, was een van de meest transformerende toepassingen te zien in de opkomst van P2P-leningen, ook wel online leendiensten genoemd⁷. De belangrijkste innovatie van P2P-leningen is het direct matchen van kredietverstrekkers en kredietnemers. Leners dienen aanvragen in voor kleine, ongedekte leningen en leenplatforms worden door verschillende investeerders gebruikt om leningaanvragen te evalueren en te financieren⁸. P2P-leningen werken op dezelfde manier als een bank, maar maken gebruik van internet en geavanceerde technologie om online leningen en schuldregelingen mogelijk te maken ⁹. Het succes en de schaalbaarheid van dit model werden duidelijk met de lancering van ZOPA.com, het eerste P2P-platform in de geschiedenis, dat in 2005 in het VK debuteerde. Sindsdien is online lenen aanzienlijk gegroeid, tot meer dan $ 100 miljard in 2015 en zal naar verwachting meer dan $ 1 biljoen bereiken in 2025¹⁰. Digitale leningen, met name in opkomende economieën, zijn verder geëvolueerd met de integratie van Fintech¹¹. Fintech-integratie in digitale leningen verbetert de financiële inclusie, met name in opkomende markten. Mobiele betalingen en blockchain-oplossingen maken P2P-transacties en microleningen mogelijk, waardoor barrières voor financiële diensten worden verminderd¹². Deze paradigmaverschuiving wordt aangedreven door de integratie van technologieën zoals blockchain, kunstmatige intelligentie (AI), machine learning en digitale betalingssystemen om een meer inclusieve, efficiënte en klantgerichte financiële omgeving te creëren¹³. Digitale leenplatforms gebruiken technologie om aanvragen te versnellen, kosten te besparen en de evaluatie van kredietrisico's te verbeteren, waardoor kleine bedrijven en particulieren sneller financiering kunnen ontvangen¹⁴. Ze gebruiken big data, blockchain, AI en machine learning om de evaluatie van kredietnemers te verbeteren, de kosten te verlagen en financiële inclusie te bevorderen¹⁵. Met name machine learning heeft een revolutie teweeggebracht in risicobeheer door gebruik te maken van alternatieve gegevensbronnen¹⁶. Het overtreft traditionele kredietbeoordelingsbenaderingen door gebruik te maken van niet-traditionele gegevens, de ratings van kredietnemers te verbeteren en economische ontwikkelingen te voorspellen¹⁷. Deze methode vermindert het risico op wanbetaling door de nauwkeurigheid van de beoordelingen van kredietnemers te vergroten en te helpen bij het voorspellen van verschuivingen in de economie¹⁸. Een van de belangrijkste effecten van digitale leningen is het vermogen om de moeilijkheden van financiële inclusie aan te pakken, met name in opkomende economieën en gemarginaliseerde gebieden¹⁹.

Om de acceptatie van leningen met hoge nauwkeurigheid te voorspellen met behulp van een gestructureerde Kaggle-dataset, stelt dit artikel een nieuw stapelensemblemodel voor dat het Gradient Boosting Model, het Efficient Gradient Boosting Model, de AdaBoost, de Extra Trees en de XGBoost combineert. Om het voorspellend aanpassingsvermogen en de generalisatie te verbeteren, combineert deze methode verschillende gevorderde leerlingen met XGBoost als meta-classifier, in tegenstelling tot eerder onderzoek dat vaak gebruik maakt van enkelvoudige modellen of conventionele classifiers. Het model presteerde goed in zowel geaccepteerde als afgewezen leningklassen, met een indrukwekkend nauwkeurigheidspercentage van 98%. Deze methodologische ontwikkeling biedt een praktische en uitbreidbare manier om beslissingen over de goedkeuring van leningen te automatiseren in digitale leenomgevingen, met name in het ontwikkelen van financiële ecosystemen.

Het doel van dit onderzoek is om een sterk stapelensemblemodel voor digitale leningen te creëren dat de acceptatie van leningen nauwkeurig voorspelt door Gradient Boosting Model, Efficient Gradient Boosting Model, AdaBoost, Extra Trees en XGBoost te combineren. Daarnaast probeert het te onderzoeken hoe belangrijke demografische en financiële variabelen (inkomen, activawaarde en CIBIL-Credit Information Bureau (India) Limited Score) van invloed zijn op leningkeuzes, evalueren hoe goed het ensemblemodel presteert in vergelijking met meer conventionele modellen met behulp van classificatie- en foutstatistieken, en benadrukken hoe ensemblebenaderingen de efficiëntie, generalisatie en eerlijkheid kunnen verhogen. Het primaire doel is om statistisch te analyseren hoe de kenmerken van de aanvrager de goedkeuring van leningen beïnvloeden en om de prestaties van ensemble-leeralgoritmen te evalueren.

P2P en digitale leningen blijven het financiële landschap wereldwijd transformeren en bieden zowel kansen als uitdagingen.

Digitale leningen transformeren het wereldwijde financiële landschap snel en bieden een alternatief voor traditioneel bankieren²⁰. Deze wereldwijde kijk onderstreept hoe regionale contexten op unieke wijze vorm geven aan de volwassenheid van digitale kredietverlening. Digitale leningen breiden zich uit, maar blijven technologisch onvolwassen, terwijl automatisering en voorspellende scores voor efficiëntie zorgen, en platforms nog steeds sterk afhankelijk zijn van systemen van derden voor achtergrondcontroles, wat de robuustheid beperkt²¹. Ondanks de snelle expansie blijft financiële uitsluiting wereldwijd een groot probleem, waarbij naar schatting 44% van de volwassenen in ontwikkelingslanden geen toegang heeft tot formele financiële diensten, waardoor dringende hervormingen, betere infrastructuur en initiatieven op het gebied van digitale geletterdheid nodig zijn. Dergelijke beperkingen komen ook naar voren in andere convergerende sectoraccenten, aanhoudende uitdagingen op het gebied van gegevensverwerking en systeemintegratie²². Naarmate de digitale integratie zich verdiept, escaleren de beveiligingskwetsbaarheden in de Fintech-ruimte. Om deze aan te pakken, is een op beveiliging gericht kader voorgesteld om digitale transacties te beveiligen²³. Vergelijkbare ontwikkelingen doen zich voor in andere opkomende markten. In Kenia hebben mobiel geld en apps voor digitale leningen de financiële toegang weliswaar verbeterd, maar gegevensprivacy blijft een hardnekkig probleem, en recente regelgeving heeft een beperkte impact, wat suggereert dat sterkere handhavingsmechanismen, formele audits en duidelijke ontwikkelingsrichtlijnen nodig zijn²⁴. Dit weerspiegelt een bredere trend waarbij regelgevingskaders vaak achterblijven bij fintech-innovatie. Het regelgevingslandschap van fintech is anders dan dat van traditioneel bankieren. Tenzij leningen bijvoorbeeld een hoog risico inhouden, heeft wetshandhaving minder effect op de rentetarieven in fintech²⁵. Er is met name een sterke behoefte aan beter toezicht, het gebruik van data-analyse en updates van de regelgeving om illegale fintech-groei en privacyschendingen te beteugelen²⁶. Naast regelgeving hangt het succes van digitale leningen ook af van vertrouwen, dus vertrouwen speelt een cruciale rol bij kredietbeslissingen. Het vertrouwen in kruiwagens is invloedrijker dan in tussenpersonen²⁷.

Een parallelle evolutie is zichtbaar in het Indiase ecosysteem voor digitale leningen²⁸. De digitale kredietverlening breidt zich snel uit als gevolg van de vooruitgang in fintech, nuttige regelgevende maatregelen die zijn geïmplementeerd door de Reserve Bank of India (RBI) en een toename van het consumentenvertrouwen na de COVID-19-uitbraak²⁹. Innovatie brengt echter risico's met zich mee. Hoewel niet-gelicentieerde toepassingen of platforms voor digitale leningen de toegang verbeteren, brengen ze ernstige risico's voor de consument met zich mee, zoals intimidatie, hoge rentetarieven en misbruik van gegevens als gevolg van zwakke regelgeving. Het versterken van de consumentenbescherming en verantwoordingsplicht is daarom van cruciaal belang voor het bevorderen van verantwoorde financiële inclusie³⁰. De gevaren van wanbetalingen van kredietnemers en frauduleuze aanvragen zijn aanzienlijk voor digitale leningen; goede maatregelen ter bescherming van de consument beschermen niet alleen consumenten, maar hebben ook een positieve invloed op de financiële prestaties, aangezien gegevensbeveiliging en transparantie de winstgevendheidsindicatoren zoals het rendement op activa (ROA) en het rendement op eigen vermogen (ROE) verbeteren³¹. Wereldwijd ligt er veel nadruk op operationele verbeteringen, met meer nadruk op het verbeteren van systemen voor het verstrekken van leningen, het aanmoedigen van het gebruik van mobiele technologie en het ontwikkelen van duidelijke strategieën om te voldoen aan wettelijke normen en consumentenverwachtingen³². Om deze risico's aan te pakken, worden geavanceerde analyses en AI steeds vaker gebruikt om kredietverstrekkers met een hoog risico te voorspellen, waarbij uitschieters worden gedetecteerd met behulp van indicatoren zoals mislukte leningen, terugbetalingsduur en kredietscores effectief zijn gebleken³³. Met het sociaal-technische model als leidraad ontdekten we dat risico's afkomstig zijn van zowel belanghebbenden als het gebrek aan onderlinge afhankelijkheden tussen platformontwerp en organisatorische componenten³⁴. De adoptie van dynamische modellen zoals UTAUT2 domineert bij het verklaren van gebruikersadoptie, waarbij vertrouwen naar voren komt als een belangrijke voorspeller van de leenintentie³⁵. Op machine learning gebaseerde algoritmen voor fraudedetectie, zoals Random Forest- en SVM-modellen, worden ook gebruikt³⁶. Volgens de bevindingen van het onderzoek kunnen machine learning-modellen persoonlijke kredietinformatie adequaat evalueren en de kans op wanbetaling van leningen bepalen; Het diepe neurale netwerk presteerde het beste (nauwkeurigheid: 0,94)³⁷. De studie, die Naïve Bayes met een nauwkeurigheid van 94% gebruikte, ontdekte dat kenmerken zoals rentepercentage, aflossingstijd, beschrijving, kredietwaardigheid, leninggeschiedenis, geslacht en kredietscore een substantiële invloed hebben op het succes van leningen³⁸. Ondertussen bestaan de waarschijnlijkheden van zowel vervroegde aflossing als wanbetalingsrisico's, belangrijke voorvallen die resulteren in beëindiging van de lening en winstderving voor schuldeisers werden voorspeld met behulp van multivariate logistische regressie, en de algehele nauwkeurigheid van het model was 76,63%³⁹. Volgens de studie kunnen de inkomsten van kredietclubs met een hoge nauwkeurigheid van 68% worden verhoogd door gebruik te maken van een Efficient Gradient Boosting Model om wanbetalingsrisico op digitale leenplatforms te voorspellen⁴⁰. Tegelijkertijd evolueren er meer geavanceerde AI-modellen, zoals deep multiview learning, die verschillende variabelen combineren (zoals app-gebruik en gedragspatronen) en beter presteren dan conventionele technieken, vooral in situaties waarin historische gegevens beperkt zijn⁴¹. Studies uit China bevestigen dat het verbeteren van wanbetalingsvoorspellingen en financiële inclusie, waarbij modellen zoals Gradient Boosting Model en LGBM beter presteren dan traditionele op krediet gebaseerde evaluaties⁴²helpt systeemdynamische modellering ook bij het simuleren van rentefluctuaties op P2P-platforms, waardoor inzicht wordt geboden in het gedrag van kredietnemers onder verschillende omstandigheden⁴³. Het is aangetoond dat het efficiënte Gradient Boosting Model de standaardvoorspelling en de winstgevendheid van het platform verbetert⁴⁰, terwijl diepe neurale netwerken ook beter presteren dan traditionele modellen als ze goed worden getraind³⁷en digitale markten stabiliseren door middel van een beter risicobeheer⁴⁴om duurzaamheid te waarborgen, wint regelgevingstechnologie aan populariteit, zoals Robotic Process Automation helpt financiële instellingen bij het afstemmen van wettelijke vereisten op bedrijfsplannen, het verbeteren van de naleving en operationele efficiëntie⁴⁵. Tabel 1 Vat belangrijke onderzoeken samen die de toepassing van machine learning in digitale leen- en goedkeuringsprocessen onderzoeken.

Access restricted. Please log in or start a trial to view this content.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dataverzameling

Deze studie maakte gebruik van de Loan Approval Prediction Dataset die beschikbaar is op Kaggle. De dataset is geëxtraheerd in februari 2025 en bestaat uit 4269 records die gericht zijn op het evalueren van leninggegevens en het voorspellen van de resultaten van de goedkeuring van leningen. Het bevat 12 kolommen met gedetailleerde informatie over de demografische profielen van aanvragers, zoals arbeidsstatus, personen ten laste, zelfstandigen, geleend bedrag, looptijd van de lening, CIBIL-scores, financiële achtergrond en leningspecifieke kenmerken. De dataset is geïmporteerd met behulp van de Panda's-bibliotheek en visueel geïnspecteerd met behulp van df.head () om de structuur en kwaliteit ervan te begrijpen.

Voorverwerking van gegevens

Tijdens de voorverwerkingsfase van de gegevens bestond de eerste stap uit het verwijderen van de identificatiekolom (loan_id) vanwege het ontbreken van voorspellende waarde en het potentieel om ruis in het model te introduceren. De tweede stap betrof labelcodering, waarbij categorische variabelen zoals opleiding, zelfstandigen en loan_status werden omgezet in numerieke weergaven. Deze transformatie is uitgevoerd met behulp van Label Encoder van de sklearn.preprocessing-module. Concreet werd onderwijs gecodeerd als 0 voor Graduate en 1 voor Not Graduate; self_employed als 0 voor Nee en 1 voor Ja, en loan_status, de doelvariabele, als 0 voor Niet goedgekeurd en 1 voor Goedgekeurd. Deze conversies waren nodig om compatibiliteit te garanderen met machine learning-modellen, die numerieke invoer vereisen, met name voor digitale leentoepassingen. De kenmerken werden gescheiden van de doelvariabele met behulp van X=df.drop ("loan_status"], as=1) en y=df ["loan_status]. Deze opzet bood een uitgebreide basis voor het onderzoeken van de factoren die van invloed zijn op beslissingen over de goedkeuring van leningen, met behulp van historische leningrecords om meerdere ensemble machine learning-modellen te trainen. Deze modellen waren bedoeld om de algehele nauwkeurigheid en robuustheid te verbeteren door de voorspellende kracht van meerdere classificaties te combineren.

De verwerkte dataset werd vervolgens opgesplitst in subsets voor training en testen met behulp van de train_test_split functie van sklearn.model_selection, waarbij 80% van de gegevens werd gebruikt voor training en 20% werd gereserveerd voor testen. Dit zorgde ervoor dat het model werd getraind op een voldoende groot deel van de gegevens, terwijl een representatieve steekproef voor prestatie-evaluatie behouden bleef. Nadat de dataset was opgeschoond, gestructureerd en statistisch was verkend, werd de basis gelegd voor de implementatie van een robuust machine learning-raamwerk dat gericht is op het verbeteren van de voorspellende nauwkeurigheid bij de classificatie van leninggoedkeuringen. De modelontwikkeling werd uitgevoerd met behulp van vier op ensembles gebaseerde machine learning-algoritmen: Gradient Boosting Model, AdaBoost, Efficient Gradient Boosting Model en Extra Trees Classifier. Deze werden geselecteerd vanwege hun bewezen prestaties bij classificatietaken met gestructureerde, tabellarische gegevens. De modelclassificatie voor het versterken van verloop, geïmplementeerd vanuit de bibliotheek voor het verhogen van het verloopmodel, is geïnstantieerd met standaardinstellingen (iteraties=1000, leersnelheid=0,1, depth=6, uitgebreid=onwaar). Het werd getraind met behulp van. fit (x_train, y_train) en geëvalueerd met .predict (X_test). Hoewel het Gradient Boosting Model automatisch categorische gegevenscodering verwerkt, werd deze functie niet gebruikt omdat de gegevens al op het label waren gecodeerd. De AdaBoost Classifier (Adaptive Boosting, die zwakke leerlingen verbetert) werd geïmplementeerd met behulp van sklearn-ensemble. AdaBoost Classifier is geconfigureerd met n_estimators=100 en learning_rate=1.0, met behulp van beslissingsstompen als de standaard basisschatter. Het werd op een vergelijkbare manier getraind en geëvalueerd, waarbij robuustheid werd bijgedragen door iteratieve weging van verkeerd geclassificeerde instanties. De Efficient Gradient Boosting, geïmplementeerd via de Efficient Gradient Boosting Model-bibliotheek (LGBMClassifier), is geconfigureerd met n_estimators=100, learning_rate=0,1 en max_depth=-1 (onbeperkte boomdiepte). Dit model, dat bekend staat om zijn snelheid en efficiëntie, blinkt vooral uit in grote datasets met hoogdimensionale functies met behulp van geoptimaliseerde beslissingsbomen voor het stimuleren van gradiënten.

Ten slotte werd de ExtraTrees Classifier van sklearn.ensemble gebruikt met n_estimators=100 en criterion="gini" als splitsingsstrategie. In tegenstelling tot Random Forest introduceert Extra Trees nog meer willekeur door willekeurig afkappunten te selecteren, wat helpt om modelvariantie te verminderen en generalisatie te verbeteren. Het ensemble werd uitgevoerd met behulp van de Stacking Classifier van scikit-learn, die de generalisatie verbetert door voorspellingen van de basisleerlingen samen te voegen. Elk model werd geëvalueerd met behulp van standaard classificatiestatistieken, waaronder nauwkeurigheid, precisie, F1-score, foutanalyse en de verwarringsmatrix. Deze statistieken zijn berekend met behulp van functies uit de sklearn.metrics-module om een gestandaardiseerde prestatievergelijking voor alle modellen te garanderen.

Het best presterende model (op basis van nauwkeurigheid en F1-score) werd opgeslagen voor implementatie met behulp van de Python-bibliotheek. dump(model, "best_model.pkl"), zodat het getrainde model opnieuw kan worden gebruikt zonder dat er opnieuw training nodig is. Om een toepassing in de echte wereld te simuleren, werd een voorbeeldinvoerarray met 11 functies gemaakt met behulp van NumPy en doorgegeven aan de functie .predict () van het model. De invoervector [[0, 1, 1,4100000, 12200000, 8, 417, 2700000, 2200000, 8800000, 3300000]] retourneerde bijvoorbeeld een voorspelling van 1, wat de goedkeuring van de lening aangeeft. Alle experimenten werden uitgevoerd in een Python 3.10-omgeving met behulp van Google Notebook op Kaggle. De ontwikkeling en evaluatie van het model werden uitgevoerd met behulp van de bibliotheken scikit-learn (v1.3), Gradient Boosting Model en Efficient Gradient Boosting Model. Alle hyperparameters werden expliciet gedocumenteerd en waar van toepassing werden de standaardinstellingen duidelijk vermeld. De coderingsprocedures volgden de aanpak beschreven door Pedregosa en werden geïmplementeerd in scikit-learn⁴⁶. Deze uitgebreide en transparante methodologie zorgt ervoor dat het experimentele protocol volledig reproduceerbaar is en voldoet aan strenge academische normen voor onderzoek naar machine learning.

De structuur van de voorgestelde methodologie, die de fase van de gegevensvoorbereiding, de functiesectie, de modeltraining en de evaluatie omvat, wordt weergegeven in figuur 1.

Dit onderzoek introduceert een leerraamwerk voor stapelensembles dat de mogelijkheden van vier krachtige classificaties samenbrengt: Gradient Boosting Model, AdaBoost, Efficient Gradient Boosting Model en Extra Trees om beslissingen over de goedkeuring van leningen te voorspellen op basis van historische financiële gegevens. Door zowel boost- als bagging-strategieën te combineren binnen gestapelde modelarchitectuur⁴⁶. De aanpak overwint effectief de individuele tekortkomingen van deze modellen, zoals bias en variantie, wat bijdraagt aan een verbeterde voorspellingsnauwkeurigheid en modelgeneralisatie. Elke basisleerling draagt unieke sterke punten bij Gradient Boosting Model is efficiënt met categorische variabele, het is ontworpen voor het verwerken van categorische kenmerken met een hoge hartelijkheid en voert intern doelcodering uit met behulp van geordende boosting⁴⁷. Dit voorkomt overfitting door ervoor te zorgen dat alleen gegevens uit het verleden worden gebruikt in computerstatistieken. In de formule

figure-protocol-1 ,

Elke h_t (x) vertegenwoordigt een beslissingsboom die is getraind op residuen van het vorige model, en n_tgeeft de stapspecifieke leerbijdrage aan. AdaBoost of Adaptive Boosting past het gewicht van elke instantie aan tijdens de training en richt zich op eerder verkeerd geclassificeerde gegevenspunten⁴⁸. In de formule
figure-protocol-2

α_t weerspiegelt de prestaties van de t-de zwakke leerling h_t(x), waarbij meer nadruk wordt gelegd op eerder verkeerd geclassificeerde steekproeven. Efficiënt model voor het versterken van gradiënten Bevat op gradiënt gebaseerde eenzijdige sampling (GOSS) en exclusieve functiebundeling voor snellere prestaties. Efficient Gradient Boosting biedt hoge snelheid en prestaties op grootschalige gegevens⁴⁹.

figure-protocol-3

F_t(x_i) vertegenwoordigt de nieuwe beslissingsboom die is toegevoegd om het verlies l(•) te minimaliseren, terwijl Ω(f_t) een regularisatieterm is. In tegenstelling tot het stimuleren van algoritmen, vermindert Extra Trees de variantie door willekeur toe te voegen in beslissingsboomsplitsingen⁵⁰. Het vertrouwt op bagging-principes, maar injecteert extra willekeur tijdens het splitsen van knooppunten in zijn voorspellingsregel

figure-protocol-4

Gemiddelde van de output van M onafhankelijk getrainde gerandomiseerde bomen. Voor elke splitsing selecteert Extra trees willekeurige drempels voor objecten en kiest de beste daaruit, waardoor de variantie wordt verminderd en een hoge diversiteit tussen bomen wordt geboden, wat de generalisatie verbetert. Deze modellen worden gezamenlijk geïntegreerd via een stapelclassificator, die leert hun output optimaal te combineren om te beslissen of een lening moet worden goedgekeurd. Het raamwerk werd geëvalueerd met gemeenschappelijke classificatiemetrieken en getest met live invoermonsters, wat de praktische relevantie ervan in digitale leenomgevingen aantoonde⁵¹. Deze modellen worden gezamenlijk gecombineerd met behulp van een stapelclassificator, die leert hun output idealiter te mengen om de resultaten van de acceptatie van leningen te bepalen. De prestaties van het model werden beoordeeld aan de hand van belangrijke classificatiemetingen zoals nauwkeurigheid, precisie, herinnering, F1-score en AUC-ROC, evenals een verwarringsmatrix om te bepalen of het in staat is om zowel Type I- als Type II-fouten te verminderen. Om het evenwicht in de klas te behouden, werd een gestratificeerde 80:20 trein-testverdeling gebruikt, waarbij 5-voudige kruisvalidatie de robuustheid garandeerde en de variabiliteit van de steekproef verminderde. Bovendien werd het model geëvalueerd op realistische profielen van leningaanvragers met informatie zoals kredietgeschiedenis, inkomen, arbeidsstatus en geleend bedrag, wat binaire oordelen en waarschijnlijkheidsbeoordelingen opleverde. Deze tweefasentest toont de werkzaamheid, eerlijkheid en bruikbaarheid van het model aan in real-time digitale leencontexten. De nieuwigheid van dit werk ligt in het hybride ensembleontwerp dat is afgestemd op kredietscores, waardoor het een robuust, interpreteerbaar en reproduceerbaar model is voor moderne financiële platforms⁵² .

Access restricted. Please log in or start a trial to view this content.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Analyse van de correlatie van kenmerken

De feature correlation heatmap (Figuur 2) gaf nuttige informatie over de onderlinge relaties tussen verschillende attributen. Er werden sterke positieve correlaties gevonden tussen inkomen, jaarlijks geleend bedrag en activagerelateerde variabelen zoals de waarde van luxe activa en de waarde van bankactiva, wat aantoont dat he...

Access restricted. Please log in or start a trial to view this content.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Het stapelensemblemodel voor het voorspellen van de goedkeuring van leningen presteert uitzonderlijk goed in verschillende evaluatiestatistieken en toont een grote nauwkeurigheid en betrouwbaarheid. Uit de correlaties heatmap bleek dat financiële indicatoren zoals jaarinkomen, geleend bedrag en activawaarden sterk met elkaar verbonden zijn, wat hun belang in de evolutie van leningen benadrukt, terwijl de CIBIL-scores een sterke negatieve correlatie hebben met de status van de lening, waa...

Access restricted. Please log in or start a trial to view this content.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

De auteur verklaart geen belangenconflict met betrekking tot dit onderzoek.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Dit onderzoek werd ondersteund door VIT-AP University, Amaravati, India.

Access restricted. Please log in or start a trial to view this content.

Materials

List of materials used in this article
Name	Company	Catalog Number
Kaggle	https://www.kaggle.com/
Pandas	https://pandas.pydata.org/
Modelbibliotheek	IBM	https://www.ibm.com

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

European Systemic Risk Board. Reports of the Advisory Scientific Committee. , Elsevier. (2012).
Vives, X. The impact of FinTech on banking. Eur Econ. 2, 97-105 (2017).
Jacobides, M. G., Drexler, M., Rico, J. Rethinking the future of financial services: A structural and evolutionary perspective on regulation. J Financ. , https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3078138 (2014).
Cuadros-Solas, P. J., Cubillas, E., Salvador, C. Does alternative digital lending affect bank performance? Cross-country and bank-level evidence. Int Rev Financ Anal. 90, 102873(2023).
Murinde, V., Rizopoulos, E., Zachariadis, M. The impact of the FinTech revolution on the future of banking: Opportunities and risks. Int Rev Financ Anal. 81, 102103(2022).
Hurani, J., Abdel-haq, M. K., Camdzic, E. FinTech Implementation Challenges in the Palestinian Banking Sector. Int J Financial Stud. 12 (4), 122(2024).
Sumit, A., Jian, Z. FinTech Lending and Payment Innovation: A Review. Asia-Pacific J Financ Stud. 1 (1), 11-15 (2020).
Balyuk, T. FinTech Lending and Bank Credit Access for Consumers. Manage Sci. 69 (1), 555-575 (2023).
Novaliando, M. A., Purwokerto, U. M. Legal Protection of Consumer Personal Data in the Case of Fintech Peer to Peer Lending. Proc Series Soc Sci Humanities. 14, 118-124 (2023).
Huang, R. H. Online P2P Lending and Regulatory Responses in China Opportunities and Challenges. Eur Bus Organ Law Rev. 19 (1), 63-92 (2018).
Puschmann, T. Fintech. Bus Inf Syst Eng. 59 (1), 69-76 (2017).
Ebirim, G. U., Odonkor, B. Enhancing Global Economic Inclusion With Fintech Innovations and Accessibility. Financ Account Res J. 6 (4), 648-673 (2024).
Sanyaolu, T. O., Adeleke, A. G., Azubuko, A. F., Osundare, O. F. Exploring fintech innovations and their potential to transform the future of financial services and banking. Int J Sch Res Sci Technol. 5 (1), 054-072 (2024).
Omowole, B. M., Urefe, O., Mokogwu, C., Ewim, S. E. Integrating fintech and innovation in microfinance Transforming credit accessibility for small businesses Integrating fintech and innovation in microfinance Transforming credit accessibility for small businesses. Eur J Innov Manag. 27 (9), 562-581 (2024).
Umavezi, J. U. Innovations in Lending-Focused FinTech Leveraging AI to Transform Credit Accessibility and Risk Assessment. IJCATR. 14 (1), 46-61 (2025).
Leo, M., Sharma, S., Maddulety, K. Machine learning in banking risk management: A literature review. Risks. 7 (1), 2319-8656 (2019).
Bazarbash, M. FinTech in Financial Inclusion: Machine Learning Applications in Assessing Credit Risk. IMF Work Pap. 2019 (109), 1(2019).
Berg, T., Burg, V., Gombovi, A., Puri, M. On the Rise of the Fintech. Rev Financ Studies. 33 (7), 2845-2897 (2020).
Gomber, P., Kauffman, R. J., Parker, C., Weber, B. W. On the Fintech Revolution Interpreting the Forces of Innovation , Disruption and Transformation in Financial Services. J Manag Informat Syst. 35 (1), 220-265 (2018).
Anakpo, G., Xhate, Z., Mishi, S. The Policies, Practices, and Challenges of Digital Financial Inclusion for Sustainable Development The Case of the Developing Economy. FinTech. 2 (2), 327-343 (2023).
Digital Lending High Level System Architecture in Indonesia. Sarungu, C. M. 2020 1st Int Conf Informat Technol Adv Mech Elect Eng, , 159-164 (2020).
Allioui, H., Mourdi, Y. Exploring the Full Potentials of IoT for Better Financial Growth and Stability: A Comprehensive Survey. Sensors. 23 (19), 8015(2023).
Fintech future business & Cyber vulnerabilities and challenges. Venkata, T., Rao, V. 2023 IEEE 8th Int. Conf. Softw. Eng. Comput. Syst, , 1-4 (2023).
Flores, A. M., He, M., Wu, W., Munyaka, I. N. S. A License to Prey Investigating the Impact of Digital Loan App Regulations on Permission Requests and Privacy Policies in the Kenyan Market. 2024 IEEE Int Symp Technol Soc. , 1-5 (2024).
Peng, H., Ji, J., Sun, H., Xu, H. Legal enforcement and fintech credit: International evidence. J Empir Financ. 72, 214-231 (2023).
Suryono, R. R., Budi, I., Purwandari, B. Detection of fintech P2P lending issues in Indonesia. Heliyon. 7 (4), e06782(2021).
Chen, D., Lai, F., Lin, Z. A trust model for online peer-to-peer lending a lender ' s perspective. Info Techno Manag. 15 (4), 239-254 (2014).
Migozzi, J., Urban, M., Wójcik, D. You should do what India does': FinTech ecosystems in India reshaping the geography of finance. Geoforum. 151, 2023(2024).
Asamani, A., Majumdar, J. An Empirical Study of Digital Lending in India and the Variables Associated with its Adoption. Administration Review. 21 (3), 1-13 (2024).
Mark, T. Digital Lending in Emerging Economies: the Nexus Between Financial Innovation and Consumer Protection. Am. J. Financ. Account. 7 (1), 145-168 (2023).
Imanuddin, I., Dewi Anggraeni, R. R., Fridayani, S. Construction of Consumer Protection Against Illegal Online Loan Transactions As a Means of IUS Constituendum in Indonesia. J IUS Kaji Huk dan Keadilan. 11 (3), 539-556 (2023).
Katsamakas, E., Sanchez-Cartas, J. M. A computational model of the effects of borrower default on the stability of P2P lending platforms. Eurasian Econ Rev. 14 (3), 597-618 (2024).
Li, H., Zhang, Y., Zhang, N., Jia, H. Detecting the Abnormal Lenders from P2P Lending Data. Procedia Comput Sci. 91, 357-361 (2016).
Bao, T., Ding, Y., Gopal, R., Möhlmann, M. Throwing Good Money After Bad: Risk Mitigation Strategies in the P2P Lending Platforms. Inf Syst Front. 26 (4), 1453-1473 (2024).
Mudjahidin, A. A., Hidayat,, Aristio, A. P. Conceptual model of use behavior for peer-to-peer lending in Indonesia. Procedia Comput Sci. 197 (2021), 215-222 (2021).
Identifying Features for Detecting Fraudulent Loan Requests on P2P Platforms. Xu, J., Chen, D., Chau, M. 2016 IEEE Conf Intell Secur Informatics, , 79-84 (2016).
Research on Personal Loan Default Assessment Based on Machine Learning. Liu, G. ITM Web of Conferences, 01012, 1-14 (2025).
An application of Naive Bayes classification for credit scoring in e-lending platform. Vedala, R., Kumar, B. R. Proc 2012 Int Conf Data Sci Eng. ICDSE 2012, , 81-84 (2012).
Li, Z., Li, K., Yao, X., Wen, Q. Predicting Prepayment and Default Risks of Unsecured Consumer Loans in Online Lending. Emerg Mark Financ Trade. 55 (1), 118-132 (2019).
Ko, P. C., Lin, H., Do, T., Huang, Y. F. P2P Lending Default Prediction Based on AI and Statistical Models. Entropy. 24 (6), 1-23 (2022).
Loan Fraud Users Detection in Online Lending Leveraging Multiple Data Views. Zhao, S., et al. Proc 37th AAAI Conf Artif Intell AAAI 2023, 37, 5428-5436 (2023).
Fu, G., Sun, M., Xu, Q. An Alternative Credit Scoring System in China's Consumer Lending Market: A System Based on Digital Footprint Data. SSRN Electron J. , 1-51 (2020).
Pang, S., Deng, C., Chen, S. System Dynamics Models of Online Lending Platform Based on Vensim Simulation Technology and Analysis of Interest Rate Evolution Trend. Comput Intell Neurosci. 2022, 9776138(2022).
Tu, Y., Yan, X., Wang, H. Game Theory Analysis of Chinese DC/EP Loan and Internet Loan Models in the Context of Regulatory Goals. Sustain. 15 (9), 1-15 (2023).
Von Solms, J. Integrating Regulatory Technology ( RegTech ) into the digital transformation of a bank Treasury. J Bank Regul. 22 (2), 152-168 (2021).
Barupal, D. K., Fiehn, O. Generating the blood exposome database using a comprehensive text mining and database fusion approach. Environ Health Perspect. 127 (9), 2825-2830 (2019).
Wolpert, D. H. Stacked generalization. Neur Netw. 5 (2), 2941-2259 (1992).
Prokhorenkova, L., Gusev, G., Vorobev, A., Dorogush, A. V., Gulin, A. Catboost: Unbiased boosting with categorical features. Adv Neural Inf Process Syst. , 6638-6648 (2018).
Freund, Y., Schapire, R. E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting. J Comput Syst Sci. 55 (1), 119-139 (1997).
LightGBM: An effective decision tree gradient boosting method to predict customer loyalty in the finance industry. Machado, M. R., Karray, S., De Sousa, I. T. 14th Int Conf Comput Sci Educ ICCSE, , 1111-1116 (2019).
Geurts, P., Ernst, D., Wehenkel, L. Extremely randomized trees. Mach Learn. 63 (1), 3-42 (2006).
Sagi, O., Rokach, L. Ensemble learning: A survey. Wiley Interdiscip Rev Data Min Knowl Discov. 8 (4), 1-18 (2018).
Khandani, A. E., Kim, A. J., Lo, A. W. Consumer credit-risk models via machine-learning algorithms. J Bank Financ. 34 (11), 2767-2787 (2010).
Chen, Y. From Statistical Interpretations to Explainable AI in Machine Learning Enhancing Decision-Making in the Lending Industry. , Doctor of Philosophy, The University of Edinburgh. (2024).

Access restricted. Please log in or start a trial to view this content.

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

Stacking Ensemble-benadering voor het voorspellen van de goedkeuring van leningen met behulp van machine learning-technieken

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles