September 19th, 2025
Deze studie heeft de geautomatiseerde classificatie van twee verschillende categorieën effectief bereikt door hoestgeluidsgegevens te verkrijgen van patiënten met de diagnose chronische obstructieve longziekte (COPD) en luchtweginfecties (RTI), met behulp van een integratie van spraaksignaalverwerkingstechnieken en machine learning-algoritmen.
Dit onderzoek richt zich op akoestische diagnostiek, waarbij spraaksignaalanalyse en machine learning worden gebruikt om onderscheidende stemkenmerken te extraheren voor niet-invasieve vroege classificatie van chronische obstructieve longziekten en luchtweginfecties. De recente ontwikkelingen op dit gebied omvatten AI-gestuurde spraakanalyse, machine learning-technieken zoals convolutionele neurale netwerken en ondersteunende vectormachines, signaalverwerkingstools zoals MFCC's, en variabele akoestische sensoren voor het detecteren van ziektegerelateerde patronen in geluidssignalen. Een van de grootste uitdagingen bij de klinische vertaling van spraakgebaseerde diagnostische technologie is dataschaarste.
Andere uitdagingen zijn beperkte modelgeneralisatie, privacy-ethiek, conflicten en barrières voor interpreteerbaarheid. Na het samenstellen van de vocal feature indicator database, open je SPSS en laad je het juiste databestand. Selecteer in de menubalk Analyze, kies vervolgens Nonparametric Tests, vervolgens Legacy Dialogues, en klik op 2 Independent Samples.
Selecteer in het pop-up dialoogvenster de waargenomen variabelen die vergeleken moeten worden onder het gedeelte Test Variabelenlijst. Selecteer vervolgens onder Groeperingsvariabele de variabele die gebruikt zal worden voor het groeperen. Klik op de knop Groepen definiëren en voer de identificaties van de twee groepen in in het pop-upvenster.
Selecteer onder Testtype de Mann-Whitney U-test. Klik op OK om de test uit te voeren en SPSS automatisch de output te laten genereren. Voor de analyse van hoofdcomponenten moet je ervoor zorgen dat de gegevens worden verzameld, opgeslagen in Excel- of CSV-formaat en geïmporteerd in SPSS versie 20.0.
Om het bestand te openen, selecteer je Bestand, kies je Open, vervolgens Data, en selecteer je het juiste bestand. Om de analyse van de hoofdcomponenten te starten, klik je op Analyseren, kies je vervolgens Dimensieverkleinering en selecteer je Factor. Voeg in het dialoogvenster alle continue variabelen die in de hoofdcomponentanalyse worden gebruikt toe aan het veld Variabelen.
Klik op de Extractie-knop en selecteer de Principal components-methode als extractietechniek. Selecteer eigenwaarden groter dan 1 als criterium om hoofdcomponenten te behouden. Selecteer de rotatiemethode en klik op Rotatie om Varimax of Promax te kiezen.
Controleer onder Opties zowel de Scree-grafiek als de coëfficiëntenmatrix om het grinddiagram en de matrix van coëfficiënten in de output op te nemen voor het evalueren van behouden varianten. Na het voltooien van alle instellingen klik je op OK om de analyse uit te voeren en SPSS de output te laten genereren. Interpreteer de hoofdcomponentenbelastingsmatrix om de relatie tussen de hoofdcomponenten en de oorspronkelijke variabelen te beoordelen.
Identificeer variabelen met hogere belastingswaarden, omdat deze aanzienlijk bijdragen aan componentwijzigingen. Gebruik de tabel Total Variantance Explained om te evalueren hoeveel variantie elk hoofdcomponent meeneemt. Identificeer de belangrijkste componenten met grote variantieverhoudingen, aangezien zij doorgaans het grootste deel van de datavariatie vastleggen.
Raadpleeg het puinplot om te bepalen welke componenten behouden moeten blijven. Zoek het kantelpunt en houd alle componenten links van dit punt. Als hoofdcomponentscores vereist zijn, controleer dan Save as variabelen voordat je de analyse uitvoert.
SPSS zal de scores voor elke steekproef toevoegen als nieuwe variabelen in de dataset. De analyse van de hoofdcomponenten identificeerde zes hoofdcomponenten die samen 76,8% van de totale variantie uitmaakten. Het logistische regressiemodel toonde stabiele prestaties over drie validatiefolds, met AUC-waarden van 0,71, 0,74 en 0,88, wat een gemiddelde AUC van 0,77 opleverde.
Daarentegen vertoonde het random forest-model een grotere variabiliteit, met fold AUC-scores van 0,69, 0,52 en 0,83, en een lager gemiddeld AUC van 0,68. Het logistische regressiemodel behaalde 100% correcte voorspellingen voor COPD en zes van de zeven correcte voorspellingen voor luchtweginfecties, zoals getoond in de verwarringsmatrix, wat wijst op een hoge classificatienauwkeurigheid. Het random forest-model classificeerde één COPD- en twee gevallen van luchtweginfecties verkeerd, wat resulteerde in een lagere classificatienauwkeurigheid vergeleken met het logistische regressiemodel.
Op de testdataset leverde het logistische regressiemodel uitstekende classificatieprestaties op, met een AUC-waarde van 0,95. Het random forest-model toonde een lagere testprestatie met een AUC-waarde van 0,76.
View the full transcript and gain access to thousands of scientific videos
Dit onderzoek richt zich op akoestische diagnostiek, met behulp van spraaksignaalanalyse en machine learning om kenmerkende stemkenmerken te extraheren voor niet-invasieve vroege classificatie van chronische obstructieve longziekte en luchtweginfecties. De studie benadrukt de integratie van geavanceerde technieken in spraaksignaalverwerking en machine learning-algoritmen.