Zdjęcie CLEF 2024: Conference and Labs of the Evaluation Forum

Kategoria: Konferencja

Rok: 2024

Tytuł wystąpienia: Under-Sampling Strategies for Better Transformer-Based Classifications Models

Organizator: University of Grenoble Alps

Termin: 9-12 września 2024

Link do Bazy Wiedzy: Baza Wiedzy

Marcin Sawiński

W erze masowej komunikacji internetowej weryfikacja informacji, czyli fact-checking, staje się coraz ważniejsza. Jednak modele sztucznej inteligencji, takie jak GPT i BERT, które służą do analizy tekstu, mają trudności z przetwarzaniem nierównomiernie zbalansowanych zbiorów danych, gdzie liczba mało istotnych stwierdzeń znacznie przewyższa liczbę kluczowych, potencjalnie dezinformacyjnych. W związku z tym zespół badaczy z Uniwersytetu Ekonomicznego w Poznaniu postanowił opracować nową metodę, która pozwoli poprawić jakość klasyfikacji przy użyciu takich modeli poprzez zastosowanie specyficznej strategii podpróbkowania (ang. under-sampling). Badanie, będące częścią projektu realizowanego w ramach konkursu Check-That! Lab Task 1B-English na konferencji CLEF 2023, skupia się na tym, jak różne podejścia do redukcji nierównowagi klas mogą poprawić skuteczność modeli opartych na transformatorach. Zespół skoncentrował się na strojeniu modeli GPT i BERT, a także na odpowiedniej modyfikacji zestawów danych, aby uzyskać lepsze wyniki w ocenie, które stwierdzenia są warte sprawdzenia pod kątem ich prawdziwości. W pierwszej fazie badania przeprowadzono serię eksperymentów, w których modele GPT-3 i BERT były dostrajane i oceniane na niezmodyfikowanych danych. W drugiej fazie naukowcy wprowadzili różne techniki podpróbkowania, w tym techniki oparte na jakości danych oraz dynamice treningu, aby sprawdzić, jak zmiany w zestawie danych wpływają na wyniki modelu. Kluczowym elementem badania było podzielenie danych na kategorie: łatwe do nauczenia, trudne do nauczenia i niejednoznaczne. Wykorzystano te kategorie, aby sprawdzić, jak selektywne usuwanie przykładów z większościowej klasy (tj. mało istotnych stwierdzeń) może poprawić jakość klasyfikacji. Wyniki pokazały, że mniejsze, lepiej zbalansowane zbiory danych mogą prowadzić do znacznej poprawy skuteczności modeli, w niektórych przypadkach nawet przewyższając wyniki uzyskane przy użyciu pełnych zestawów danych. Badania wykazały, że redukcja liczby przykładów z klasy większościowej i skupienie się na jakości danych może znacznie poprawić skuteczność modeli, takich jak DeBERTa v3 czy GPT-3, szczególnie w zadaniach związanych z identyfikowaniem potencjalnie dezinformacyjnych stwierdzeń. Ostatecznie, najlepsze wyniki uzyskano za pomocą strategii podpróbkowania opartej na jakości danych. Praca ta stanowi istotny krok w kierunku efektywniejszego wykorzystywania sztucznej inteligencji w walce z dezinformacją. Dzięki odpowiedniemu doborowi danych treningowych i zastosowaniu zaawansowanych technik podpróbkowania, modele AI mogą lepiej koncentrować się na weryfikacji stwierdzeń, które mają potencjalnie największy wpływ na odbiorców. Współautorzy: Marcin Sawiński, Ewelina Księżniak