Kategoria: Konferencja
Rok: 2024
Tytuł wystąpienia: Team OpenFact at PAN 2024: Fine-Tuning BERT Models with Stylometric Enhancements
Organizator: University of Grenoble Alps
Termin: 9-12 września 2024
Link do Bazy Wiedzy:
Baza Wiedzy
Publikacja ta opisuje podejście zespołu do jednego z konkursowych zadań, dotyczącego wykrywania zmiany stylu autora w tekście.
Zagadnienie detekcji zmiany autora jest istotne w kontekście bezpieczeństwa informacji, zwłaszcza w takich dziedzinach jak cyberbezpieczeństwo, analiza oszustw i fałszerstw, oraz ochrona własności intelektualnej. Przykładowo w cyberbezpieczeństwie może być wykorzystywane do identyfikacji przypadków przejęcia konta lub naruszeń prywatności poprzez analizę zmian w stylu pisania użytkowników.
Przedstawione rozwiązanie opiera się na dostrajaniu modeli z rodziny BERT, wzbogaconych o tagi stylometryczne. Tagi te odzwierciedlają unikalne cechy stylu pisania autora, co umożliwia dokładniejsze analizowanie tekstu. Na przykład, zdanie „ja lubię czytać książki” było przekształcane na „ja (styl personalny) lubię czytać książki”, co pomagało modelowi w identyfikacji cech charakterystycznych dla danego autora. Tagi obejmowały takie aspekty, jak: poziom formalności tekstu, styl personalny (np. użycie słów takich jak „ja” czy „mnie”, co może sugerować odniesienia do osobistych oświadczeń), złożoność i długość tekstu, a także obecność mowy zależnej oraz specyficznych znaków interpunkcyjnych, takich jak wielokropki.
W artykule wykazano, że takie podejście może poprawić zdolności klasyfikacyjne modelu, zwłaszcza przy treningu na ograniczonych zbiorach danych. Jest to obiecujące, szczególnie w kontekście pracy z trudno dostępnymi zasobami danych, jak np. wnioski ubezpieczeniowe.
Współautorzy: Marcin Sawiński, Krzysztof Węcel