LnNor Corpus

Korpus LnNor: Wielojęzyczny korpus mowy natywnej i nienatywnej obejmującej język norweski, angielski i polski (Część 1 & Część 2)

Wrembel Magdalena, Hwaszcz Krzysztof, Pludra Agnieszka, Skałba Anna, Weckwerth
Jarosław, Malarski Kamil, Cal Zuzanna, Kędzierska Hanna, Czarnecki-Verner Tristan,
Balas Anna, Kaźmierski Kamil, Żychliński Sylwiusz, Gruszecka Justyna

Korpus LnNor został stworzony w ramach gromadzenia danych w dwóch projektach: CLIMAD (Cross-linguistic influence in multilingualism across domains: phonology and syntax) oraz ADIM (Across-domain Investigations in Multilingualism: Modeling L3 Acquisition in Diverse Settings), kierowanych przez prof. Magdalenę Wrembel z Uniwersytetu im. Adama Mickiewicza w Poznaniu oraz prof. Marit Westergaard z Arctic University of Norway, od grudnia 2021 r. do kwietnia 2024 r. ze środków Narodowego Centrum Nauki (NCN) w Polsce i funduszy norweskich.

Projekty CLIMAD i ADIM badały wpływy międzyjęzykowe w nabywaniu, przetwarzaniu i używaniu trzeciego języka (L3/Ln) w różnych domenach językowych i koncentrowały się na różnych środowiskach i etapach akwizycji z perspektywy wielojęzycznej. Wykorzystano szereg zaawansowanych metodologii, takich jak testy percepcji i produkcji, zadania oceny gramatyczności i techniki obrazowania mózgu online, takie jak EEG, aby odkryć zawiłości przetwarzania wielojęzycznego. Poprzez uchwycenie w czasie rzeczywistym wglądu w interakcję wpływów międzyjęzykowych, projekty te nie tylko wniosły cenny wkład w zrozumienie nabywania L3/Ln, ale także rozwinęły ramy teoretyczne w tej dziedzinie.

Gromadzenie danych korpusowych obejmowało szeroki zakres zadań związanych z wywoływaniem mowy. Nagrania obejmują czytanie słów, zdań i tekstu, opis historyjki obrazkowej, opowiadanie historyjki wideo, mowę spontaniczną i wywiady społeczno-fonetyczne w języku polskim, angielskim i norweskim. Korpus zawiera metadane oparte na kwestionariuszu historii językowej (Li i in. 2020), takie jak wiek, płeć, języki ojczyste, poziom biegłości, długość ekspozycji na język, wiek rozpoczęcia nauki.

Dane zostały zebrane od różnych grup mówców:

Użytkownicy języka polskiego jako L1 uczący się norweskiego jako L3/Ln, Uczestniczący w studiach skandynawskich w Wyższej Szkole Języków Obcych w Poznaniu oraz na Uniwersytecie Szczecińskim (studenci pod kierunkiem nauczyciela);
Użytkownicy języka polskiego jako L1, uczący się norweskiego jako L3/Ln, mieszkający w Norwegii (uczniowie uczący się w naturalnym środowisku)
Rodowici użytkownicy języka angielskiego L1 jako grupa kontrolna
Rodowici użytkownicy języka morweskiego L1 jako grupa kontrolna
użytkownicy języka angielskiego L2/L3/Ln i norweskiego L2/L3/Ln z różnych środowisk L1

Seven types of zadań mowy w języku norweskim, angielskim i polskim

czytanie słów
czytanie zdań
czytanie tekst ("Wiatr Północny i Słońce")
opis obrazka
opowiadanie historii
opis filmu
tłumaczenie z języka polskiego/angielskiego na język norweski

Metadane odpowiadające nagraniom zawierają następujące informacje:

ID mówcy, wiek, płeć, wykształcenie, aktualne miejsce zamieszkania, status mówcy
(formalny/naturalistyczny/rodzimy), język ojczysty, znajomość innych języków
ID nagrania
język: PL (polski), EN (angielski), NO (norweski)
status: L1, L2, L3/Ln
zadanie mowy: WR (czytanie słów), SR (czytanie zdań), TR (czytanie tekstu), PD (opis obrazka), ST (opowiadanie historii), VD (opis filmu), tłumaczenie z polskiego (TP) / angielskiego (TE) na norweski
data nagrania, miejsce nagrania, iteracja, środowisko nagrywania, urządzenie nagrywające, rodzaj mikrofonu, poziom hałasu itp.

Etykiety nagrań przestrzegają strukturalnego formatu:PROJEKT_ID MÓWCY_JĘZYK STATUS_ZADANIE, gdzie:

PROJEKT odpowiada projektowi, w ramach którego zebrane zostały dane
(A dla ADIM, C dla CLIMAD)
ID MÓWCY odpowiada unikalnemu ID mówcy składającemu się z 8 znaków
JĘZYK STATUS reprezentuje język, w którym zostało nagrane zadanie oraz jego status dla mówcy (np. L1PL, L2EN, L3NO)
status mówcy (np., L1PL, L2EN, L3NO)
TASK corresponds to the type of speech task recorded (e.g., TR, SR, WR, etc.). If a given task type was done more than once, numbers corresponding to their iterations have been added after TASK.

Korpus LnNor został stworzony, aby udokumentować mowę osób wielojęzycznych z naciskiem na uczących się norweskiego jako L3/Ln oraz rodzimych użytkowników języka norweskiego, angielskiego i polskiego.
Korpus został zaprojektowany do badania wariantywności językowej u uczących się norweskiego jako języka obcego w kontekście formalnym i naturalistycznym.
Dodatkowo, podkorpus wzorców mowy rodzimej jest dostarczony jako punkt odniesienia, do którego można porównać produkcje uczących się. Ponadto, części korpusu zawierają anotacje, aby ułatwić dalsze analizy w różnych dziedzinach językowych.

Wszystkie próbki mowy zostały nagrane przy użyciu mikrofonów z głowicą kardioidalną Shure SM-35, przy użyciu przenośnych rejestratorów mowy Marantz PMD620.
Sygnał został zdigitalizowany przy częstotliwości próbkowania 48 kHz, 16-bit.

Część 1 korpusu LnNOR składa się z 1073 plików audio od 78 mówców. Wśród mówców znajdują się 53 osoby z językiem ojczystym polskim, 16 osób z językiem ojczystym norweskim i 9 osób z innymi europejskimi językami ojczystymi. Całkowity czas nagrania wynosi około 35 godzin, a rozmiar 18 GB. Nagrania w udostępnionej części 1 korpusu LnNor obejmują dane zebrane między 2021 a 2022 rokiem.

Część 2 korpusu LnNOR składa się z 1739 plików audio od 153 mówców. Wśród mówców znajduje się 113 osób z językiem ojczystym polskim, 33 osoby z językiem ojczystym norweskim i 18 osób z językiem ojczystym angielskim. Całkowity czas nagrania wynosi około 67 godzin, a rozmiar 31 GB. Nagrania w udostępnionej części 2 korpusu LnNor obejmują dane zebrane w latach 2023-2024.

Korpus został opublikowany na otwartej licencji w trzech repozytoriach:

– AMUReD repository Część 1 & Część 2
– CLARIN D-Space repository Część 1 & Część 2
– WA server Część 1 & Część 2