Korpus LnNor

Korpus LnNor: Wielojęzyczny korpus mowy natywnej i nienatywnej obejmującej język norweski, angielski i polski (Część 1 & Część 2)

Wrembel Magdalena, Hwaszcz Krzysztof, Pludra Agnieszka, Skałba Anna, Weckwerth
Jarosław, Malarski Kamil, Cal Zuzanna, Kędzierska Hanna, Czarnecki-Verner Tristan,
Balas Anna, Kaźmierski Kamil, Żychliński Sylwiusz, Gruszecka Justyna

Korpus LnNor został stworzony w ramach gromadzenia danych w dwóch projektach: CLIMAD (Cross-linguistic influence in multilingualism across domains: phonology and syntax) oraz ADIM (Across-domain Investigations in Multilingualism: Modeling L3 Acquisition in Diverse Settings), kierowanych przez prof. Magdalenę Wrembel z Uniwersytetu im. Adama Mickiewicza w Poznaniu oraz prof. Marit Westergaard z Arctic University of Norway, od grudnia 2021 r. do kwietnia 2024 r. ze środków Narodowego Centrum Nauki (NCN) w Polsce i funduszy norweskich.

Projekty CLIMAD i ADIM badały wpływy międzyjęzykowe w nabywaniu, przetwarzaniu i używaniu trzeciego języka (L3/Ln) w różnych domenach językowych i koncentrowały się na różnych środowiskach i etapach akwizycji z perspektywy wielojęzycznej. Wykorzystano szereg zaawansowanych metodologii, takich jak testy percepcji i produkcji, zadania oceny gramatyczności i techniki obrazowania mózgu online, takie jak EEG, aby odkryć zawiłości przetwarzania wielojęzycznego. Poprzez uchwycenie w czasie rzeczywistym wglądu w interakcję wpływów międzyjęzykowych, projekty te nie tylko wniosły cenny wkład w zrozumienie nabywania L3/Ln, ale także rozwinęły ramy teoretyczne w tej dziedzinie.

Gromadzenie danych korpusowych obejmowało szeroki zakres zadań związanych z wywoływaniem mowy. Nagrania obejmują czytanie słów, zdań i tekstu, opis historyjki obrazkowej, opowiadanie historyjki wideo, mowę spontaniczną i wywiady społeczno-fonetyczne w języku polskim, angielskim i norweskim. Korpus zawiera metadane oparte na kwestionariuszu historii językowej (Li i in. 2020), takie jak wiek, płeć, języki ojczyste, poziom biegłości, długość ekspozycji na język, wiek rozpoczęcia nauki.

Dane zostały zebrane od różnych grup mówców:

  • Użytkownicy języka polskiego jako L1 uczący się norweskiego jako L3/Ln, Uczestniczący w studiach skandynawskich w Wyższej Szkole Języków Obcych w Poznaniu oraz na Uniwersytecie Szczecińskim (studenci pod kierunkiem nauczyciela);
  • Użytkownicy języka polskiego jako L1, uczący się norweskiego jako L3/Ln, mieszkający w Norwegii (uczniowie uczący się w naturalnym środowisku)
  • Rodowici użytkownicy języka angielskiego L1 jako grupa kontrolna
  • Rodowici użytkownicy języka morweskiego L1 jako grupa kontrolna
  • użytkownicy języka angielskiego L2/L3/Ln i norweskiego L2/L3/Ln z różnych środowisk L1

Seven types of zadań mowy w języku norweskim, angielskim i polskim

  • czytanie słów
  • czytanie zdań
  • czytanie tekst ("Wiatr Północny i Słońce")
  • opis obrazka
  • opowiadanie historii
  • opis filmu
  • tłumaczenie z języka polskiego/angielskiego na język norweski

Metadane odpowiadające nagraniom zawierają następujące informacje:

  • ID mówcy, wiek, płeć, wykształcenie, aktualne miejsce zamieszkania, status mówcy
    (formalny/naturalistyczny/rodzimy), język ojczysty, znajomość innych języków
  • ID nagrania
  • język: PL (polski), EN (angielski), NO (norweski)
  • status: L1, L2, L3/Ln
  • zadanie mowy: WR (czytanie słów), SR (czytanie zdań), TR (czytanie tekstu), PD (opis obrazka), ST (opowiadanie historii), VD (opis filmu), tłumaczenie z polskiego (TP) / angielskiego (TE) na norweski
  • data nagrania, miejsce nagrania, iteracja, środowisko nagrywania, urządzenie nagrywające, rodzaj mikrofonu, poziom hałasu itp.

Etykiety nagrań przestrzegają strukturalnego formatu:PROJEKT_ID MÓWCY_JĘZYK STATUS_ZADANIE, gdzie:

  • PROJEKT odpowiada projektowi, w ramach którego zebrane zostały dane
    (A dla ADIM, C dla CLIMAD)
  • ID MÓWCY odpowiada unikalnemu ID mówcy składającemu się z 8 znaków
  • JĘZYK STATUS reprezentuje język, w którym zostało nagrane zadanie oraz jego status dla mówcy (np. L1PL, L2EN, L3NO)
  • status mówcy (np., L1PL, L2EN, L3NO)
  • TASK corresponds to the type of speech task recorded (e.g., TR, SR, WR, etc.). If a given task type was done more than once, numbers corresponding to their iterations have been added after TASK.

Korpus LnNor został stworzony, aby udokumentować mowę osób wielojęzycznych z naciskiem na uczących się norweskiego jako L3/Ln oraz rodzimych użytkowników języka norweskiego, angielskiego i polskiego.
Korpus został zaprojektowany do badania wariantywności językowej u uczących się norweskiego jako języka obcego w kontekście formalnym i naturalistycznym.
Dodatkowo, podkorpus wzorców mowy rodzimej jest dostarczony jako punkt odniesienia, do którego można porównać produkcje uczących się. Ponadto, części korpusu zawierają anotacje, aby ułatwić dalsze analizy w różnych dziedzinach językowych.

Wszystkie próbki mowy zostały nagrane przy użyciu mikrofonów z głowicą kardioidalną Shure SM-35, przy użyciu przenośnych rejestratorów mowy Marantz PMD620.
Sygnał został zdigitalizowany przy częstotliwości próbkowania 48 kHz, 16-bit.

Część 1 korpusu LnNOR składa się z 1073 plików audio od 78 mówców. Wśród mówców znajdują się 53 osoby z językiem ojczystym polskim, 16 osób z językiem ojczystym norweskim i 9 osób z innymi europejskimi językami ojczystymi. Całkowity czas nagrania wynosi około 35 godzin, a rozmiar 18 GB. Nagrania w udostępnionej części 1 korpusu LnNor obejmują dane zebrane między 2021 a 2022 rokiem.

Część 2 korpusu LnNOR składa się z 1739 plików audio od 153 mówców. Wśród mówców znajduje się 113 osób z językiem ojczystym polskim, 33 osoby z językiem ojczystym norweskim i 18 osób z językiem ojczystym angielskim. Całkowity czas nagrania wynosi około 67 godzin, a rozmiar 31 GB. Nagrania w udostępnionej części 2 korpusu LnNor obejmują dane zebrane w latach 2023-2024.

Korpus został opublikowany na otwartej licencji w trzech repozytoriach:

– AMUReD repository Część 1 & Część 2
– CLARIN D-Space repository Część 1 & Część 2
– WA server Część 1 & Część 2

pl_PLPolski
Powered by TranslatePress