Korpus LnNor

Korpus LnNor: Wielojęzyczny korpus mowy natywnej i nienatywnej obejmującej język norweski, angielski i polski (Część 1 & Część 2)

Wrembel Magdalena, Hwaszcz Krzysztof, Pludra Agnieszka, Skałba Anna, Weckwerth
Jarosław, Malarski Kamil, Cal Zuzanna, Kędzierska Hanna, Czarnecki-Verner Tristan,
Balas Anna, Kaźmierski Kamil, Żychliński Sylwiusz, Gruszecka Justyna

Korpus LnNor został stworzony w ramach gromadzenia danych w dwóch projektach: CLIMAD (Cross-linguistic influence in multilingualism across domains: phonology and syntax) oraz ADIM (Across-domain Investigations in Multilingualism: Modeling L3 Acquisition in Diverse Settings), kierowanych przez prof. Magdalenę Wrembel z Uniwersytetu im. Adama Mickiewicza w Poznaniu oraz prof. Marit Westergaard z Arctic University of Norway, od grudnia 2021 r. do kwietnia 2024 r. ze środków Narodowego Centrum Nauki (NCN) w Polsce i funduszy norweskich.

Projekty CLIMAD i ADIM badały wpływy międzyjęzykowe w nabywaniu, przetwarzaniu i używaniu trzeciego języka (L3/Ln) w różnych domenach językowych i koncentrowały się na różnych środowiskach i etapach akwizycji z perspektywy wielojęzycznej. Wykorzystano szereg zaawansowanych metodologii, takich jak testy percepcji i produkcji, zadania oceny gramatyczności i techniki obrazowania mózgu online, takie jak EEG, aby odkryć zawiłości przetwarzania wielojęzycznego. Poprzez uchwycenie w czasie rzeczywistym wglądu w interakcję wpływów międzyjęzykowych, projekty te nie tylko wniosły cenny wkład w zrozumienie nabywania L3/Ln, ale także rozwinęły ramy teoretyczne w tej dziedzinie.

Gromadzenie danych korpusowych obejmowało szeroki zakres zadań związanych z wywoływaniem mowy. Nagrania obejmują czytanie słów, zdań i tekstu, opis historyjki obrazkowej, opowiadanie historyjki wideo, mowę spontaniczną i wywiady społeczno-fonetyczne w języku polskim, angielskim i norweskim. Korpus zawiera metadane oparte na kwestionariuszu historii językowej (Li i in. 2020), takie jak wiek, płeć, języki ojczyste, poziom biegłości, długość ekspozycji na język, wiek rozpoczęcia nauki.

Dane zostały zebrane od różnych grup mówców:

  • L1 Polish learners of Norwegian as L3/Ln, attending Scandinavian studies at Poznań College
    of Modern Languages and the University of Szczecin (instructed learners);
  • L1 Polish learners of Norwegian as L3/Ln, living in Norway (naturalistic learners)
  • L1 English natives as controls
  • L1 Norwegian natives as controls
  • speakers of L2/L3/Ln English and L2/L3/Ln Norwegian with various L1 backgrounds

Nagrano sześć rodzajów zadań mowy w języku norweskim, angielskim i polskim

  • czytanie słów
  • czytanie zdań
  • czytanie tekst ("Wiatr Północny i Słońce")
  • opis obrazka
  • opowiadanie historyjek obrazkowych
  • opowiadanie historyjek na podstawie wideo

Metadane odpowiadające nagraniom zawierają następujące informacje:

  • ID mówcy, wiek, płeć, wykształcenie, aktualne miejsce zamieszkania, status mówcy
    (formalny/naturalistyczny/rodzimy), język ojczysty, znajomość innych języków
  • ID nagrania
  • język: PL (polski), EN (angielski), NO (norweski)
  • status: L1, L2, L3/Ln
  • zadanie mówione: WR (czytanie słów), SR1/2/... (czytanie zdań), TR1/2/... (czytanie tekstów), PD (opisywanie obrazków), ST (opowiadanie historii), VT (opowiadanie historii z filmów)
  • data nagrania, miejsce nagrania, iteracja, środowisko nagrywania, urządzenie nagrywające, rodzaj mikrofonu, poziom hałasu itp.

Etykiety nagrań przestrzegają strukturalnego
formatu:
PROJEKT_ID MÓWCY_JĘZYK STATUS_ZADANIE, gdzie:

  • PROJEKT odpowiada projektowi, w ramach którego zebrane zostały dane
    (A dla ADIM, C dla CLIMAD)
  • ID MÓWCY odpowiada unikalnemu ID mówcy składającemu się z 8 znaków
  • JĘZYK STATUS reprezentuje język, w którym zostało nagrane zadanie oraz jego status dla mówcy (np. L1PL, L2EN, L3NO)
  • status for the speaker (e.g., L1PL, L2EN, L3NO)
  • ZADANIE odpowiada rodzajowi zadania mówionego (np. TR, SR, WR itp.)

Korpus LnNor został stworzony, aby udokumentować mowę osób wielojęzycznych z naciskiem na uczących się norweskiego jako L3/Ln oraz rodzimych użytkowników języka norweskiego, angielskiego i polskiego.
Korpus został zaprojektowany do badania wariantywności językowej u uczących się norweskiego jako języka obcego w kontekście formalnym i naturalistycznym.
Dodatkowo, podkorpus wzorców mowy rodzimej jest dostarczony jako punkt odniesienia, do którego można porównać produkcje uczących się. Ponadto, części korpusu zawierają anotacje, aby ułatwić dalsze analizy w różnych dziedzinach językowych.

Wszystkie próbki mowy zostały nagrane przy użyciu mikrofonów z głowicą kardioidalną Shure SM-35, przy użyciu przenośnych rejestratorów mowy Marantz PMD620.
Sygnał został zdigitalizowany przy częstotliwości próbkowania 48 kHz, 16-bit.

Część 1 korpusu LnNOR składa się z 1073 plików audio od 78 mówców. Wśród mówców znajdują się 53 osoby z językiem ojczystym polskim, 16 osób z językiem ojczystym norweskim i 9 osób z innymi europejskimi językami ojczystymi. Całkowity czas nagrania wynosi około 35 godzin, a rozmiar 18 GB. Nagrania w udostępnionej części 1 korpusu LnNor obejmują dane zebrane między 2021 a 2022 rokiem.

Część 2 korpusu LnNOR składa się z 1671 plików audio od 164 mówców. Wśród mówców znajduje się 113 osób z językiem ojczystym polskim, 33 osoby z językiem ojczystym norweskim i 18 osób z językiem ojczystym angielskim. Całkowity czas nagrania wynosi około 59 godzin, a rozmiar 26 GB. Nagrania w udostępnionej części 2 korpusu LnNor obejmują dane zebrane w latach 2023-2024.

Korpus został opublikowany na otwartej licencji w trzech repozytoriach:

– AMUReD repository Część 1 & Część 2
– CLARIN D-Space repository Część 1 & Część 2
– WA server Część 1 & Część 2

pl_PLPolski
Powered by TranslatePress