FR-TUL

Žákovský korpus a jeho využití pro češtinu jako druhý jazyk

Karel Šebesta – Svatava Škodová

0. Elektronické jazykové korpusy, vymezené jako rozsáhlé soubory elektronických textů, cíleně shromážděných jako referenční zdroj pro vědecké studium (Čermák, 2005), jsou dnes už tradičním nástrojem vyučování druhého/cizího jazyka a výzkumů s ním spojených. Teprve od 90. let minulého století se však začaly vytvářet korpusy specificky vázané k druhému/cizímu jazyku, tzv. korpusy žákovské.[1] Můžeme je definovat jako elektronické korpusy projevů (písemných i mluvených) systematicky shromážděných od nerodilých mluvčích daného jazyka s více nebo méně podrobným záznamem o textech, jejich původcích a okolnostech jejich získání.

Žákovské korpusy se od běžných korpusů synchronních i diachronních řadou parametrů liší. Zásadní rozdíl přirozeně představuje povaha shromážděných jazykových dat. Běžné synchronní korpusy směřují k reprezentativnosti ve vztahu k současnému jazyku (Korpusová data jsou dnes ve vztahu k jazyku charakterizovaná jako (1) typická, (2) aktuální, synchronní a věrná,(3) neselektivní, (4) objektivní a realistická, (5) dostatečná, (6) nenáhodně získaná a (7) získatelná a získávaná snadno a rychle.“ Čermák, 2005), zatímco korpusy žákovské na zachycení současného jazyka vůbec neaspirují, ale zaznamenávají tzv. mezijazyk, tedy velmi dynamickou, proměnlivou jazykovou strukturu, která se může od běžně užívaného jazyka výrazně odlišovat. Z toho pak plynou četné další specifické rysy žákovských korpusů a jejich vytváření, např. odlišné pojetí autenticity sbíraných projevů, reprezentativnosti, odlišný způsob sběru jazykových dat apod.[2]

1. Žákovské korpusy jsou zásadním inovačním prvkem v oboru vyučování druhého/cizího jazyka, a to jak ve výzkumu, tak přímo ve výuce. Jejich badatelská hodnota spočívá v tom, že poskytují širokému okruhu výzkumníků velké soubory jazykových dat pro zkoumání žákovského mezijazyka, jeho vývoje a faktorů, které tento vývoj ovlivňují, dovolují identifikovat s poměrně velkou jistotou pravidelnosti v mezijazyce a jejich vztah k různým potenciálním činitelům, které mezijazyk a jeho vývoj ovlivňují, jako je věk, první jazyk žáka, okolnosti osvojování druhého jazyka, délka a povaha formální jazykové výuky apod. Žákovské korpusy umožnily nově definovat a rekonstruovat oba základní typy analýz, které se v studiu osvojování druhého/cizího jazyka tradičně uplatňovaly: kontrastivní analýzu a analýzu chybovou.

O žákovský korpus opřená kontrastivní analýza se od analýzy tradiční odlišuje tím, že je zaměřena nikoli na studium výchozího a cílového jazyka, ale mezijazyka, a sice na základě srovnání mezijazyka skupiny žáků s jazykem cílovým (potřeba srovnávacího korpusu) nebo na základě srovnání mezijazyků dvou různých skupin žáků. Zjišťují se přitom nejen odchylky ve smyslu užití nekorektního, ale i nadužívání nebo nedostatečného užívání („podužívání“) jednotlivých jazykových prostředků a konstrukcí.

Chybová analýza s oporou o korpus je často založena na specifickém typu chybové anotace textů; to s sebou nese systematičnost a explicitnost v míře tradičními metodami obtížně dosažitelné. Velkou výhodou je i to, že při využití korpusu analyzujeme chybná užití na pozadí užití korektních, můžeme si systematicky všímat funkčního využití nekorektních forem, sledovat aspekt cizosti (foreign-soundingness) apod.

Výsledky kontrastivních i chybových analýz opřených o korpus se už poměrně dlouho a hojně využívají při tvorbě jazykových slovníků a učebních materiálů, především v angličtině; vedle toho máme už k dispozici o žákovské korpusy opřené studie o různých aspektech žákovského jazyka, zaměřené na témata velmi různá – od jednotlivých lexikálních kategorií (modálních sloves, spojek, frázových sloves) přes lexikální chyby, jevy kolokační a morfologické až po lingvistickou pragmatiku.

2. První známý veřejný žákovský korpus začal být budován v belgické Lovani počátkem let 90. pod názvem International Corpus of Learner English (ICLE). U jeho zrodu stojí S. Granger a centrum CECL(Centre for English Corpus Linguistics). CECL stojí i za vznikem dalších žákovských korpusů, např. LINDSEI, LONGDALE, VESPA aj., a jeho činnost byla inspirací pro vytváření korpusů i v jiných zemích, zvl. dálněvýchodních. Vedle korpusů s primárně akademickým určením vznikají od 90. let i korpusy komerční, spojené s působením velkých nakladatelství zaměřených na výuku jazyků, např. Longman Learnersˊ Corpus, Cambridge Learner Corpus.

Další jazyky jsou v žákovských korpusech zastoupeny výrazně méně než angličtina, celkový rozsah jazykových dat zachycených jejich žákovskými korpusy – pokud jde o korpusy veřejně známé – zpravidla nedosahuje jednoho milionu slov. Ze slovanských jazyků je takto zastoupena slovinština korpusem o rozsahu 35 000 slov.

První český žákovský korpus češtiny jako druhého jazyka (pracovně C2J) vzniká ve spolupráci Technické univerzity v Liberci a Univerzity Karlovy v Praze. Jeho vznik je spjat s projektem Inovace vzdělávání v oboru čeština jako druhý jazyk,[3] koncepčně se řadí do skupiny akvizičních korpusů AKCES (Akviziční korpusy češtiny) budovaných od r. 2005 Ústavem českého jazyka a teorie komunikace FF UK,[4] využívá, kde je to možné, zkušeností a nástrojů vyvinutých při vytváření korpusů AKCES, především korpusů SCHOLA a SKRIPT, a zkušeností a nástrojů vyvinutých v Českém národním korpusu, zvl. při budování korpusů řady ORAL. Je to potřebné i v zájmu toho, aby vznikající akviziční korpusy byly sourodé: dosáhne se tím, jak předpokládáme, výrazného synergického efektu.

Bylo ovšem potřeba modifikovat, zpravidla s oporou o zahraniční modely, např. koncepci metadatového pozadí textů (s primární oporou o pravidla korpusu SCHOLA, ale zohledňující specifika sběru textů nerodilých mluvčích), pravidla pro přepis textů nerodilých mluvčích (s východiskem v pravidlech korpusů ORAL, SCHOLA a SKRIPT, ale respektující specifické rysy textů Nečechů) a nově vytvořit pro češtinu specifický anotační program a systém chybové anotace, vycházející ze zahraničních modelů, ale řešící specifické problémy spojené s typologickými rysy českých textů a vysokou chybovostí projevů nerodilých mluvčích, odlišnou od chybovosti projevů např. českých žáků.

3. Korpus C2J je plánován[5] v rozsahu cca 2 miliony slov, bude tedy patřit mezi neanglickými žákovskými korpusy k největším. Pokud jde o první jazyky, bude se skládat z jazykových dat od čtyř skupin mluvčích:

(a) Od mluvčích s prvním jazykem blízce příbuzným, tedy slovanským. Velkou převahu mezi nimi mají mluvčí s ruštinou nebo jiným východoslovanským jazykem jako jazykem prvním; větší zastoupení budou mít rovněž Poláci, další slovanské jazyky jsou zastoupeny jen okrajově.

(b) Od mluvčích s jiným (neslovanským) indoevropským jazykem. V této skupině není dominance jednoho jazyka tak výrazná, mírnou převahu mají texty od mluvčích s prvním jazykem němčinou.

(c) Třetí skupinu představují mluvčí s prvními jazyky nepříbuznými. Předpokládáme větší zastoupení Vietnamců a Egypťanů, jinak je složení poměrně velmi různorodé.

(d) Čtvrtá skupina má povahu odlišnou – je tvořena texty od romských žáků. U nich nelze vždy jednoznačně rozhodnout, zda je čeština jejich jazykem prvním, nebo druhým; sociokulturní odlišnosti mezi českou neromskou komunitou a některými komunitami romskými jsou však takového druhu, že lze u jazykového vývoje romských dětí očekávat některé rysy připomínající osvojování češtiny jako druhého jazyka. Romský subkorpus je budován v některých bodech odlišně a jsou u něj zaznamenávány i zčásti odlišné parametry.

V dalších relevantních parametrech usiluje korpus C2J o maximálně možnou úplnost: (a) Je založen na sběru psaných i mluvených projevů žáků, psaná složka však výrazně převažuje. Sbírají se texty v rukopisné podobě a přepisují se podle podrobně stanovených pravidel, která zajišťují, aby bylo z původního textu zachováno maximum informací (např. rektifikační zásahy studenta, korektury učitele apod.). Výjimku představují kvalifikační práce – ty se sbírají v podobě elektronické.

(b) Pokrývá všechny úrovně znalosti jazyka podle SERR. V tom se odlišuje od většiny jiných světových žákovských korpusů, které zachycují často pouze jazyk žáků jedné či dvou úrovní znalosti, zpravidla středně pokročilých. V tomto parametru C2J neusiluje o vyváženost: podmínkami sběru je dána převaha studentů úrovně B1 a B2, úrovně nižší jsou zastoupeny méně.

(c) Žánrově a tematicky jde rovněž o texty různorodé. Světové korpusy se někdy omezují na argumentativní a úvahové texty (srov. např. už jmenovaný ICLE), korpus C2J k takovému omezení nesahá. Největší jeho část tvoří eseje psané jako součást zkoušky, podobně jako je tomu u většiny světových korpusů. Jistý díl korpusu C2J tvoří kvalifikační práce, zvláště bakalářské, magisterské a doktorské. Protože jde o práce kvalitativně jiné než ručně psané eseje a také podmínky sběru jsou u nich poněkud odlišné, budou tvořit samostatný subkorpus a bude potřeba na jejich odlišnost pamatovat při analýze.

(d) Všechny texty jsou vybaveny podrobnými metadaty o mluvčích a textech, zvl. o podmínkách jejich vzniku a sběru. Ve srovnání s běžnými korpusy synchronními je u žákovských korpusů uvádění co nejdetailnějších a přesných dat o mluvčích a textech nezbytné.

V C2J se zaznamenává u mluvčích jejich věk, první jazyk, další jazyky, které zná, pobyt v České republice, případné kontakty s češtinou (např. je-li rodina bilingvní), úroveň znalosti češtiny a podrobně se zaznamenává doba a způsob jejího osvojování a učení (jak dlouho se žák učí češtinu, jak intenzívně, s využitím jakých učebnic).

U textu se zaznamenávají vedle tématu, žánru a rozsahu podrobně zejména podmínky jejich vzniku, tj. míra řízenosti jejich tvorby učitelem (téma ne/zadáno, žánr ne/zadán, velikost ne/zadána, čas ne/zadán), velikost a povaha opory (ne/možnost využít slovníku, event. přípravné aktivity při zadání apod.) a okolnosti sběru (psáno pro korpus, jako součást zkoušky apod.). S uvedenými parametry se pracuje při vyhledávání v korpusu; hodnota žákovského korpusu a akvizičního korpusu obecně s počtem zaznamenaných metadat roste.

4. Žákovské korpusy mohou být vybaveny rovněž lingvistickými anotacemi a zvláště specifickým anotačním typem, chybovou anotací. Anotace těchto korpusů je však mimořádně náročná, především proto, že jde o texty chybové, u nichž nelze zpravidla využít automatické anotační nástroje. Proto zůstává většina žákovských korpusů bez lingvistických anotací.

Korpus C2J bude – podobně jako další akviziční korpusy AKCES – zčásti vybaven standardní morfosyntaktickou anotací a lemmatizován a bude rovněž vybaven značkami chybovými[6]. Anotace přirozeně nepokryje korpus celý, jen jeho část.

Anotování chyby zahrnuje obecně pět možných kroků: identifikaci chyby, její lokalizaci, emendaci, klasifikaci/deskripci a evaluaci. Chybově anotované korpusy zpravidla realizují pouze některé z těchto kroků. Velmi vzácný je ten typ chybové anotace, která spočívá v pouhé identifikaci a lokalizaci chyby, není navržena žádná oprava a přirozeně ani deskripce či evaluace. Výhodou takového postupu je to, že se neztrácejí při analýze chyby různé možnosti její nápravy, popisu a hodnocení. Častější bývá realizace prvních tří, popř. čtyř kroků.

Čtyři anotační kroky volí také strategie chybové anotace v korpusu C2J. Řešitelský tým se musel vyrovnat s problémy plynoucími z faktu, že jde v některých případech o texty vysoce chybové, a rovněž s problémy spojenými s vysokou flektivností češtiny a jejím specifickým slovosledem. Anotační schéma, které tým vypracoval, poskytuje několik výhod, z hlediska češtiny velmi podstatných:

(a) dává možnost zachytit a opravit chyby v nespojitých řetězcích slov;

(b) dává možnost zachytit některé syntaktické chyby – ve shodě, jiném způsobu vyjádření závislosti, v zájmenném odkazování apod.;

(c) dovoluje kombinovat manuální a automatické chybové značkování (automatické značkování je založeno na porovnání chybných a korigovaných slov a tvarů);

(d) dovoluje vnést i do chybového textu morfosyntaktické značkování s využitím automatických nástrojů.

5. Emendace (opravy) textu se provádějí při anotaci na dvou rovinách. Ze základní roviny R0, do níž anotátor nezasahuje, se text přenáší do roviny R1, na níž se provádějí takové zásahy, aby jejich výsledkem byl řetězec v češtině existujících slov (vyjma autorských novotvarů, neidentifikovatelných lexémů apod.) a slovních tvarů.

Takto upravený text se pak přenáší do roviny R2, kde se provádějí zásahy, jejichž výsledkem je gramaticky korektní věta, ojediněle (u zájmenného odkazování) text. Jde tedy o chyby syntaktické, slovosledné, o chyby v negaci, zájmenném odkazování apod. Na této rovině se opravují i některé chyby další, např. v složených slovesných tvarech.

Emendaci a manuální anotaci každého textu provádějí nezávisle na sobě dva anotátoři, výsledek jejich práce sjednocuje a hodnotí supervizor. Anotátoři se při emendacích řídí zásadou minimální intervence do původního textu. Samotná anotace využívá i automatických postupů přejatých z korpusů národních nebo nově vyvinutých.

Anotační značky (označení typu chyby) se vnášejí do textu na dvou mezirovinách (mezi R0 a R1, mezi R1 a R2) do spojnic mezi příslušnými slovy či sekvencemi slov, v první fázi rovněž manuálně, následně pak, kde je to možné, automaticky.

Korpus C2J bude dokončen počátkem r. 2012; v dalších letech předpokládáme jeho doplňování a rozvíjení, především pokud jde o chybovou anotaci.

ZÁVĚR:

Učitelé češtiny jako druhého/cizího jazyka i badatelé v tomto oboru získají v novém žákovském korpusu užitečný nástroj pro výzkum, přípravu učebních materiálů i edukační praxi.

Literatura:

CORDER, P. 1981. Error Analysis and Interlanguage. Oxford : Oxford University Press, 1981.

ČERMÁK, František. 2005. Korpus, informace a lingvistika. In Přednášky z XLVIII. běhu LŠSS UK. Praha : Karolinum, 2005. s. 19–20.

GRANGER, S. 2002. A Birds-eye view of learner corpus research. In Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Eds. S. Granger, J. Hung, S. Petch-Tyson. Louvain : Université Catholique de Louvain, 2002, s. 3–35.

GRANGER, S. 2003. Error-tagged learner corpora and CALL: a promising synergy. CALICO, 20, 3, 2003, s. 465–480.

GRANGER, S. 2008. Learner Corpora. In Corpus Linguistics. An International Handbook. Eds. A. Lüdeling, M. Kytö. HSK 29. 1. VOL. 1. Berlin/New York : Mouton De Gruyter. 2008, s. 259–274.

GRANGER, S. 2003. The international corpus of learner English: a new resource for foreign language learning and teaching and second language acquisition research. TESOL Quarterly 37:3, s. 538–545, 2003.

JAMES, C. 1998. Errors in Language Learning and Use. Longman, 1998.

LEECH, G. 1998. Preface. In Learner English on Computer. Ed. S. Granger. Longman, 1998, s. xiv–xx.

NESSELHAUF, N. 2004. Learner corpora and their potential in language teaching. In How to Use Corpora in Language Teaching. Ed. J. Sinclair. Amsterdam/Philadelphia : Benjamins, 2004, s. 125–152.

SEEGMILLER, M. S.; FITZPATRICK, E. 2003. Practical aspects of corpus tagging. In Palc 2001: Practical Applications in Language Corpora. Ed. B. Lewandowska-Tomaszczyk. Peter Lang Pub Inc., 2003.

SELINKER, L. 1972. Interlanguage. IRAL, 1972, č. 10/3, s. 209–231.

ŠEBESTA, K. (v tisku). Akviziční korpusy. In Minulost, přítomnost a budoucnost v jazyce a v literatuře. Ústí nad Labem 1.-3. 9.2010. PF UJEP : Ústí nad Labem, 2010.

ŠEBESTA, K. (v tisku). Čeština cizinců v korpusu. In Přednášky z 54. běhu LŠSS. Praha : Filozofická fakulta UK v Praze.

ŠEBESTA, Karel. 2010. Korpusy češtiny a osvojování jazyka. Studie z aplikované lingvistiky/Studies in Applied Linguistics. 2010, roč. 1, č. 2, s. 11–34.

ŠTINDLOVÁ, B. (v tisku). Žákovský korpus. Budoucnost pro poznávání akvizice cizího jazyka. In Minulost, přítomnost a budoucnost v jazyce a v literatuře. Ústí nad Labem 1.-3. 9.2010. PF UJEP : Ústí nad Labem, 2010.

XIAO, R. 2008. Well-known and influential corpora In Corpus Linguistics. An International Handbook. Eds. A. Lüdeling, M. Kytö. HSK 29.1. Vol. 1. Berlin/New York : Mouton de Gruyter. 2008, s. 383–457.

Odkazy na www zdroje

HANA, J.; ROSEN, A.; ŠKODOVÁ, S.; ŠTINDLOVÁ, B. 2010. Error-tagged Learner Corpus of Czech. In Proceedings of The Fourth Linguistic Annotation Workshop (LAW IV). Association for Computational Linguistics&Uppsala University : Uppsala, 2010, s. 11-19. Dostupné z: www.aclweb.org/anthology/W/W10/W10-18.pdf

PRAVEC, N. 2002. A Survey of learner corpora. ICAME Journal [online], 2002, č. 26, s. 81–114. Dostupné z: http://icame.uib.no/ij26/pravec.pdf

SINCLAIR, J. 1996. EAGLES Preliminary recommendations on Corpus Typology. EAG--TCWG--CTYP/P. Version of May, 1996. Dostupné z: http://www.ilc.pi.cnr.it/EAGLES96/corpustyp/corpustyp.html

ŠKODOVÁ, S. 2009. Možnosti zachycení chyb v tzv. žákovských korpusech. In Eurolingua&Eurolitteraria 2009. Ed. O. Uličný. KČL TU, Liberec, 2009, s. 197–204. Dostupné z: http://kcl.fp.tul.cz/cs/sbeevlevo

TONO, Y. 2003. Learner corpora: design, development and applications. In Proceedings of the Corpus Linguistics 2003 Conference. Lancaster: United Kingdom, 2003, s. 800–809. Dostupné z: http://www.scribd.com/doc/8254550/Learner-Corpora

VALIŠOVÁ, P. 2009. Korpus jako zdroj systémového popisu české konjugace v učebnicích češtiny jako cizího jazyka. DP, FF MU, 2009. Dostupné z: https://is.muni.cz/auth/th/75420/ff_m_bl/?fakulta=1421;obdobi=4703;studium=499045

THOMAS, J. Using Corpora in Language Teaching and Learning. Teaching English with Technology, A Journal for Teachers of English. 2005, č. 6/1. Dostupné z: http://www.iatefl.org.pl/call/j_soft23.htm

[1] Learner corpus (S. Granger). V české literatuře se zpočátku objevil termín korpus studijní, termín korpus žákovský se nám jeví jako vhodnější.

[2] Podrobněji o specifických rysech žákovských korpusů a akvizičních korpusů obecně pojednává Šebesta, 2010.

[3] Projekt (reg. číslo CZ.1.07/2.2.00/07.0259) se řeší v rámci OP Vzdělávání pro konkurenceschopnost, je financován ze zdrojů Strukturálních fondů EU – Evropského sociálního fondu a ze státního rozpočtu ČR. Příjemcem dotace je Technická univerzita v Liberci, na řešení se jako partneři podílejí Univerzita Karlova v Praze a Asociace učitelů češtiny jako cizího jazyka. UK jako partner zajišťuje vznik korpusu. Hlavním koordinátorem projektu je K. Šebesta, sběr a primární zpracování materiálu koordinuje M. Hrdlička, T. Hrdličková, Z. Bedřichová a K. Šormová, zajištění korpusu včetně anotací Vl. Petkevič, anotační program vytvořil J. Hana, koordinátorkami dílčích aktivit projektu jsou S. Škodová a K. Váňová. Řešení se účastní několik pracovišť obou univerzit (KČL FP TUL, ÚBS, ÚČJTK a ÚTKL FF UK, ÚJOP UK), řada studentů doktorského, magisterského i bakalářského studia a četná pracoviště neakademická, především školy a občanská sdružení.

[4] Blíže in Šebesta, c. d.

[5] Další informace srov. Škodová, 2009.

[6] Podrobněji k této problematice Hana, J.; Rosen, A.; Škodová, S.; Štindlová, B., 2010.

Žákovský korpus a jeho využití pro češtinu jako druhý jazyk

Menu

Portrét

Fotoalbum

Poslední fotografie

Oblíbené odkazy

Vyhledávání

Archiv

RSS