Személyes eszközök
Ön itt áll: Főoldal Tagok Tempfli Péter Oszipovics Slovník Bohumila Hrabala, szerk. František Čermák, Václav Cvrček, Praha, Nakladatelství Lidové Noviny / Ústav Českého Národního Korpusu, 2009.

Slovník Bohumila Hrabala, szerk. František Čermák, Václav Cvrček, Praha, Nakladatelství Lidové Noviny / Ústav Českého Národního Korpusu, 2009.

by Tempfli Péter Oszipovics Utoljára módosítva 2011. 05. 03 00:30
— filed under:

Tempfli Péter Oszipovics recenziója

Bohumil Hrabal szótára

 

Slovník Bohumila Hrabala, szerk. František Čermák, Václav Cvrček, Praha, Nakladatelství Lidové Noviny / Ústav Českého Národního Korpusu, 2009.

 

A prágai Károly Egyetem Cseh Nemzeti Korpusz Intézete 2009-ben jelentette meg a tizenhárom éve elhunyt, de már életében legendává vált Bohumil Hrabal írói nyelvének szótárát. E kiadvány annak a sorozatnak a második része, mely 2007-ben Karel Čapek nyelvének feldolgozásával indult meg.

 

Az írói szótár a szótáraknak különös válfaja, a bennük feldolgozott lexikai anyag egy író teljes munkásságára, életműve egy részére vagy akár egyetlen művére korlátozódik. A műfaj viszonylag fiatal, a XIX. században jelent meg először az igény egyes kiemelkedő alkotók szókincsének feltérképezésére – ezekre a kiadványokra elsősorban (mint ahogy ma is) filológiai szempontok miatt volt szükség. Az írói szótárak készítésének nincsen általánosan elfogadott módszertana, azt mindig a kitűzött cél határozza meg – így léteznek szómagyarázó, szómutató és különböző statisztikai szempontok alapján készülő szótárak, illetve ezek kombinációi. Sokszor, ahogy azt például a XX. század ötvenes–hatvanas éveiben készült Puskin-szótár vagy az 1946 óta készülő Goethe-szótár is kimondja, az általános cél nem feltétlenül csak a szerző, hanem adott irodalomtörténeti korszak nyelvének általános feltérképezése – Puskin esetében ez kiemelten érvényes, hiszen az ő nyelve lett az orosz szépirodalmi sztenderd/nyelv alapja.

 

Hrabal szótára az írói szótárak legújabb generációjának képviselője, ezért csupán elvétve tartalmaz szómagyarázatokat, de szómutatókat nem, és az összes lehetséges kontextust sem. Módszertanilag ezt azzal indokolják, hogy Hrabal nyelvének mint kortárs szerzőének kell átláthatónak lennie, s minden további magyarázat már az irodalomtudomány, nem pedig a szótárkészítők feladata. A szómutató és a szavak összes lehetséges kontextusának közlése is okafogyottá vált, mivel az elektronikus formájú szövegek számítógépes feldolgozása viszonylag egyszerűvé tette e műveleteket. A nyomtatott szótár a Hrabal összes szövegeiből készült kivonat, melyet a szerzők célszerűnek véltek nyomtatott formában közreadni, hogy kézikönyvként kényelmesen használható legyen – míg a mellékelt cédé számos egyéb statisztikai adat kinyerését/hasznosítását is lehetővé teszi. A Hrabal-szótár tehát elsősorban az író műveiből összeállított korpusz statisztikai feldolgozásának eredményeit tartalmazza. Felmerül a kérdés: mire használhatók az ilyen eredmények? A munka első hozadéka, hogy anyagot biztosít egyetlen személy (Bohumil Hrabal) nyelvének általános vizsgálatához, ami számos tanulsággal szolgálhat a nyelvészetnek, még inkább pedig az irodalomtudománynak. Fontos, hogy a statisztikai eredmények általában relatív mutatók, így azokat valamilyen kontextusban lehet csak értelmezni. Vizsgálhatóvá válik a korpusz nyelve más írókéval (ezt meg is tették a készítők, amikor a Čapek-korpusszal vetették össze), mind pedig a cseh nyelv általános korpuszával összehasonlítva. Ehhez a vizsgálathoz a szerzők a cseh nyelv SYN2005 nevű korpuszát használják (ez a cseh nyelvi szinkrón állapot reprezentatívnak tartott korpusza, melyet a Cseh Nemzeti Korpusz Intézet tart fenn; több, mint 100 millió grammatikailag is feldolgozott lexikai egységet tartalmaz; a szövegek három fő forrása a szépirodalom, a tudományos szakirodalom és a publicisztika – az utóbbi alatt a napi sajtóban 2000 után megjelent szövegek értendők. (Bővebb angol nyelvű információ: http://ucnk.ff.cuni.cz/english/syn2005.php) Az ilyen vizsgálatok sok objektív adattal szolgálhatnak az irodalmi nyelv természetét illetően is.

 

Nagyon fontos módszertani kérdés a korpusz összeállításának mikéntje. Az adatbázist Bohumil Hrabal Összes művei (megjelent 1991–1997) alapján állították össze, így tartalmazza Hrabal összes prózai, költői és publicisztikai művét, azonban utólag eltávolították belőle az előszavakat, beszélgetéseket és interjúkat, illetve a szerző levelezését. Kényes kérdés az ismétlődő szövegrészek státusza – noha az összegyűjtött művekben a „végleges” változatok szerepelnek, a szerző alkotóművészetére igen jellemző saját szövegeinek újrafelhasználása, akár egyes részek gyakorlatilag változatlan átemelésével is. Az ilyen szövegrészek bent maradtak a korpuszban, azonban a gyakoriság-szótár külön indexben jelöli az egyes szavak előfordulását a duplikált szövegekben. A korpusz létrehozása után a szöveg úgynevezett lemmatizálása és tagelése következik. Az első folyamat a szöveg szavainak visszavezetését jelenti a kiinduló szótári alakra (lemmára), a tagelés (címkézés) folyamata pedig a szöveg ellátása a nyelvtani jelentéseket jelölő címkékkel. Ezek természetesen gépesített folyamatok, de a természetes nyelv nem teljesen logikus és átlátható felépítése miatt szükséges volt utólagos emberi beavatkozásra is. Külön problémát jelent Hrabal műveiben a beszélt nyelvi réteg kiemelkedő szerepe, mely természeténél fogva kevésbé sztenderdizált, mint az irodalmi nyelv, ezért gépi feldolgozása is nagyobb nehézségekbe ütközik. Az így létrehozott, lemmatizált és felcímkézett anyag már alkalmas volt arra, hogy segítségével megalkossák a szótárat. A beszélt nyelvi réteggel kapcsolatban még fontos megjegyezni, hogy a cseh nyelvészetben elfogadott az irodalmi/írott cseh nyelv (spisovná čeština) és a beszélt cseh nyelv (obecná čeština) megkülönböztetése, tekintettel a számos fonetikai, lexikai, grammatikai és szintaktikai eltérésre. A beszélt nyelvet a cseh nyelv interdialektusaként szokás definiálni, egyes szerzőknél pedig azzal a nézettel is találkozunk, hogy a cseh beszélők egyfajta diglosszia állapotában élnek.

 

A kiadvány legterjedelmesebb része az egyszerűen Szótár néven szereplő szógyakoriság-lista, amely a Hrabal műveiben előforduló 5000 leggyakoribb szó szótári alakját sorolja fel ábécé-rendbe szedve. A szólista az egyes szavak össz-előfordulásán túl megadja a „hosszabb próza”, „rövid próza”, költészet és publicisztika műfajokhoz sorolt szövegekben is az előfordulások gyakoriságát, amiből következtetés vonható le az egyes témák műfajonkénti megoszlását illetően. Szerepelnek a szóösszetételekben gyakran előforduló szavak tipikus kollokációi, illetve az is, ha egy szó kizárólag szóösszetételekben fordul elő. A szótár csillaggal jelöli azokat a szavakat, melyek a SYN2005 korpuszhoz képest kifejezetten gyakrabban fordulnak elő Hrabal nyelvében (ne felejtsük el, itt arányokról van szó, hisz a SYN2005 százszor nagyobb méretű a Hrabal-korpusznál). Ezek azok a „hrabali szavak”, melyek egyaránt kiemelten fontos információként szolgálhatnak a szövegek nyelvi és tartalmi jellemzőivel kapcsolatban. A Szótárnak kiegészítője a Frekvencia-szótár, mely előfordulásuk száma alapján rendezi sorba a szavakat. Kiderül például, hogy a Hrabal nyelvében olyan erősen túlreprezentált a pivo (sör) szó (ezt a Szótár állítja), hogy az a legszorosabban vett bázis-lexikájához tartozik, és csak 9 főnév előzi meg (úr, kéz, ember, szem, év, nap, fej, idő, ablak).

 

A Hapax-szótár című rész azokat a szavakat sorolja fel, melyek Hrabal nyelvében csupán egyszer fordulnak elő, és ezért különösebb statisztikai következtetést nem lehet levonni belőlük. Ez azért fontos, mert viszonylag jelentős mennyiségről van szó, a 12 700 szavas lista a teljes anyag szavainak több mint fél százalékát teszi ki. Fontos különválasztani a Hrabalra vonatkoztatható hapaxokat az abszolút hapaxoktól: az előbbiek csak Hrabal nyelvében fordulnak elő elszigetelten (aritmetika, nikotin), míg az utóbbiak az általános korpuszban sem találhatók meg (neusměv - nemmosoly, tygrovatý – tigrises). A Tulajdonnevek szótára elsősorban azt segít feltérképezni, miről/kiről írt a szerző, míg a Rövidítések szótára az alkotó korának reáliáiról tájékoztat.

 

A szótár másik, terjedelmében sokkal kisebb, de hasonlóan nagy munkát igénylő része a frazémák, hasonlatok, metaforák és káromkodások gyűjteménye – az ilyen adatok feldolgozását ugyanis sokkal bonyolultabb gépesíteni, mint az előzőekben bemutatott, statisztikai módszerekkel létrehozott részeket. A frazémák teljes listáját közlik a szerkesztők, ami 1917 különböző igei, és 1361 nem-igei frazémát jelent. Hasonlatokból összesen 102 különböző fajtát használ a szerző. A metaforák listája ennél is rövidebb, de a szerkesztők kiemelik: ez csupán válogatás. Ez valószínűleg azzal indokolható, hogy a metaforák felismerése és feldolgozása gépi módszerekkel gyakorlatilag megoldhatatlan feladat. A káromkodások listája azokat a főneveket tartalmazza, melyek Hrabal szövegeiben előforduló szidalmazások alapját képezik, illetve közli az erősen pejoratív felhangú és az explicit módon vulgáris szavakat is.

 

A kiadvány tartalmaz egy általános összefoglalást is Hrabal nyelvének statisztikai jellemzőiről. A viszonyítási pontokat a SYN2005- illetve a Čapek-korpusz jelenti. Néhány figyelemreméltó adat: míg Hrabal átlagos szókincse egymillió szóra vetítve 23 000 szó, addig a cseh nyelvben ez az adat átlagosan csak (a SYN2005 alapján) 6 700 szó. Szintén ugyanennyivel gazdagabb Čapek szókincse (23 000 szó), de az időbeli különbség miatt ez az adat kevésbé reprezentatív. Az elszigetelt, ritka szóalakok (hapaxok) előfordulásának aránya Hrabalnál majdnem ötször olyan magas, mint a nemzeti korpuszban. Hrabal mondatainak átlagos hossza 23 szó, a Nemzeti korpuszban ez a szám 12, míg Čapeknél 11 (ezt az adatot az olvasó intuitív megfigyelései is alátámasztják). Rendkívül érdekes statisztikai jellemző Hrabal szókincsének változása: 1937-től 1970-ig folyamatosan nőtt, 1970–1985 között elérte csúcspontját, körülbelül 33 000 szóval, majd a nyolcvanas évek végén-kilencvenes évek elején ismét visszaesett nagyjából 20 000 szóra. Szintén érdekes adat, hogy bár a szövegek hosszukkal arányosan egyre nagyobb szókinccsel dolgoznak (ez teljesen érthető), ha a szavak előfordulását visszavetítjük ezer szavas mintákra, a hosszú próza nyelve bizonyul a leglakonikusabbnak, azt követi a publicisztika és a rövid próza, a költészet pedig toronymagasan vezet a nyelvi differenciáltság tekintetében. Szintén a statisztikai adatok közé tartoznak a duplikált szövegek fontos kérdését érintő kimutatások – innen csak a legáltalánosabb adatot közöljük: Hrabal összes szövegének 7,5 százaléka duplum.

 

A fentieken túl a kiadvány tartalmaz még egy rövid pályaképet Hrabal munkásságáról, válogatást gondolataiból (a kulcsszavak szerint ábécé-rendbe rendezve), a szerző összes műveinek listáját, válogatott, elsősorban nyelvészeti bibliográfiát, és a pivo szó konkordanciáinak meglehetősen esetleges bemutatását.

 

Bohumil Hrabal szótára kiváló irodalomtudományi segédeszköz lehet, és bizton állíthatjuk, hogy a nyelvtudomány is számos következtetést vonhat le belőle a művészi nyelv természetére vonatkozóan.

 

Summary

 

In 2009, the Institute of the Czech National Corpus published the language dictionary of Bohumil Hrabal, the legendary writer, who passed away thirteen years ago. The dictionary represents the latest generation of writer-dictionaries, since it does not contain any word explanations or any possible word contexts. The publication is based on results of the statistical processing of the corpus, which comprises Hrabal's all published works: it includes all prose, poetry, and journalistic texts. Why are these results needed for linguistic and/or literary theory studies? Firstly, they allow examining a single writer's (Bohumil Hrabal's) language in its evolution. Secondly, it is possible to compare the results with other writers' langauge (e. g. the Čapek-dictionary) and with the general corpus of the Czech language (SYN2005).

 

The most extensive part of the dictionary is the word frequency dictionary, which contains the most frequent 5000 lemmas (words) from the Hrabal-corpus, listed in alphabetical order. This part also contains a frequency list, which organizes the lemmas (words) based on the number of occurrences in the whole corpus. The hapax-section of the dictionary lists the words that occur only once in Hrabal's language, and therefore, no statistical conclusion can be drawn about them.

 

The dictionary's another - in scope much smaller - part is the phraseology section, which includes Hrabal's phraseologisms, metaphors, similes, and a collection of profanities. The publication also contains a general summary of the statistical characteristics of Bohumil Hrabal's language. The benchmarks are the general corpus of the Czech language (SYN2005) and the Čapek-corpus (also published by Institute of the Czech National Corpus in 2007).

Shrnutí

Ústav Českého národního korpusu zveřejnil v roce 2009 slovník před třinácti lety zemřelého legendárního spisovatele: Slovník Bohumila Hrabala. Slovník představuje nejnovější generaci spisovatelských slovníků, protože neobsahuje žádné vysvětlivky, rejstříky, ani možné kontexty slov. Publikace je založena na výsledcích statistického zpracování korpusu, který zahrnuje všechnu prózu, poezii a publicistické texty Hrabala. K čemu můžeme použít tyto výsledky v jazykových a/nebo literárních studiích? Za prvé, umožňují zkoumat jazyk jediného spisovatele (Bohumila Hrabala) v jeho vývoji. Za druhé, je možné porovnat výsledky s jazykem jiných spisovatelů (např. Slovník Karla Čapka) a s obecnými korpusy českého jazyka (SYN2005).

 

Nejrozsáhlejší část slovníku je Frekvenční slovník slov obsahuje 5000 nejčastějších lemmat (slov) Hrabalova korpusu, které jsou uvedeny v abecedním pořadí. Částí tohoto dílu je i Seznam frekvencí, který uvádí lemmata (slova) na základě počtu výskytů v celém korpusu. Slovník hapax obsahuje seznam slov, které se v jazyce Hrabala vyskytují pouze jednou, a proto z nich nemůžeme vyvodit žádný statistický závěr.

 

Druhá, mnohem menší část slovníku je frazeologická, zahrnuje frazeologizmy, metafory, přirovnání a sbírku nadávek. Publikace také obsahuje obecné shrnutí statistických charakteristik jazyka Bohumila Hrabala. Měřítky jsou obecný korpus českého jazyka (SYN2005) a Korpus Karla Čapka (také publikoval Ústav Českého národního korpusu v roce 2007).

Dokumentummal kapcsolatos tevékenységek