# global option chunck
knitr::opts_chunk$set(fig.width=6, 
                      fig.asp=0.618,
                      fig.retina = 2,
                      dpi=300,
                      echo=TRUE)
options(figcap.prefix = "Figure", figcap.sep = ":", figcap.prefix.highlight = "**")
options(tabcap.prefix = "Table", tabcap.sep = ":", tabcap.prefix.highlight = "**")
# load the required packages and data
suppressMessages(library(tidyverse))
suppressMessages(library(readxl))
suppressMessages(library(stringr))
suppressMessages(library(bookdown))
load('memper_leipzig_main_data.RData')

© 2017 Gede Primahadi Wijaya Rajeg ORCID iD iconorcid.org/0000-0002-2047-8621
I Made Rajeg ORCID iD iconorcid.org/0000-0001-8989-0203

Sitiran:

Rajeg, G. P. W., & Rajeg, I. M. (2017). Mempertemukan morfologi dan linguistik korpus: Kajian konstruksi pembentukan kata kerja [per-+Ajektiva] dalam Bahasa Indonesia. In I. N. Sudipa & M. S. Satyawati (Ed.), Rona Bahasa: Buku persembahan kepada Prof. Dr. Aron Meko Mbete memasuki masa purnatugas (pp. 288–327). Denpasar, Bali, Indonesia: Swasta Nulus. https://doi.org/10.4225/03/5a0627de02453


Abstract

This contribution presents a corpus-based, constructional account on one of the derivational morphological constructions for causative transitive verbs in Indonesian, i.e. [per-+ADJ] schema; the schema expresses a schematic meaning of ‘to cause the object to have more of the characteristics denoted by the adjectival root’. Based on the Indonesian Leipzig Corpora, this study shows that the schema exhibits a low productivity, based on its type frequency and hapax/token ratio. Its low productivity is further evidenced at the level of the semantic subschemas of the construction, despite identifying a significantly strong and positive correlation between the established types per semantic subschemas and their hapax. Data for the conventionalised, prototypical instantiations of the schema, which can be useful for foreign learners of Indonesian, is also presented.

Keywords: Indonesian, Corpus Linguistics, Usage-based Linguistics, Construction Grammar, Construction Morphology, Morphological productivity


1 Pengantar2

Makalah ini3 mengulas beberapa unsur kajian morfologi yang dapat dilakukan dan diungkap melalui Linguistik Korpus (LKorp) (mis. Baayen, 2009; Stefanowitsch, 2017, hal. 276). Sebagai contoh awal, satu konstruksi yang akan dikaji adalah skema konstruksional pembentukan kata kerja transitif kausatif di Bahasa Indonesia (BInd), yaitu [per+Ajektiva] (selanjutnya disingkat [per+AJ]). Kata kerja kausatif yang mencontohkan skema ini secara skematis memiliki fungsi/makna ‘meningkatkan ciri atau sifat, seperti yang dinyatakan oleh ajektivanya, yang (sudah) dimiliki oleh objek’ (Sneddon, Adelaar, Djenar, & Ewing, 2010, hal. 103) (sub-bagian @ref(sneddon) memberikan pemaparan lebih jauh terkait skema ini). Terdapat tiga hal yang akan coba dijelajahi dengan metode LKorp terkait penggunaan skema [per-+AJ] dalam korpus.

Perihal pertama (sub-bagian @ref(produktivitas)) berkaitan dengan jumlah tipe kata (type frequency) yang mencontohkan skema [per+AJ] yang bisa ditemukan dalam korpus BInd. Jumlah tipe suatu skema morfologis menandai tingkat produktifitas terwujud (realised productivity) skema tersebut pada satu masa pemakaian suatu bahasa (Baayen, 2009, hal. 904; Hilpert, 2013, hal. 128, 2014, hal. 81). Sehubungan dengan jumlah tipe skema [per+AJ], kajian ini juga akan mengukur jumlah tipe yang hanya muncul satu kali dalam korpus; bentuk ini diistilahkan dengan hapax legomenon4 (Hilpert, 2013, hal. 128, 2014, hal. 82).

Hapax berhubungan dengan produktifitas potensial dari suatu skema konstruksional morfologis (Baayen, 2009, hal. 905-906). Produktifitas potensial ini diukur dengan membagi jumlah hapax dengan kekerapan kemunculan skemanya (Hilpert, 2013, hal. 128), atau yang dikenal dengan hapax/token ratio (HTR). HTR menggambarkan peluang suatu skema pembentukan kata guna berkembang, atau produktif digunakan, menghasilkan bentukan-bentukan baru pada pemakaian skema tersebut ke depannya (Hilpert, 2013, hal. 128, 2014, hal. 82). Rentangan nilai HTR adalah antara 0 (tidak ada hapax) dan 15 (semua tipe pencontohannya adalah hapax); Nilai HTR yang mendekati 0 memperkecil kemungkinan menemukan bentukan baru dari skema morfologis tersebut (Hilpert, 2013, hal. 129, 132, Table 4.1). Jumlah tipe dan hapax akan dibahas pada sub-bagian @ref(produktivitas).

Perihal kedua (sub-bagian @ref(tipesemantis)) menyangkut skema-skema bawahan (subschemas) dari skema [per-+AJ] dalam kaitannya dengan tipe semantis yang mengisi tempat Ajektiva di dalam skema tersebut. Persebaran jumlah tipe dan hapax terkait skema-skema bawahan semantis ini juga akan dijabarkan. Salah satu hal yang dapat diukur dari penjabaran tersebut adalah kaitan antara (i) jumlah tipe kata dari suatu tipe skema bawahan semantis, yang sebelumnya telah diketahui oleh seorang penutur bahasa, dan (ii) perluasan tipe skema bawahan semantis serupa yang mencakup dua hal, yaitu (i) pembentukan kata baru serta (ii) keberterimaan (dalam hal memahami) bentukan kata baru tersebut dari skema bawahan semantis yang sama (Bybee, 2013, hal. 6; Zeschel, 2010, hal. 202).

Berkaitan dengan perihal kedua, khususnya keberterimaan, perihal ketiga (sub-bagian @ref(cic)) membahas kekerapan kemunculan/pemakaian (token frequency) skema [per+AJ] dalam korpus melalui kata yang mencontohkannya. Data ini akan dapat membantu menentukan kata berskema [per-+AJ] yang sering muncul secara keseluruhan dalam korpus. Dalam hal representasi kognitif, data kekerapan dapat menjadi salah satu cerminan kelaziman dan keterpatrian kata tersebut dalam khasanah kebahasaan pemakai BInd (Bybee, 2010, hal. 29, 2013). Sub-bagian @ref(cic) akan menunjukkan bagaimana hubungan antara kekerapan kemunculan dan jumlah tipe dapat digunakan untuk mengukur ambang batas keterpatrian dan kelaziman pencontohan suatu skema konstruksional.

Ada tiga tujuan utama yang ingin dicapai oleh makalah ini. Sub-bagian berikut mengulas ketiga tujuan tersebut secara lebih rinci.

1.1 Tujuan metodologis

Makalah ini dimaksudkan untuk membangkitkan minat peneliti bahasa di Indonesia untuk mengenali lebih jauh metode Linguistik Korpus (Kuantitatif) (LKorp). Tidak bisa dipungkiri bahwa LKorp setakat ini berkembang begitu pesat menjadi unsur metodologis termutakhir di dalam penelitian kebahasaan, khususnya dalam lingkup Linguistik Kognitif (LKog) dan Tatabahasa Konstruksional, seperti Construction Grammar (CxG) dan Cognitive Grammar (CG) (Croft, 2001; Glynn & Fischer, 2010; Janda, 2013b; Langacker, 2013; Yoon & Gries, 2016). Data kuantitatif yang diperoleh dari korpus dapat diolah untuk mengukur dan menjawab pertanyaan-pertanyaan teoretis secara lebih empiris, selain memberikan pemahaman baru yang belum dijabarkan sebelumnya terkait suatu fenomena kebahasaan. Makalah ini akan menunjukkan beberapa unsur teoretis dari bidang morfologi yang dapat diulas melalui data korpus kuantitatif. Selain itu, makalah ini akan menyampaikan beberapa kendala yang bisa ditemukan di dalam kajian morfologi, utamanya pada BInd, melalui LKorp (sub-bagian @ref(kendala)).

Selanjutnya, sub-bagian @ref(pengolahan) di bawah menunjukkan bagaimana pengolahan data korpus untuk kajian kebahasaan pada masa sekarang ini akan lebih terbantu dengan memahami bahasa pemrograman (programming language) untuk pengolahan data (data science) secara umum. R (R Core Team, 2016) adalah salah satu bahasa pemrograman terdepan yang banyak digunakan di dalam kajian kebahasaan saat ini (Baayen, 2008; Gries, 2009, 2013b; Levshina, 2015). R dipandang begitu bermanfaat karena menawarkan satu wadah yang sesuai bagi dua rangkaian utama pengolahan data di dalam LKorp: (i) pengolahan teks dan (ii) analisis statistik. Salah satu unsur terpenting dari R selanjutnya adalah bahwa R sekaligus menjadi tempat untuk menulis laporan analisis (seperti halnya makalah ini)6 bersamaan dengan kode pemrograman bagi rangkaian analisis tersebut; hal ini bisa dilakukan dengan aplikasi dampingan dari R, yaitu RStudio (Wickham & Grolemund, 2017). Piranti yang ditawarkan oleh R tersebut dapat mewujudkan dua hal mendasar dalam tahap pengolahan data termutakhir, yaitu (i) keterbukaan data, dan (ii) keterciptaan-ulang proses analisisnya (reproducible data analysis) (Wickham & Grolemund, 2017).

1.2 Tujuan teoretis

Perkembangan pesat kajian kebahasaan berdasarkan Tatabahasa Konstruksional (CxG), utamanya yang menggunakan LKorp (mis. Yoon & Gries, 2016), lebih banyak muncul pada bahasa-bahasa Indo-Eropa, khususnya Bahasa Inggris. Secara umum, belum banyak kajian-kajian kebahasaan, lebih-lebih morfologi, untuk BInd yang (i) merujuk kepada kajian teoretis kontemporer berbasis penggunaan (usage-based approach), seperti LKog dan CxG, dan (ii) yang digabungkan dengan aspek analitis dan metodologis dari LKorp. Secara garis besar, makalah ini turut berkontribusi (i) memperluas kajian di dalam LKog dan CxG atas dasar data BInd, dan (ii) menambah khasanah kajian morfologi (dan sintaksis) yang telah dilakukan sebelumnya, misalnya oleh Arka dan kolega (Arka et al., 2009; Arka, Manurung, & Mistica, 2009), yang menggabungkan pendekatan Leksikal-Fungsional dan unsur komputasional.

Tujuan teoretis mengkhusus dari makalah ini adalah memberikan gambaran awal unsur-unsur pemakaian dari skema konstruksional pada tataran morfologi pada BInd, khususnya skema konstruksional kata kerja kausatif [per+AJ]. Unsur-unsur ini meliputi jumlah tipe dan kekerapan pencontohan skema [per-+AJ] serta tipe semantis dari skema tersebut. Kajian terhadap unsur pemakaian tersebut diharapkan dapat memberikan pemaparan teoretis dan konseptual yang lebih empiris dan terukur terkait kelaziman bentukan kata, rentangan semantis, serta produktifitas khususnya skema [per+AJ].

1.3 Tujuan praktis

Penerapan metode LKorp terhadap kajian morfologi yang akan dicontohkan pada makalah ini dapat memberikan data pemakaian nyata skema konstruksional kata kerja kausatif [per+AJ] di BInd. Data ini di antaranya berupa daftar kata-kata yang ditemukan dalam korpus yang mencontohkan skema tersebut. Salah satu kegunaan praktis data-data ini adalah sebagai sumber pengajaran BInd bagi penutur asing yang didasari atas bukti pemakaian nyata bagaimana suatu konstruksi atau unit kebahasaan lazimnya digunakan.

Dengan tidak bermaksud mengesampingkan peran intuisi penutur asli terkait keberterimaan suatu bentukan kata, penulis menganggap intuisi sangat berperan penting pada tahap memahami dan menganalisis/menafsirkan data, tetapi tidak dalam hal menciptakan secara sengaja data kebahasaan untuk tujuan analitis (Janda, 2013a, hal. 3). Pernyataan ini didasari atas praanggapan pendekatan linguistik berdasar penggunaan (usage-based linguistics), yang menjadi salah satu pilar penting dalam LKog dan CxG (Bybee, 2010; Janda, 2013a, hal. 2-3). Asas linguistik berdasar penggunaan memandang bahwa pengetahuan kebahasaan seseorang terbentuk dari kejadian-kejadian nyata tindak tutur pemakaian bahasa itu sendiri; dalam hal ini, data penggunaan nyata menjadi perhatian utama di dalam kajian kebahasaan, khususnya di dalam LKog dan CxG (Bybee, 2013). Singkatnya, data korpus untuk suatu konstruksi pada suatu bahasa dapat dijadikan bukti-bukti yang dapat ditawarkan kepada pelajar BInd; dalam hal ini pelajar diharapkan lebih memahami bagaimana, dan seberapa lazim (bukan benar- atau salah-nya), suatu unsur ke(tata)bahasaan dipakai oleh pengguna BInd.

2 Kajian pustaka

2.1 Skema konstruksional [per-+AJ] berdasarkan buku tatabahasa Bahasa Indonesia

Kata kerja yang mencerminkan skema [per-+AJ] adalah kata kerja transitif kausatif. Sneddon dkk. (2010, hal. 103) menyatakan bahwa kata kerja kausatif berskema [per-+AJ] berbeda dengan kata kerja serupa berskema [Aj+-kan]. Pada kata kerja dengan skema [Aj+-kan], objeknya dipandang belum memiliki suatu ciri yang dinyatakan oleh ajektiva-nya, namun disebabkan untuk memiliki ciri tersebut. Sebaliknya, acuan makna dari kata kerja berskema [per-+AJ] adalah objeknya sudah memiliki suatu ciri tertentu dan kemudian disebabkan untuk memiliki ciri tersebut pada tingkatan yang lebih tinggi. Misalnya, ajektiva besar ketika digunakan pada skema [Aj+-kan] menjadi membesarkan (diatesis aktif) (‘membuat sesuatu menjadi besar’), dan pada skema [per-+AJ] menjadi memperbesar (diatesis aktif) (‘membuat sesuatu yang sudah besar menjadi bertambah besar’).

Sneddon dkk. (2010, hal. 103) menyatakan bahwa sebagian penutur tidak terlalu memperhatikan perbedaan makna yang ditimbulkan oleh kata kerja dari kedua skema tersebut; penulis menganggap ini adalah suatu asumsi yang sangat menarik untuk bisa diujikan tingkat keabsahannya melalui eksperimen. Ditambahkan pula bahwa terdapat ajektiva yang dapat muncul baik dengan skema [per-+AJ] dan skema [Aj+-kan], namun menyampaikan makna yang berbeda (Sneddon et al., 2010, hal. 103). Salah satu contoh yang diberikan oleh Sneddon dkk. (2010, hal. 103) untuk asumsi tadi adalah perbedaan makna antara memperpanjang ‘menambah durasi suatu objek’ dan memanjangkan ‘membuat (se)suatu benda fisik bertambah panjang’. Ini juga merupakan asumsi tersendiri yang bisa dikaji dengan membandingkan persebaran kontekts pemakaian kedua afiks tersebut, tentunya berdasarkan data korpus. Selanjutnya, Sneddon dkk. (2010, hal. 103) menunjukkan bahwa terdapat ajektiva yang lazim muncul dengan skema [per-+AJ] (mis. memperkaya) tapi tidak dengan [Aj+-kan] (mis. (?)mengayakan); data korpus juga dapat menawarkan jawaban terkait asumsi ini, yang tidak dibahas kali ini. Perhatian utama makalah ini adalah memberikan pemaparan awal berdasarkan korpus terkait pemakaian skema [per-+AJ] secara mandiri, khususnya (i) tingkat produktifitas menyeluruhnya pada situasi pemakaian BInd setakat ini, (ii) rentangan semantis dan tingkat produktifitas per skema bawahan semantisnya, serta (iii) pencontohan-pencontohan lazim skema tersebut.

2.2 Asumsi mendasar Tatabahasa Konstruksional (CxG)

Secara teoretis, makalah ini dilandasi atas pendekatan LKog, khususnya Tatabahasa Konstruksional (constructionist approaches) (CxG) (Croft, 2001; Goldberg, 2006, 2013; Langacker, 2013)7. Pendekatan konstruksional melihat (tata)bahasa sebagai suatu khasanah jejaring konseptual terstruktur yang terdiri atas konstruksi, yaitu keberpasangan bentuk-dan-makna, atau unit simbolis. Bentuk utamanya dipahami sebagai unsur ortografis atau bunyi; makna dipahami sebagai struktur semantis dan pragmatis (Langacker, 2013, hal. 15, 30). Berikut ini adalah sitiran langsung terkait pemahaman konstruksi dari salah satu pakar kunci di dalam CxG:

All levels of grammatical analysis involve constructions: learned pairings of form with semantic or discourse function, including morphemes or words, idioms, partially lexically filled and fully general phrasal patterns. (…) Any linguistic pattern is recognized as a construction as long as some aspect of its form or function is not strictly predictable from its component parts or from other constructions recognized to exist. In addition, patterns are stored as constructions even if they are fully predictable as long as they occur with sufficient frequency.” (Goldberg, 2006, hal. 5, penekanan kapital sesuai aslinya)

Sitiran ini menunjukkan bahwa konstruksi dalam berbagai bentuk dan tingkat keterperinciannya adalah inti dari (analisis khasanah ke)bahasa(an) itu sendiri (Perhatikan Tabel @ref(tab:konstruksi) berikut). Artinya, tidak ada sekat-sekat yang tegas antara leksikon dan tatabahasa karena semuanya dipandang sebagai konstruksi. Leksikon dan tatabahasa membentuk suatu rentangan yang dibedakan pada tingkat kompleksitas, keterperincian, dan keterpatriannya (Croft, 2001, hal. 17; Langacker, 2013, hal. 21-22, 24). Pandangan konstruksional ini juga mengindikasikan unsur linguistik yang skematis pun, seperti konstruksi sintaksis transitif, tetap menyampaikan makna, meskipun bersifat skematis/abstrak (mis. ‘suatu entitas melakukan sesuatu dalam kaitannya dengan entitas yang lain’).

tribble(~`Karakteristik`, ~`Tipe Konstruksi`, ~Contoh,
        #----------------/---------------------/---------
        "Kompleks dan (sepenuhnya) skematis", "Kalimat aktif transitif BInd", "**Putu mempelajari Tatabahasa Konstruksional**",
        "Kompleks dan (sepenuhnya) spesifik", "Idiom; peribahasa", "buah + `<kata anggota tubuh>` (mis. **buah tangan**, **buah hati**); **Mata-mata**; **takkan lari gunung dikejar**",
        "Kompleks tapi terikat", "(Pembentukan) kata kompleks", "Pembentukan kata kerja: [Ajektiva+*-kan*] (mis. **panaskan**, **hidupkan**); Pembentukan kata majemuk nominal dengan skema [N + N] (mis. **sate ayam**; **toko buku**)",
        "Atomis dan spesifik", "Kata/leksikon", "**buku**, **kertas**",
        "Atomis, spesifik, tapi terikat", "Morfem", "*per-*, *ber-*"
        ) %>%
  as.data.frame() %>%
  knitr::kable(caption='Rentangan leksikon dan tatabahasa dalam CxG (disesuaikan dengan mengacu Croft [-@croft_radical_2001, hal. 17] dan Goldberg [-@goldberg_constructions_2006, hal. 5])^[Salah satu jenis CxG, yaitu *Radical Construction Grammar* (RCxG) utamanya tidak memandang adanya kelas kata, seperti ajektiva dan nomina [@croft_radical_2001, hal. 18].].', row.names = T)
Karakteristik Tipe Konstruksi Contoh
1 Kompleks dan (sepenuhnya) skematis Kalimat aktif transitif BInd Putu mempelajari Tatabahasa Konstruksional
2 Kompleks dan (sepenuhnya) spesifik Idiom; peribahasa buah + <kata anggota tubuh> (mis. buah tangan, buah hati); Mata-mata; takkan lari gunung dikejar
3 Kompleks tapi terikat (Pembentukan) kata kompleks Pembentukan kata kerja: [Ajektiva+-kan] (mis. panaskan, hidupkan); Pembentukan kata majemuk nominal dengan skema [N + N] (mis. sate ayam; toko buku)
4 Atomis dan spesifik Kata/leksikon buku, kertas
5 Atomis, spesifik, tapi terikat Morfem per-, ber-

Konstruksi skematis muncul dari peng-umum-an (generalisation), abstraksi, atau skematisasi, dari sejumlah pemakaian spesifik dan nyata suatu unit kebahasaan; terpatrinya skema konstruksional yang terabstraksi tersebut selanjutnya berperan untuk menuntun pembentukan ekspresi baru dengan skema yang sama (Bybee, 2010, hal. 26; Langacker, 2013, hal. 24). Pemahaman ini penting terkait Morfologi Konstruksional yang akan diulas pada sub-bagian @ref(cxnmorphology) berikut. Terkait dengan hal itu, Tabel @ref(tab:konstruksi) di atas juga menunjukkan bahwa kata kompleks yang terbentuk melalui skema pembentukan kata, seperti perkuat yang terdiri dari awalan per- dan ajektiva kuat, dipandang sebagai konstruksi dengan kompleksitas pada tataran kata (Booij, 2010; Langacker, 2013, hal. 24)

Sitiran dari Goldberg di atas juga menonjolkan peran dari kekerapan pemakaian suatu bentuk linguistik untuk dipandang sebagai suatu konstruksi. Artinya, tidak hanya pola konstruksi skematis saja yang tersimpan di dalam kahasanah kebahasaan seseorang; contoh-contoh spesifik dari konstruksi tersebut juga akan tersimpan, dan terpatri pada tingkatan tertentu, sepanjang contoh-contoh spesifik tersebut muncul pada tingkat kekerapan tertentu (periksa Bybee, 2010, hal. 23-25). Dengan kata lain, tingkat kekerapan pemakaian suatu konstruksi berkaitan dengan seberapa kuat unit tersebut tersimpan, terpatri, dan melekat dalam khasanah kebahasaan penutur suatu bahasa. Data kekerapan suatu unsur kebahasaan, yang pada dasarnya diperoleh dengan melihat bukti pemakaian bahasa pada korpus, menjadikan LKorp sebagai salah satu penyanding metodologis kunci di dalam kajian CxG (Gries, 2013a) karena secara konseptual terkait dengan, dan dapat meng-operasional-kan, asumsi-asumsi mendasar di dalam CxG khususnya, dan LKog pada umumnya.

2.3 Morfologi dari sudut pandang Tatabahasa Konstruksional (CxG)

Morfologi Konstruksional (Booij, 2010, 2017) memandang pola pembentukan kata, seperti [per-+AJ], sebagai suatu skema konstruksional. Pola ini dipandang sebagai skema karena merupakan abstraksi/skematisasi dari hubungan bentuk-dan-makna serangkaian pencontohan spesifik yang telah muncul di dalam suatu bahasa (mis. per-kuat, per-lemah, dan per-kokoh untuk kasus [per-+AJ]) (Booij, 2010, hal. 544). Skema ini kemudian menjadi titik tolak untuk membentuk kata baru (mis. per-ganteng, per-kekar) (periksa Tabel @ref(tab:per-semantics-table)). Selanjutnya, pola seperti [per-+AJ] dikatakan konstruksional atas dasar hasil skematisasi tersebut juga merupakan keberpasangan bentuk-dan-makna, yaitu konstruksi (Booij, 2010, hal. 545; Hilpert, 2014, hal. 80). Yang membedakan suatu skema konstruksional, seperti [per-+AJ], dengan pencontohannya, misalnya perkokoh dan perbanyak, adalah tingkat keterperincian unsur bentuk dan maknanya.

Sebagai contoh lain, pertimbangkan skema pembentukan kata benda deverbal [pe-+Verba] pada BInd. Sebagian unsur formal/bentuk dari skema ini, yaitu unsur Verba-nya bersifat skematis/terbuka, sedangkan sebagian lainnya, yaitu unsur awalannya, bersifat spesifik/tetap dan diisi oleh pe- (dengan keberagaman alomorfi nasal dari konsonan awal kata kerja yang menjadi dasarnya). Selanjutnya, kutub makna dari skema [pe-+Verba] juga bersifat lebih skematis (yang secara abstrak merujuk kepada ‘orang yang melakukan sesuatu’ seperti dinyatakan oleh kata kerja dasarnya) dibandingkan dengan masing-masing pencontohannya. Makna pencontohan-pencontohan skema [pe-+Verba] bersifat lebih terperinci dan tidak sepenuhnya dapat diperkirakan langsung berdasarkan kutub makna dari skema konstruksionalnya. Contohnya, kata perenang dan peneliti tidak hanya berarti ‘orang yang melakukan sesuatu’ seperti yang dinyatakan oleh unsur verbanya; penutur BInd umumnya mengetahui bahwa perenang bukanlah sembarang ‘orang yang berenang’, tapi mereka yang memiliki kemampuan untuk berenang secara baik (umumnya atlit). Begitu pun halnya peneliti yang bukan sekedar ‘orang yang meneliti’, tapi mereka yang melakukan penelitian sebagai suatu pekerjaan.

Bahwa penutur BInd umumnya mengetahui makna lazim kedua kata tersebut, yang melebihi makna skematis skema konstruksionalnya, mengindikasikan ke-konstruksional-an kata-kata tersebut sebagai suatu unit simbolis bentuk-dan-makna yang menjadi bagian dari khasanah pengetahuan ke(tata)bahasaan seorang penutur (Hilpert, 2014, hal. 80). Dengan kata lain, dari sudut pandang CxG, fakta bahwa suatu bentukan kata yang tidak sepenuhnya mewarisi sifat semantis skemanya, hingga sampai pada tingkat idiosinkretik (seperti pada perenang dan peneliti), tidak semata-mata membuat/membuktikan kata-kata tersebut tersimpan di dalam apa yang disebut dengan bilik leksikon; sedangkan kata-kata yang artinya dapat diprediksi dan/atau menuruti aturan konstruksional skemanya tidak (perlu) tersimpan di dalam khasanah kebahasaan (karena cukup sampai pada skema pembentuknya). Melainkan, CxG memandang bahwa semua hal yang penutur ketahui ketika penutur tersebut mengetahui suatu bahasa merupakan bagian dari khasanah kebahasaan penutur tersebut. Khasanah ini terdiri dari jejaring konstruksi, keberpasangan bentuk-dan-makna, yang berbeda pada tataran keterperincian/keskematisan, kompleksitas, dan keterpatriannya (lazim atau baru/novel) (Goldberg, 2006, hal. 5; Langacker, 2013, hal. 21).

Jadi, berdasarkan pendekatan linguistik berdasarkan penggunaan (usage-based linguistics), penutur akan menyimpan kata-kata spesifik dari suatu pola pembentukan kata, beserta segala rincian kontekstual, formal-struktural, dan semantis dari pemakaian kata tersebut, sepanjang kata-kata spesifik tersebut muncul dengan intensitas yang tinggi/sering (Bybee, 2010, hal. 24-25; Hilpert, 2014, hal. 66-67); hal ini terlepas dari apakah pola yang mendasari kata-kata tersebut berisifat prediktif/teratur dan tidak idiosinkretik. Hilpert (2014, hal. 80) menambahkan bahwa peran konstruksi yang disematkan pada suatu skema konstruksional morfologis ditandai dengan kemampuan penutur untuk membentuk dan memproses bentukan kata baru berdasarkan skema tersebut.

2.3.1 Keragaman semantis pencontohan skema konstrukional morfologis

Pandangan konstruksional bahwa penataan unsur leksikal dan gramatikal didasari atas khasanah yang sama, yaitu jejaring konstruksi yang dihubungkan secara pewarisan (inheritance), memungkinkan kajian terhadap keberagaman skema-skema bawahan (sub-schemas) dari suatu konstruksi (Trousdale, 2016, hal. 69). Sebagai contoh, skema kata benda deverbal [pe-+Verba] yang telah disinggung sebelumnya memiliki beragam jejaring makna, seperti pelaku/agen (pembeli), instrumen/alat (penghapus), dan penderita (pesuruh) (periksa Primahadi Wijaya R., 2013, hal. 77, yang mengulas hubungan metonimis terkait pembentukan kata dengan awalan pada BInd.). Hal ini menunjukkan keberagaman makna dari satu skema [pe-+Verba] muncul pada tataran skema bawahannya (Trousdale, 2016, hal. 69); skema bawahan tersebut secara mandiri memiliki batasan-batasan tertentu, baik formal dan semantis, yang tidak dimiliki sepenuhnya oleh pola utamanya (periksa lebih lanjut Booij, 2010, hal. 548). Pada contoh skema [pe-+Verba], batasan-batasan skema bawahannya bisa berupa (i) tipe (semantis) kata kerja yang umumnya dipakai di dalam skema tersebut, (ii) transitifitas kata kerja-nya, dan (iii) bagaimana bentukan nomina dengan tipe kata kerja tersebut digunakan di dalam kalimat guna menyampaikan suatu makna tertentu (mis. agen, penderita, dll.), yang dapat bersifat idiosinkretik.

Pada makalah ini, unsur semantis yang akan diulas adalah tipe semantis ajektiva yang digunakan dalam konstruksi [per+AJ]. Unsur ini dapat menggambarkan (i) rentangan semantis dari konstruksinya secara umum, dan (ii) distribusi tipe skema bawahan semantis dalam kaitannya dengan jumlah tipe dan hapax yang mencontohkan skema-skema bawahan tersebut (lihat Gambar @ref(fig:semanticsplot) di bawah).

3 Data dan Metodologi

Bagian ini akan memaparkan (i) sumber data yang digunakan serta (ii) langkah-langkah yang dilakukan dalam memperoleh data yang akan dibahas di Bagian @ref(hasil). Cakupan lebih banyak akan diberikan pada unsur kedua.

3.1 Sumber data

Data korpus BInd yang digunakan pada makalah ini adalah Indonesian Leipzig Corpora. Korpus ini merupakan bagian dari Leipzig Corpora Collection (Biemann, Heyer, Quasthoff, & Richter, 2007; Quasthoff & Goldhahn, 2013)8 dan dapat diunduh secara cuma-cuma. Korpus BInd ini tersimpan dalam bentuk teks kalimat acak yang dikumpulkan melalui internet. Jumlah kalimat dan kata dari masing-masing berkas teks yang saat ini tersedia untuk Indonesian Leipzig Corpora ditampilkan pada Tabel @ref(tab:leipzig-corpus) berikut.

corpus_total_words <- leipzig_count %>% .$Size %>% str_replace_all(",", "") %>% as.numeric() %>% sum() %>% format(big.mark=".", decimal.mark=",")
leipzig_count %>%
  rename(`Berkas korpus`=Corpus, `Jumlah kata`=Size) %>%
  mutate(`Jumlah kata`=str_replace_all(`Jumlah kata`, ",", ".")) %>%
  knitr::kable(caption="Jumlah keseluruhan kata dari masing-masing berkas korpus pada *Indonesian Leipzig Corpora*.", row.names = T)
Berkas korpus Jumlah kata
1 ind_mixed_2012_1M-sentences.txt 15.052.159
2 ind_news_2008_300K-sentences.txt 5.875.376
3 ind_news_2009_300K-sentences.txt 5.868.276
4 ind_news_2010_300K-sentences.txt 5.874.158
5 ind_news_2011_300K-sentences.txt 5.852.211
6 ind_news_2012_300K-sentences.txt 5.873.523
7 ind_newscrawl_2011_1M-sentences.txt 16.376.426
8 ind_newscrawl_2012_1M-sentences.txt 16.916.778
9 ind_web_2011_300K-sentences.txt 4.472.885
10 ind_web_2012_1M-sentences.txt 15.844.629
11 ind_wikipedia_2016_1M-sentences.txt 16.506.714
12 ind-id_web_2013_1M-sentences.txt 16.406.671
13 ind-id_web_2015_3M-sentences.txt 49.849.398

Jumlah kalimat dari masing-masing korpus ditunjukkan dalam bagian nama berkas korpus tersebut (mis. ..._1M-sentences mengindikasikan korpus berjumlah satu juta kalimat). Ukuran keseluruhan dari tiga belas berkas korpus yang digunakan berjumlah 180.769.204 kata.

3.2 Pengolahan data

3.2.1 Penggalian kata-kata potensial pencontohan dari skema [per+AJ]

Proses pemerolehan data dari korpus dan analisisnya dilakukan sepenuhnya menggunakan sejumlah fungsi yang ada dalam program R. Pertama, secara khusus, penulis merancang naskah pemrograman untuk menelusuri kata-kata potensial yang mencontohkan pola [per+AJ] pada keseluruhan korpus. Kedua, pencarian dilakukan dengan merancang pola pencarian yang dikenal dengan sebutan regular expressions (RegEx) (lihat Wickham & Grolemund, 2017, hal. 207-207). RegEx yang disusun adalah sebagai berikut: \\b(?i)(mem|di|ter)(per+[a-z-]{3,})\\b. RegEx ini dapat dialihbahasakan menjadi:

carilah kata-kata (i) yang bisa terdiri atas huruf kecil atau besar9, (ii) yang diawali oleh awalan mem-, ter-, dan di-, (iii) yang kemudian diikuti oleh awalan target per-, dengan huruf r muncul paling sedikit satu kali atau lebih10 (ditandai dengan +), kemudian (iv) diikuti oleh karakter alfabetis dan strip (-)11 paling sedikit berjumlah tiga karakter atau lebih ({3,}).

Naskah pemrograman yang dirancang juga secara otomatis menghasilkan (i) daftar kata yang berhasil ditangkap oleh RegEx-nya, (ii) frekuensi kemunculannya, dan (iii) nama berkas korpus di mana kata tersebut ditemukan. Hasil ini ditampilkan pada Tabel @ref(tab:per-word-corpus) berikut.

per_words_corpus %>% arrange(desc(n)) %>% top_n(5,n) %>%
  rename(Kata=match, `Berkas korpus`=corpus_id, Kekerapan=n) %>%
  mutate(Kekerapan=format(Kekerapan, big.mark=".", decimal.mark=",")) %>%
  knitr::kable(caption = "Hasil awal lima teratas dari pencarian kata-kata yang diawali dengan *memper-*, *diper-*, dan *terper-* di dalam korpus.", row.names = T)
Kata Berkas korpus Kekerapan
1 diperlukan ind-id_web_2015_3M 10.791
2 diperoleh ind-id_web_2015_3M 8.840
3 memperoleh ind-id_web_2015_3M 8.799
4 diperkirakan ind-id_web_2015_3M 5.378
5 memperhatikan ind-id_web_2015_3M 4.651

Yang penting dicatat adalah RegEx yang dirancang hanya merinci tiga awalan diatesis yang langsung diikuti oleh per-, bukan kata dasarnya secara spesifik; calon kata dasarnya secara lebih luas ingin ditangkap dengan karakter alfabetis pada bagian [a-z-]{3,} dari pola pencariannya. Karena itulah pada Tabel @ref(tab:per-word-corpus) muncul kata-kata seperti diperlukan dan memperhatikan yang tidak termasuk ke dalam bahasan makalah ini.

3.2.2 Pemecahan struktur morfologis kata dengan MorphInd

Untuk mengetahui kata mana yang mencontohkan pola [per-+AJ] dari daftar kata pada Tabel @ref(tab:per-word-corpus), penulis menjalankan naskah pemrograman yang disebut MorphInd (Larasati, Kuboň, & Zeman, 2011). MorphInd dirancang untuk membedah struktur internal kata dalam BInd. Program ini dapat juga dijalankan melalui R12. Jadi, ketika MorphInd diberikan masukan kata seperti memperkuat, MorphInd akan memecah awalan dan kata dasarnya, sekaligus menandai kelas kata dari kata dasarnya. Keluaran pembedahan kata dari MorphInd ditunjukkan pada kolom Keluaran MorphInd pada Tabel @ref(tab:per-adj) berikut.

 per_adj %>%
  top_n(5, n) %>%
  select(-n) %>%
  mutate(tag=str_replace_all(tag, "(<.>)", "`\\1`")) %>%
  rename(Kata=match, `Awalan (diatesis)`=pref, `Kata dasar`=base, `Keluaran *MorphInd*`=tag) %>%
  knitr::kable(caption = "Nukilan data dari pola [*per*+AJ] yang berhasil dikenali oleh sistem dalam *MorphInd*.", row.names = T)
Kata Awalan (diatesis) Kata dasar Keluaran MorphInd
1 memperkuat mem perkuat meN+per+kuat<a>_VSA
2 mempercepat mem percepat meN+per+cepat<a>_VSA
3 memperluas mem perluas meN+per+luas<a>_VSA
4 diperkuat di perkuat di+per+kuat<a>_VSP
5 mempermudah mem permudah meN+per+mudah<a>_VSA

Yang perlu diperhatikan terkait MorphInd adalah program ini belum sepenuhnya mengenali dan membedah kata-kata masukannya. Kata-kata yang tidak dikenali tersebut akan ditandai dengan <x>. Perhatikan Tabel @ref(tab:per-unknown-tag) berikut.

read_delim("per_unknown_tag.txt", delim="\t") %>% 
  filter(per_adj=='y') %>% 
  sample_n(3) %>%
  bind_rows(read_delim("per_unknown_tag.txt", delim="\t") %>%
              filter(is.na(per_adj)) %>%
              sample_n(2)) %>%
  select(match, tag) %>%
  mutate(tag=str_replace_all(tag, "(<.>)", "`\\1`")) %>%
  rename(Kata=match, `Keluaran *MorphInd*`=tag) %>%
  knitr::kable(caption = "Nukilan data kata-kata yang tidak dikenali oleh sistem dalam *MorphInd*.", row.names = T)
Kata Keluaran MorphInd
1 memperunyam memperunyam<x>_X--
2 memperkecik memperkecik<x>_X--
3 memperirit memperirit<x>_X--
4 mempertarukan mempertarukan<x>_X--
5 memperkirakana memperkirakana<x>_X--

Untuk kata-kata yang tidak dibedah oleh MorphInd ini, penulis memeriksa satu per satu daftar kata-katanya. Tujuannya adalah untuk mengetahui apabila (i) memang terdapat kata yang mencontohkan skema [per-+AJ] tetapi belum ada pada sistem MorphInd, dan (ii) terdapat kata yang sudah dikenali, seperti memperkuat, namun terdapat kesalahan dalam penulisannya di dalam korpus, menjadi memperkuar. Data tambahan yang ditemukan dari hasil pemeriksaan mandiri tersebut digabungkan dengan data yang telah berhasil dikenali oleh MorphInd; data ini kemudian menjadi dasar pembahasan pada Bagian @ref(hasil) berikut.

3.2.3 Sejumlah kendala

Selain terdapatnya sejumlah kata yang belum dikenali oleh MorphInd, sistem pencarian menggunakan RegEx yang dipaparkan sebelumnya utamanya juga memunculkan beberapa kendala. Salah satu yang penting adalah kemungkinan adanya salah ketik (typo), dari pengguna bahasa yang terdapat dalam korpus seperti pada sitiran (1) berikut.

  1. “Kedua, kesepakatan hukuman terhadap hal-hal yang telah dipersiap kan. (ind-id_web_2015_3M:1276562)13.

Kata dipersiap pada kalimat (1) seharusnya tidak dipisahkan oleh spasi dengan akhiran -kan. Akhiran ini tidak ditangkap oleh rancangan RegEx karena dirancang agar komputer dapat mengetahui apa yang dimaksud dengan kata: serangkaian karakter alfabetis (atau alfanumerik dan strip) yang dipisahkan oleh spasi. MorphInd, akan tetapi, berhasil memecah dipersiap pada (1) menjadi di+per+siap<a>_VSP. Dalam hal ini, dipersiap pada (1) menjadi false positive, atau hasil yang berhasil (positive) ditangkap sesuai dengan rancangan RegEx, tapi tidak sesuai secara konseptual (false) sebagai pencontohan skema [per+AJ]. Akan tetapi, terdapat juga kemunculan dipersiap yang tampaknya secara penulisan dan konteks pemakaian mencontohkan skema [per+AJ], seperti pada sitiran (2) berikut:

  1. mengingat kegiatan ini adalah kegiatan internasional oleh karenanya harus dipersiap lebih matang agar dalam pelaksanaannya nanti berlangsung dengan baik. (ind_mixed_2012_1M:302874)

Bentuk aktif mempersiap juga berhasil didapat; sebagian besar di antaranya adalah salah ketik, atau mungkin lebih tepatnya sengaja dipisahkan karena tuntutan aturan (mis. di buku, dsb.) yang mesti memisahkan akhiran dengan kata dasarnya di ujung baris menggunakan strip "-" (lihat (3)).

  1. Namun walaupun hal-hal di atas belum terjadi, kita dapat mempersiap- kannya dahulu. (ind_web_2012_1M:619478)

Hanya sebagian kecil dari bentuk mempersiap yang dapat dianggap sebagai data pencontohan pola [per+AJ], seperti pada contoh (4) berikut.

  1. UAS kali ini saya tidak mengalami kesulitan, hal dikarenakan saya sudah mempersiap diri dengan seoptimal mungkin. (ind-id_web_2015_3M:1639943)

Sub-bagian ini ingin menampilkan fakta bahwa secanggih apapun tahapan dan piranti yang digunakan untuk mengolah data dalam korpus, terdapat kendala-kendala yang dapat ditemui. Kendala ini, seperti yang telah dicontohkan, bisa muncul dari (i) keadaan ortografis pemakaian bahasa di dalam korpus yang dikaji, misalnya salah ketik, atau (ii) sistem yang digunakan, seperti MorphInd, belum mencakup keseluruhan khasanah kata yang mencontohkan suatu skema konstruksional morfologis.

4 Hasil dan pembahasan

cxn_sum <- per_adj_base_combined %>% 
  .$n %>% 
  sum()
per_adj_type_freq <- dim(per_adj_base_combined)[1]
per_adj_hapax <- per_adj_base_combined %>% 
  filter(n==1) %>% 
  dim() %>% 
  .[1]
per_potential_prod <- per_adj_hapax/cxn_sum

4.1 Produktifitas terwujud dan produktifitas potensial konstruksi [per-+AJ]

Jumlah tipe kata yang mencontohkan suatu skema konstruksional morfologis menjadi salah satu penanda kadar produktifitas skema tersebut (Hilpert, 2014, hal. 81). Untuk skema [per-+AJ] secara umum, terdapat 171 tipe kata yang mencontohkan konstruksi tersebut dari 78.595 kekerapan kemunculan totalnya (lihat Tabel @ref(tab:per-semantics-table) di bawah). Kemunculan 171 tipe kata dari skema [per-+AJ] dapat dianggap rendah, mengingat besarnya ukuran korpus yang digunakan kali ini, yaitu berjumlah 180.769.204 kata.

Guna melengkapi pembahasan di atas, akan dipaparkan rasio produktifitas potensial dari skema [per-+AJ]. Rasio ini didasari atas jumlah hapax dari skema tersebut. Skema [per-+AJ] memiliki 58 tipe hapax (atau hanya 33.92%) dari 171 jumlah keseluruhan tipenya. Persentase jumlah hapax ini bisa dipandang cukup rendah. Selanjutnya, nilai perbandingan hapax/token (HTR) dari skema [per-+AJ] juga sangat kecil, yaitu 0.00074; jumlah tipe, hapax, dan HTR dari skema [per-+AJ] dapat mengindikasikan rendahnya produktifitas skema tersebut, paling tidak berdasarkan data korpus yang dikaji.

Terkait rendahnya kadar produktifitas formal skema [per-+AJ] ini, salah satu praanggapan yang bisa diujikan kembali pada penelitian selanjutnya adalah sebagai berikut. Terdapat kemungkinan bahwa konstruksi yang lebih produktif digunakan untuk mengungkapkan makna yang dibawa oleh [per-+AJ] (yaitu, ‘membuat X menjadi lebih AJ’) adalah konstruksi perifrastik, seperti konstruksi kausatif perifrastik [membuat X menjadi lebih AJ]. Penelitian selanjutnya dapat menguji anggapan ini dengan membandingkan persebaran jumlah ajektiva yang muncul dengan konstruksi kausatif perifrastik [membuat X menjadi lebih AJ] (dan variasinya) dan skema [per-+AJ]. Sub-bagian @ref(tipesemantis) berikut melihat lebih dalam produktifitas pada tataran skema bawahan semantis dari skema [per-+AJ], sekaligus menampilkan keseluruhan data tipe kata kerja [per-+AJ] di dalam korpus (lihat Tabel @ref(tab:per-semantics-table)).

4.2 Skema bawahan semantis skema konstruksional [per-+AJ]

per_adj_sem <- per_adj_base_combined %>% 
  group_by(sem) %>% 
  summarise(n=sum(n), 
            type=n_distinct(root)) %>%
  left_join(per_adj_base_combined %>% 
              filter(n==1) %>% 
              group_by(sem) %>% 
              summarise(hapax=n_distinct(root)), by = "sem") %>%
  mutate(est_type=type-hapax,
         ttr=round((type/n)*100, 2), 
         htr=round((hapax/n)*100, 2),
         htt=round((hapax/type)*100,2)) %>%
  arrange(desc(n))
per_adj_sem_type <- tibble()
for (i in seq_along(per_adj_sem$sem)) {
  type <- per_adj_base_combined %>% 
    filter(sem==per_adj_sem$sem[i]) %>% 
    mutate(words=str_c(str_c(.$root, " (", format(.$n, big.mark=".", decimal.mark=","), ")", sep=""), collapse="; "),
           words=str_replace_all(words, "(\\()\\s+", "\\1")) %>% 
    .$words %>% 
    unique()
  per_adj_sem_type <- bind_rows(per_adj_sem_type, tibble(sem=per_adj_sem$sem[i], word_types=type))
}
per_adj_sem <- left_join(per_adj_sem, per_adj_sem_type, by ="sem")
rm(per_adj_sem_type)

Sub-bagian ini akan memaparkan skema bawahan semantis konstruksi [per-+AJ] atas dasar tipe semantis kata dasar ajektivanya. Acuan untuk pengelompokan tipe semantis ajektiva tersebut mengacu pada kategori yang dibahas oleh Dixon (2004), beserta makalah-makalah di dalam Dixon dan Aikhenvald (2004)14.

Mengingat ulasan pada sub-bagian @ref(semanticsubschema) sebelumnya, keberagaman tipe semantis ajektiva yang muncul dengan konstruksi [per-+AJ] dapat menjadi dasar munculnya skematisasi lokal dari konstruksi [per-+AJ] pada tataran semantis. Dalam hal ini terdapat gugusan skema bawahan semantis (dari skema [per-+AJ] utama) yang saling berjejaring (Trousdale, 2016, hal. 69). Dari sudut pandang CxG, jejaring pengetahuan semantis seperti ini, yang terabstraksi dari pencontohan nyata suatu skema konstruksional, juga merupakan bagian dari khasanah kebahasaan seseorang.

Gambar @ref(fig:semanticsplot) menampilkan rentangan semantis skema bawahan konstruksi [per-+AJ]. Rentangan ini dikaitkan dengan distribusi (dalam persentase) (i) kekerapan, (ii) jumlah tipe kata, dan (iii) jumlah hapax dari masing-masing tipe skema bawahan semantis konstruksi [per-+AJ].

df <- per_adj_sem %>%
  select(n, type, hapax, sem) %>%
  mutate(`% kekerapan`=round(n/sum(n)*100, 2),
         `% jumlah tipe`=round(type/sum(type)*100, 2),
         `% jumlah hapax`=round(hapax/sum(hapax)*100, 2),
         sem=replace(sem, sem=='propensitas', 'kecenderungan manusia\n(*human propensity*)'),
         sem=replace(sem, sem=='ukuran', 'ukuran/dimensi'),
         sem=replace(sem, sem=='nilai', 'nilai (*value*)')) %>%
  rename(kekerapan=n, `jumlah tipe`=type, `jumlah hapax`=hapax) %>%
  select(sem, `% kekerapan`, `% jumlah tipe`, `% jumlah hapax`) %>%
  gather(key=dist, value=value, -sem) %>%
  arrange(dist)
df %>%
  ggplot(aes(x=reorder(sem, value), y=value, fill=dist)) +
  geom_col(position = "dodge") +
  facet_wrap(~dist) +
  coord_flip() +
  theme_bw() +
  scale_fill_grey(start = 0.1, end=0.8) +
  theme(legend.position = 'none', axis.title = element_text(size=11), axis.text = element_text(size=9)) +
  labs(x='Tipe semantis', y=NULL, fill=NULL)

Ada beberapa hal yang bisa diperoleh dari data pada Gambar @ref(fig:semanticsplot). Pertama, dari segi persentase kekerapan, skema [per-+AJ] utama memiliki beberapa skema semantis bawahan yang prototipikal (dalam arti sering muncul di dalam korpus secara keseluruhan) di antara gugusan skema bawahan semantis lainnya. Empat di antaranya adalah ciri_fisik (mis. kuat, parah), ukuran (luas, panjang), kesulitan (mudah, lancar), dan kecepatan (cepat, lambat). Tingginya kekerapan keempat dimensi semantis ini mengindikasikan bahwa keempat ciri semantis inilah yang derajatnya sering ditingkatkan berdasarkan makna skematis konstruksi kausatif [per-+AJ], yaitu ‘membuat X menjadi lebih AJ’. Dalam hal ini, skema [per-+AJ] dapat digambarkan sebagai suatu jejaring konstruksional (Booij, 2010, hal. 546-547; Trousdale, 2016, hal. 69-70).

Aspek kedua yang bisa dilihat adalah persentase jumlah tipe dan hapax masing-masing tipe semantis. Empat tipe semantis teratas dengan jumlah tipe terbanyak adalah ciri_fisik, kecenderungan manusia (kaya, cantik, bodoh), ukuran, dan nilai (buruk, indah, bagus). Jadi keempat skema bawahan semantis ini, berdasarkan pengukuran proporsi jumlah tipenya sendiri, dapat dikatakan paling produktif dibandingkan dengan skema bawahan semantis lainnya.

Kemudian, dari segi persentase jumlah hapax, skema bawahan kecenderungan manusia memiliki persentase jumlah hapax paling banyak, diikuti dengan ciri_fisik dan nilai. Hal ini dapat menunjukkan bahwa pemakaian skema bawahan semantis [per-+AJ] bertipe kecenderungan manusia lebih kerap diperluas berdasarkan analogi semantis skemanya (periksa Zeschel, 2010). Artinya, penutur mengingat tipe semantis ajektiva yang mencontohkan skema semantis bawahan kecenderungan manusia dan kemudian memperluas pemakaian skema tersebut dengan menggunakan ajektiva baru (yang bisa ditunjukkan oleh jumlah hapax-nya) bertipe semantis yang sama (dalam hal ini kecenderungan manusia).

Akan tetapi, ketika jumlah hapax masing-masing tipe semantis dikaitkan dengan kekerapannya dalam pengukuran hapax/token ratio (HTR), masing-masing tipe semantis tersebut tidak dapat dikatakan produktif. Hasil penghitungan ini ditampilkan pada Tabel @ref(tab:htr-semantics) berikut.

htr_sem <- per_adj_sem %>% arrange(desc(htt)) %>% 
  mutate(sem=replace(sem, sem=='propensitas', 'kecenderungan manusia (*human propensity*)'),
         sem=replace(sem, sem=='ukuran', 'ukuran/dimensi'),
         sem=replace(sem, sem=='nilai', 'nilai (*value*)'),
         sem=str_c("<span style='font-variant:small-caps;'>", sem, "</span>", sep=""),
         n=prettyNum(n, big.mark=".", decimal.mark=",")) %>% 
  select(sem, n, type, hapax, htr, htt) %>% 
  arrange(desc(hapax))
htr_sem %>%
  rename(`Tipe semantis`=sem, Kekerapan=n, `Jumlah tipe`=type, `Jumlah *hapax*`=hapax, `Rasio *hapax*/*token* (%)`=htr, `Rasio *hapax*/tipe (%)`=htt) %>%
  select(-`Rasio *hapax*/tipe (%)`) %>%
  knitr::kable(caption = "Rasio *hapax* berbanding kekerapan untuk skema bawahan semantis konstruksi [*per-*+AJ]; data diurutkan berdasarkan jumlah *hapax* terbanyak.", row.names = T)
Tipe semantis Kekerapan Jumlah tipe Jumlah hapax Rasio hapax/token (%)
1 kecenderungan manusia (human propensity) 3.713 33 18 0.48
2 ciri_fisik 24.299 36 10 0.04
3 nilai (value) 1.786 21 7 0.39
4 warna 2.559 11 5 0.20
5 ukuran/dimensi 23.697 22 4 0.02
6 usia 22 6 3 13.64
7 kesulitan 8.064 11 3 0.04
8 jumlah 2.629 6 2 0.08
9 posisi 297 7 2 0.67
10 kualifikasi 23 7 2 8.70
11 kekerapan 9 3 1 11.11
12 kecepatan 11.497 8 1 0.01

Hanya tipe semantis usia dan kekerapan yang nilai HTR-nya menunjukkan angka di atas 10%. Artinya, untuk tipe semantis usia, 13.64% dari total kekerapannya adalah hapax; narasi serupa digunakan untuk memahami nilai HTR tipe semantis lainnya (Stefanowitsch, 2017, hal. 284). Tabel @ref(tab:per-semantics-table) berikut menampilkan semua tipe ajektiva mencontohkan skema [per-+AJ] yang ditemukan di dalam korpus.

per_adj_sem %>%
  arrange(desc(hapax)) %>%
  mutate(sem=replace(sem, sem=='propensitas', 'kecenderungan manusia (*human propensity*)'),
         sem=replace(sem, sem=='ukuran', 'ukuran/dimensi'),
         sem=replace(sem, sem=='kualifikasi', 'kualifikasi (*qualification*)'),
         sem=replace(sem, sem=='nilai', 'nilai (*value*)'),
         sem=str_c("<span style='font-variant:small-caps;'>", sem, "</span>", sep=""),
         n=prettyNum(n, big.mark=".", decimal.mark=",")) %>%
  select(Semantik=sem, `Kekerapan (N)`=n, `Jumlah tipe`=type, `Jumlah tipe (kekerapan > 1)`=est_type, `Jumlah *hapax*`=hapax, `Ajektiva dasar`=word_types) %>%
  select(-`Jumlah tipe`, -`Kekerapan (N)`) %>%
  knitr::kable(caption="Seluruh pencontohan skema [*per-*+AJ] dan skema bawahan semantisnya; data diurutkan berdasarkan jumlah *hapax* terbanyak.", row.names = T)
Semantik Jumlah tipe (kekerapan > 1) Jumlah hapax Ajektiva dasar
1 kecenderungan manusia (human propensity) 15 18 kaya (2.632); cantik (974); kenan (26); bodoh (13); tegang (10); solek (7); kebal (6); elok (5); mahir (4); siap (4); sibuk (4); malu (3); miskin (3); hemat (2); luwes (2); agung (1); aktif (1); bebas (1); enggan (1); ganteng (1); garang (1); irit (1); kenyang (1); lincah (1); mapan (1); melarat (1); panik (1); peka (1); sopan (1); tangguh (1); tekun (1); terampil (1); yakin (1)
2 ciri_fisik 26 10 kuat (18.999); parah (1.672); kokoh (844); tajam (775); lemah (394); keruh (342); berat (305); halus (172); ringan (150); kukuh (99); runcing (94); longgar (92); manis (85); teguh (85); keras (77); lunak (58); lembut (10); panas (10); subur (10); licin (4); erat (2); gagah (2); hangat (2); konkret (2); kusut (2); segar (2); apik (1); berat-berat (1); bersih (1); dingin (1); hangus (1); kaku (1); kasar (1); kekar (1); sakit (1); teduh (1)
3 nilai (value) 14 7 buruk (1.236); indah (417); bagus (35); hebat (31); baik (20); mantap (15); murah (7); sengit (4); jelek (3); nyaman (3); keren (2); mahal (2); mewah (2); seru (2); cocok (1); dahsyat (1); enak (1); lezat (1); megah (1); mulia (1); unik (1)
4 warna 6 5 jelas (1.303); tegas (1.233); suram (7); terang (6); cerah (3); merah (2); gelap (1); kelam (1); marak (1); muram (1); putih (1)
5 ukuran/dimensi 18 4 luas (7.480); panjang (6.355); besar (2.593); kecil (1.899); ketat (1.805); dalam (1.276); sempit (720); pendek (658); lebar (589); tebal (216); tipis (73); kental (11); padat (7); kerdil (3); ramping (2); rapat (2); gemuk (2); lapang (2); rata (1); besar-besar (1); dangkal (1); kurus (1)
6 kesulitan 8 3 mudah (4.889); lancar (1.619); sulit (1.424); rumit (113); susah (6); sukar (4); runyam (4); sulit-sulit (2); pelik (1); sesat (1); ruwet (1)
7 usia 3 3 muda (14); modern (3); baru (2); anyar (1); kini (1); tua (1)
8 jumlah 4 2 banyak (2.594); lengkap (21); ringkas (7); sedikit (5); dikit (1); lebat (1)
9 posisi 5 2 tinggi (267); jauh (14); dekat (5); rendah (5); luar (4); kanan (1); lentik (1)
10 kualifikasi (qualification) 5 2 umum (11); sungguh (4); betul (2); salah (2); tepat (2); nyata (1); sah (1)
11 kecepatan 7 1 cepat (9.240); lambat (1.673); singkat (470); lama (80); gencar (25); lamban (6); kencang (2); deras (1)
12 kekerapan 2 1 jarang (4); sering (4); kerap (1)

Salah satu cara untuk melihat hubungan antara (i) jumlah tipe skema [per-+AJ] yang telah ada (perhatikan kolom Jumlah tipe (kekerapan > 1)) dan (ii) jumlah hapax dari masing-masing tipe semantis ajektivanya adalah melalui Analisis Korelasi (Zeschel, 2010, hal. 208)15. Analisis Korelasi menentukan arah, dan ukuran, hubungan suatu variabel X (mis. jumlah tipe suatu konstruksi yang telah ada) dengan variabel Y (mis. jumlah hapax konstruksi tersebut). Arah hubungannya bisa positif atau negatif; sedangkan ukurannya bisa (i) kecil ([+/-]0.1-0.3), (ii) sedang ([+/-]0.3-0.5), dan (iii) tinggi ([+/-]0.5-1) (Zeschel, 2010, hal. 208).

Untuk skema semantis bawahan [per-+AJ], terdapat hubungan positif dan kuat antara (i) jumlah tipe yang telah ada untuk skema semantis bawahan [per-+AJ] dan (ii) kata-kata hapax dari masing-masing tipe skema bawahan semantis tersebut (Korelasi Pearson’s = 0.644, p = 0.024). Dengan kata lain, terdapat kaitan antara (i) jumlah tipe kata kerja berskema [per-+AJ] dari suatu skema bawahan semantis dan (ii) perluasan/peningkatan penggunaan skema tipe semantis yang sama dengan bentukan kata baru. Artinya, penutur (i) mengingat tipe semantis ajektiva yang sudah ditemuinya digunakan dalam skema [per-+AJ] berskema bawahan semantis tertentu, dan kemudian (ii) memperluas pemakaian skema bawahan semantis tersebut (yang bisa ditunjukkan oleh jumlah hapax-nya) dengan menggunakan ajektiva baru bertipe semantis yang sama (periksa Zeschel, 2010).

Hubungan positif pada tataran skema bawahan semantis ini mendukung salah satu asumsi mendasar dari CxG bahwa khasanah kebahasaan seseorang tidak hanya menyimpan kriteria formal (bentuk), tapi juga semantis, dari suatu unit kebahasaan, dalam hal ini skema pembentukan kata. Pembahasan pada sub-bagian ini telah menunjukkan bahwa terdapat jejaring keumuman lokal (atas dasar skema semantis bawahan [dari suatu skema konstruksional utama]) yang muncul berdasarkan gugusan penggunaan jumlah tipe dan hapax ajektiva yang mirip secara semantis pada skema bawahan konstruksi [per-+AJ] (lihat Bybee, 2013, hal. 6-7). Keterpatrian jejaring gugusan semantis ini secara kuat dipicu oleh ajektiva-ajektiva yang sering muncul untuk suatu tipe semantis (perhatikan Gambar @ref(fig:cic-sem-plot) selanjutnya). Meskipun demikian, pemakaian skema [per-+AJ] beserta skema bawahan semantisnya dalam korpus BInd saat ini memiliki tingkat produktifitas yang rendah, baik yang terwujud (berdasarkan jumlah tipe) ataupun yang potensial (berdasarkan HTR).

4.3 Pencontohan Konstruksi Lazim

per_adj_CIC_limit <- round((per_adj_base_combined %>% 
                              .$n %>% 
                              sum()/dim(per_adj_base_combined)[1])*2)
type_cic <- per_adj_base_combined %>% 
  filter(n>=per_adj_CIC_limit) %>% 
  dim() %>% 
  .[1]
perc_cic <- round((type_cic/per_adj_type_freq)*100, 2)
cic_sum <- per_adj_base_combined %>% 
  filter(n>=per_adj_CIC_limit) %>% 
  .$n %>% 
  sum()
perc_cic_sum <- round((cic_sum/cxn_sum)*100, 2)
cic_words <- per_adj_base_combined %>% 
  filter(n>=per_adj_CIC_limit) %>% 
  mutate(cic=str_c(root, " (", format(n, big.mark=".", decimal.mark=","), ")", sep = ""), 
         cic=str_replace_all(cic, "(\\()\\s+", "\\1")) %>% 
  .$cic %>% 
  str_c(collapse='; ')
per_cic_tibble <- tribble(~`Jumlah tipe [*per-*+AJ]`, ~`Jumlah tipe CIC`, ~`% tipe CIC`, ~`Kekerapan [*per-*+AJ]`, ~`Kekerapan CIC`, ~`% Kekerapan CIC`,
        #----/-------------------/---------------/------------------------------/----------------/-------------------
        per_adj_type_freq, type_cic, perc_cic, format(cxn_sum, big.mark = ".", decimal.mark = ","), format(cic_sum, big.mark = ".", decimal.mark = ","), perc_cic_sum
        )

Perihal terakhir yang ingin diulas di dalam makalah ini adalah kekerapan pencontohan spesifik skema [per-+AJ] yang dapat menunjukkan tingkat keterpatrian dan kelaziman pencontohan tersebut. Pertanyaannya adalah bagaimana cara menentukan (ambang batas) derajat kelaziman suatu kata dibandingkan dengan kata lainnya dari suatu konstruksi?

Vergara Wilson (2014, hal. 71-73) mengajukan cara mengukur pencontohan lazim dari suatu konstruksi (conventionalised instances of constructions; selanjutnya disingkat CIC). Karena menentukan kelaziman suatu bentukan kata dari suatu konstruksi cenderung bersifat subjektif dan relatif, pengukuran ambang batas CIC (berdasarkan data (bukan intuisi semata)) dapat menjadi tolak ukur awal ketika membandingkan kata-kata mana dari suatu skema konstruksional morfologis yang relatif lebih lazim, dan mana yang tidak begitu lazim. Data seperti ini secara umum bisa dimanfaatkan sebagai bahan pengajaran suatu konstruksi morfologis lazim dan pencontohannya di dalam BInd untuk penutur asing.

Rumus untuk mengukur nilai ambang batas CIC adalah dengan membagi (i) kekerapan kemunculan keseluruhan konstruksinya (token), dalam hal ini kemunculan total skema [per-+AJ] pada korpus, dengan (ii) jumlah tipenya (type), yaitu jumlah kata-kata yang mencontohkan skema [per-+AJ] pada korpus; nilai pembagian tersebut kemudian dikalikan 2 (Vergara Wilson, 2014, hal. 73). Perhatikan rumus ambang batas CIC berikut:

\(CIC = (token/tipe) * 2\)

Hasil perhitungan dari rumus di atas dibulatkan ke atas/bawah, tergantung kedekatan bilangan setelah koma dengan bilangan keseluruhannya. Menurut Vergara Wilson (2014, hal. 73), praanggapan yang mendasari rumus tersebut adalah sebagai berikut. Apabila suatu pencontohan skema [per-+AJ], seperti perkuat, muncul dua kali lebih banyak dari rata-rata kekerapan kemunculannya, seperti ditunjukkan dari rasio \(token/tipe\)-nya, bentukan kata tersebut dapat dianggap lazim.

Ambang batas CIC untuk skema [per-+AJ] adalah 919, yang merupakan hasil dari (78.595 (token)/171 (type) *2). Jadi, tipe pencontohan skema [per-+AJ] yang kekerapan kemunculannya sama dengan atau lebih besar dari 919 dapat dikatakan lazim/konvensional (Vergara Wilson, 2014, hal. 73). Jumlah tipe CIC pada data skema [per-+AJ] adalah 19 jenis kata, seperti yang ditampilkan pada kolom keempat pada Tabel @ref(tab:cic-word-types) berikut.

tibble(`Rasio kekerapan/tipe`=(per_adj_base_combined %>% 
                                 .$n %>% 
                                 sum()/dim(per_adj_base_combined)[1]),
       `Ambang batas CIC`= per_adj_CIC_limit,
       `Jumlah tipe CIC`=type_cic,
       `Pencontohan CIC skema [*per-*+AJ]`=cic_words) %>%
  knitr::kable(caption="Kata-kata lazim pencontohan skema [*per-*+AJ].")
Rasio kekerapan/tipe Ambang batas CIC Jumlah tipe CIC Pencontohan CIC skema [per-+AJ]
459.6199 919 19 kuat (18.999); cepat (9.240); luas (7.480); panjang (6.355); mudah (4.889); kaya (2.632); banyak (2.594); besar (2.593); kecil (1.899); ketat (1.805); lambat (1.673); parah (1.672); lancar (1.619); sulit (1.424); jelas (1.303); dalam (1.276); buruk (1.236); tegas (1.233); cantik (974)

Angka di dalam tanda kurung pada kolom Pencontohan CIC skema [per-+AJ] menunjukkan kekerapan kemunculan kata tersebut. Gambar @ref(fig:cic-sem-plot) berikut menempatkan persebaran tipe kata lazim pada Tabel @ref(tab:cic-word-types) sebelumnya berdasarkan tipe semantisnya.

df <- per_adj_base_combined %>% 
  filter(n>=per_adj_CIC_limit) %>% 
  group_by(sem) %>% 
  mutate(cic_word=str_c(str_c(root, " (", prettyNum(n, big.mark=".", decimal.mark=","), ")", sep=""), collapse="; ")) %>%
  ungroup() %>%
  mutate(sem=replace(sem, sem=='propensitas', 'kecenderungan manusia\n(*human propensity*)'),
         sem=replace(sem, sem=='ukuran', 'ukuran/dimensi'),
         sem=replace(sem, sem=='nilai', 'nilai (*value*)')) %>%
  group_by(sem, cic_word) %>% 
  summarise(n=sum(n))
df %>%
  ggplot(aes(x=reorder(sem, n),y=n)) + 
  geom_col(fill="black") + 
  coord_flip() +
  geom_text(aes(label=cic_word), 
            hjust=if_else(str_detect(df$cic_word, "luas|kuat"), 1.05, -0.1), 
            size=3, 
            colour=if_else(str_detect(df$cic_word, "luas|kuat"), "white", "black")) +
  theme_bw() +
  theme(axis.title = element_text(size=11), axis.text = element_text(size=10)) +
  labs(x='Tipe semantis', y='Kekerapan', fill=NULL)

Gambar @ref(fig:cic-sem-plot) menunjukkan bahwa ukuran dan ciri_fisik adalah tipe semantis yang kerap muncul di antara kelompok kata-kata yang bisa dianggap lazim untuk skema [per-+AJ]. Hal ini dipicu oleh tingginya kekerapan tipe yang mencontohkan kedua tipe semantis tersebut. Ukuran tidak hanya tinggi dalam hal kekerapannya, tapi juga memiliki jumlah tipe lazim terbanyak, jika dibandingkan utamanya dengan ciri_fisik, yang kekerapannya didominasi oleh satu ajektiva, yaitu kuat. Selanjutnya, masing-masing kata CIC dari tiap-tiap tipe semantis tersebut dapat dianggap sebagai anggota ajektiva prototipikal yang umum mencontohkan skema bawahan semantis [per-+AJ] pada Gambar @ref(fig:cic-sem-plot). Tabel @ref(tab:cic-cxn) selanjutnya menggambarkan tingkat keterpatrian skema [per-+AJ] secara lebih luas dalam kaitannya dengan kekerapan pencontohan lazimnya.

per_cic_tibble %>%
  knitr::kable(caption="Persentase jumlah tipe dan kekerapan skema [*per-*+AJ] yang melampaui ambang batas CIC dalam kaitannya dengan keseluruhan jumlah tipe dan kekerapan skema [*per-*+AJ].")
Jumlah tipe [per-+AJ] Jumlah tipe CIC % tipe CIC Kekerapan [per-+AJ] Kekerapan CIC % Kekerapan CIC
171 19 11.11 78.595 70.896 90.2

Tabel @ref(tab:cic-cxn) dapat dipahami sebagai berikut. Dari total 171 tipe kata-kata pencontohan skema [per-+AJ], hanya 11.11% (yaitu 19 tipe) yang dapat dikatakan cukup lazim; hal ini bersifat relatif karena adanya perbedaan pengalaman setiap penutur BInd terhadap kata-kata yang ada di bawah atau di atas ambang batas CIC pada korpus ini16. Meskipun proporsi 11.11% untuk jumlah tipe CIC ini cukup kecil, yang perlu diperhatikan adalah 90.2% kekerapan kemunculan skema [per-+AJ] di keseluruhan korpus terdiri dari pengulangan ke-19 tipe-tipe CIC tersebut. Dari sudut pandang linguistik bebasis penggunaan dan CxG, tingginya kekerapan dari masing-masing pencontohan spesifik skema [per-+AJ], seperti yang termasuk di dalam tipe CIC pada Tabel @ref(tab:cic-word-types) sebelumnya, akan (i) lebih menguatkan representasi kata-kata spesifik tersebut dibandingkan skema konstruksionalnya secara umum, ataupun skema bawahan semantisnya, dan (ii) cenderung tidak berkontribusi terhadap produktifitas skema konstruksionalnya (periksa Bybee, 2013, hal. 9). Tingginya persentase kekerapan dari skema [per-+AJ] yang terdiri atas pengulangan tipe kata CIC tersebut mungkin menjadi pemicu rendahnya rasio produktifitas dari skema [per-+AJ], karena mengecilkan jumlah tipe serta rasio hapax-berbanding-kekerapan skemanya secara menyeluruh.

5 Penutup

Makalah ini telah membahas unsur penggunaan skema konstruksional kata kerja kausatif [per-+AJ] di BInd. Unsur-unsur ini meliputi unsur formal dan semantis. Pada tataran formal, makalah ini menemukenali jumlah tipe, jumlah hapax dan kekerapan dari tipe-tipe kata yang mencontohkan skema konstruksional tersebut. Berdasarkan jumlah tipe dan hapax-nya secara umum, skema [per-+AJ] dapat dikatakan tidak begitu produktif untuk menghasilkan kata-kata baru. Pembahasan lebih rinci terkait unsur semantis skema [per-+AJ] berdasarkan tipe semantis ajektiva dasarnya juga dibahas pada makalah ini. Pembahasan pada tataran semantis ini menunjukkan bahwa skema bawahan semantis skema [per-+AJ] juga tidak begitu produktif setakat ini, terlepas dari ditemukannya hubungan positif dan kuat antara perluasan suatu skema bawahan semantis (atas dasar hapax-nya) dan jumlah tipe dari skema bawahan tersebut yang telah ada sebelumnya.

Selanjutnya, makalah ini juga menunjukkan (cara menentukan) kata-kata yang lazim muncul di dalam korpus sebagai pencontohan skema [per-+AJ] secara umum, beserta tipe semantisnya. Data ini bisa digunakan sebagai masukan untuk pengajaran BInd bagi penutur asing terkait pencontohan khas (prototipikal) dari suatu konstruksi morfologis di dalam korpus. Terdapat beberapa unsur pemakaian dari skema [per-+AJ] yang tidak dibahas pada makalah ini, tapi telah disebutkan sekilas pada sub-bagian @ref(sneddon). Namun demikian, makalah ini diharapkan dapat memperluas pemahaman pemerhati dan peneliti BInd, khususnya terkait beberapa unsur pemakaian skema konstruksional morfologis [per-+AJ] di BInd. Akhir kata, makalah ini diharapkan dapat memperkaya khasanah kajian morfologi di BInd yang telah ada sebelumnya, dengan menyisipkan (i) unsur metodologis termutakhir dari Linguistik Korpus dan (ii) wawasan linguistik teoretis kontemporer berdasarkan penggunaan, seperti Tatabahasa Konstruksional.

Daftar pustaka

Arka, I. W., Dalrymple, M., Mistica, M., Mofu, S., Andrews, A. D., & Simpson, J. (2009). A linguistic and computational morphosyntactic analysis for the applicative -i in Indonesian. In M. Butt & T. H. King (Eds.), Proceedings of the LFG09 Conference. CSLI Publications. Retrieved from http://csli-publications.stanford.edu/

Arka, I. W., Manurung, R., & Mistica, M. (2009). Reduplication and Grammar Engineering for Indonesian. Presented at the International Symposium on Malay and Indonesian Linguistics (ISMIL) 13, Mataram, Lombok-Indonesia.

Baayen, R. H. (2008). Analyzing linguistic data: A practical introduction to statistics using R. Cambridge, UK ; New York: Cambridge University Press.

Baayen, R. H. (2009). Corpus linguistics in morphology: Morphological productivity. In Anke Lüdeling & Merja Kytö (Eds.), Corpus linguistics: An international handbook (Vol. 2, pp. 899–919). Berlin: Mouton de Gruyter.

Biemann, C., Heyer, G., Quasthoff, U., & Richter, M. (2007). The Leipzig Corpora Collection: Monolingual corpora of standard size. In M. Davies, P. Rayson, S. Hunston, & P. Danielsson (Eds.), Proceedings of the Corpus Linguistics Conference. University of Birmingham, UK. Retrieved from http://ucrel.lancs.ac.uk/publications/CL2007/paper/190_Paper.pdf

Booij, G. (2010). Construction Morphology. Language and Linguistics Compass, 4(7), 543–555. doi:10.1111/j.1749-818X.2010.00213.x

Booij, G. (2017). Construction Morphology. Oxford Research Encyclopedias. doi:10.1093/acrefore/9780199384655.013.254

Bybee, J. L. (2010). Language, usage and cognition. Cambridge: Cambridge University Press.

Bybee, J. L. (2013). Usage-based theory and exemplar representations of constructions. In T. Hoffmann & G. Trousdale (Eds.), The Oxford handbook of Construction Grammar. Oxford: Oxford University Press. doi:10.1093/oxfordhb/9780195396683.013.0004

Croft, W. (2001). Radical construction grammar: Syntactic theory in typological perspective. Oxford: Oxford University Press.

Dixon, R. M. W. (2004). Adjective classes in typological perspective. In R. M. W. Dixon & A. Y. Aikhenvald (Eds.), Adjective classes: A cross-linguistic typology (pp. 1–49). Oxford: Oxford University Press.

Dixon, R. M. W., & Aikhenvald, A. Y. (2004). Adjective classes: A cross-linguistic typology. Oxford: Oxford University Press.

Glynn, D., & Fischer, K. (Eds.). (2010). Quantitative methods in cognitive semantics: Corpus-driven approaches. Berlin: Mouton de Gruyter.

Goldberg, A. E. (2006). Constructions at work: The nature of generalization in language. Oxford ; New York: Oxford University Press.

Goldberg, A. E. (2013). Constructionist approaches. In T. Hoffmann & G. Trousdale (Eds.), The Oxford Handbook of Construction Grammar. Oxford: Oxford University Press. doi:10.1093/oxfordhb/9780195396683.013.0002

Gries, S. T. (2009). Quantitative Corpus Linguistics with R: A Practical Introduction. New York: Routledge.

Gries, S. T. (2013a). Data in construction grammar. In T. Hoffmann & G. Trousdale (Eds.), The Oxford handbook of Construction Grammar. Oxford: Oxford University Press. doi:10.1093/oxfordhb/9780195396683.013.0006

Gries, S. T. (2013b). Statistics for linguistics with R: A practical introduction (2 nd). Berlin: Mouton de Gruyter.

Hilpert, M. (2013). Constructional change in English: Developments in allomorphy, word formation, and syntax. Cambridge: Cambridge University Press.

Hilpert, M. (2014). Construction grammar and its application to English. Edinburgh: Edinburgh University Press.

Hoffmann, T., & Trousdale, G. (Eds.). (2013). The Oxford handbook of Construction Grammar. Oxford: Oxford University Press.

Janda, L. A. (2013a). Quantitative methods in Cognitive Linguistics: An introduction. In L. A. Janda (Ed.), Cognitive Linguistics: The quantitative turn (pp. 1–32). Berlin: Mouton de Gruyter.

Janda, L. A. (Ed.). (2013b). Cognitive linguistics: The quantitative turn. Berlin: Mouton de Gruyter.

Langacker, R. W. (2013). Essentials of cognitive grammar. Oxford: Oxford University Press.

Larasati, S. D., Kuboň, V., & Zeman, D. (2011). Indonesian Morphology Tool (MorphInd): Towards an Indonesian Corpus. In Systems and Frameworks for Computational Morphology (pp. 119–129). Springer, Berlin, Heidelberg. doi:10.1007/978-3-642-23138-4_8

Levshina, N. (2015). How to do Linguistics with R: Data exploration and statistical analysis. John Benjamins Publishing Company.

Primahadi Wijaya R., G. (2013). Metonymy in Indonesian Prefixal Word-formation. Lingual: Journal of Language and Culture, 1, 64–81. doi:10.26180/5b6e403959120

Quasthoff, U., & Goldhahn, D. (2013). Indonesian corpora (Technical report series on corpus building No. 7). Leipzig, Germany: Abteilung Automatische Sprachverarbeitung, Institut für Informatik, Universität Leipzig. Retrieved from http://asvdoku.informatik.uni-leipzig.de/corpora/data/uploads/corpus-building-vol7-ind.pdf

R Core Team. (2016). R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. Retrieved from https://www.R-project.org/

Sneddon, J. N., Adelaar, A., Djenar, D. N., & Ewing, M. C. (2010). Indonesian reference grammar (2 nd). Crows Nest, New South Wales, Australia: Allen & Unwin.

Stefanowitsch, A. (2017). Corpus linguistics: A guide to the methodology. Book Manuscript, Freie Universität Berlin: Book manuscript. Retrieved from http://stefanowitsch.net/clm/clmbook-draft.pdf

Trousdale, G. (2016). Construction grammar. In M. Kytö & P. Pahta (Eds.), The Cambridge handbook of English historical linguistics (pp. 65–78). Cambridge: Cambridge University Press.

Vergara Wilson, D. C. (2014). Categorization and constructional change in Spanish expressions of ’becoming’. Leiden ; Boston: Brill.

Wickham, H., & Grolemund, G. (2017). R for Data Science. Canada: O’Reilly. Retrieved from http://r4ds.had.co.nz/

Yoon, J., & Gries, S. T. (Eds.). (2016). Corpus-based approaches to Construction Grammar. Amsterdam ; Philadelphia: John Benjamins Publishing Company.

Zeschel, A. (2010). Exemplars and analogy: Semantic extension in constructional networks. In Dylan Glynn & Kerstin Fischer (Eds.), Quantitative methods in cognitive semantics: Corpus-driven approaches (pp. 201–219). Berlin: Mouton de Gruyter.


  1. Makalah ini diajukan sebagai bagian dari buku persembahan dalam rangka purnabakti Prof. Dr. Aron Meko Mbete. Pelajaran berharga yang penulis petik ketika menjadi mahasiswa Prof. Aron adalah semangat untuk mengasyiki linguistik dan berinovasi tentang hal-hal baru, seperti yang beliau wujudkan dalam mengembangkan Ekolinguistik di Indonesia. Apabila makalah ini sedikitnya dianggap mencerminkan semangat Prof. Aron tersebut, salah satu tujuan makalah ini telah tercapai.

  2. Penulisan makalah ini didanai sepenuhnya oleh Monash International Postgraduate Research Scholarships (MIPRS) dan Monash Graduate Scholarships (MGS) yang diberikan kepada penulis pertama ketika menyelesaikan pendidikan doktoral di Monash University, Australia.

  3. Lisensi untuk R Notebook ini adalah Creative Common License CC BY-NC-SA 4.0. Untuk mengunduh .Rmd file dari notebook ini, klik tombol Code di pojok kanan atas kemudian pilih Download Rmd.

  4. Baayen (2009, hal. 905-906) mengungkapkan bahwa hapax legomena tidak bisa disamakan dengan neologisme, atau kata baru. Di satu sisi, sekumpulan hapax bisa mengandung neologisme; di sisi lain, hapax di dalam suatu korpus yang cukup besar pun bisa merupakan kata-kata yang telah ada sejak lama, tapi hanya kebetulan muncul sekali di dalam korpus yang dikaji.

  5. Atau 0-100% apabila nilai HTR diubah menjadi persentase.

  6. Makalah ini ditulis dan dirampungkan di dalam RStudio menggunakan modul Rmarkdown. Kode pemrograman, berkas data, dan berkas naskah Rmarkdown makalah ini dapat diunduh melalui figshare: https://doi.org/10.4225/03/5a0627de02453.

  7. Ulasan mendalam termutakhir tentang beragam cabang Tatabahasa Konstruksional dapat diperoleh melalui Hoffmann dan Trousdale (2013)

  8. Periksa pranala berikut: http://corpora2.informatik.uni-leipzig.de/download.html

  9. Hal ini untuk mengantisipasi kemunculan kata di awal kalimat yang diawali dengan huruf kapital (mis. Mempererat).

  10. Hal ini dilakukan untuk mengantisipasi adanya kata dasar yang diawali huruf r namun tidak diluluhkan dengan r pada awalan per--nya.

  11. Tanda '-' diikutkan untuk menangkap kemungkinan adanya reduplikasi, seperti diperbesar-besar yang benar-benar muncul dalam korpus.

  12. Penulis berterima kasih kepada Karlina Denistia (Eberhard Karls University of Tübingen, Jerman) yang dengan senang hati berbagi contoh menjalankan MorphInd melalui R.

  13. Pada setiap akhir contoh, informasi di dalam tanda kurung berisi (i) nama berkas korpus dan (ii) baris kalimat keberapa pemakaian suatu kata ditemukan; keduanya dipisahkan oleh tanda “:”.

  14. Karena semua tipe ajektivanya ditampilkan dalam Tabel @ref(tab:per-semantics-table) di bawah, pembaca dapat tidak setuju terhadap beberapa pengelompokan yang penulis ajukan; masukan untuk pengelompokan tersebut terkait penelitian serupa ke depannya sangat diharapkan.

  15. Mengikuti Zeschel (2010, hal. 208), metode Analisis Korelasi yang digunakan adalah Pearson’s product moment correlation coefficient. Penghitungan dilakukan dengan fungsi cor.test() yang ada dalam R.

  16. Dengan kata lain, bisa saja terdapat kata-kata yang juga dianggap lazim dan seharusnya masuk (secara intuisi) ke dalam kelompok CIC; yang perlu diperhatikan adalah rumus CIC digunakan untuk dapat mengukur secara lebih empiris berdasarkan data kuantitatif yang diperoleh dari korpus.

