Creative Commons License
The materials in this R Markdown Notebook are licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Pengantar

Materi pada R Markdown Notebook ini dibawakan pada R-Ladies Jakarta 15th meetup (2 April 2022, 1400-1600 WIB) dengan tema Basic text manipulation with stringr (Rajeg 2022a). Jika materi ini digunakan kembali, menjadi dasar, ataupun dikutip untuk keperluan lokakarya dan hal-hal lainnya, mohon mengutip materi ini sebagai berikut:

Rajeg, Gede Primahadi Wijaya. 2022. Pengolahan teks dasar dengan R menggunakan stringr. Open Science Framework (OSF). doi: 10.17605/OSF.IO/9ZHDJ. https://osf.io/9zhdj/ (2 April, 2022).

Dan juga salindia pembuka sebelum pelaksanaan lokakarya (Rajeg 2022b):

Rajeg, Gede Primahadi Wijaya. 2022. Basic text manipulation with stringr. OSF Preprints. doi: 10.31219/osf.io/q9yva. https://osf.io/q9yva/ (2 April, 2022).

Pembaca disarankan mempelajari langsung dua sumber utama terkait stringr, yaitu (i) buku teks oleh Wickham dan Grolemund (2017), utamanya Bab 14, dan (ii) cheatsheet PDF untuk fungsi-fungsi kunci dalam stringr. Bacaan lain yang mungkin bisa dilihat adalah makalah kami (Rajeg, Denistia & Rajeg 2018) yang salah satu bagiannya membahas pengolahan teks dasar menggunakan sejumlah fungsi pengolahan teks dari instalasi dasar R (bukan menggunakan stringr) (kode sumber makalah tersebut dapat diakses melalui tautan berikut atau berikut).

1 Persiapan

# global option chunck
knitr::opts_chunk$set(echo = TRUE, include = TRUE, message = FALSE, warning = FALSE)
# install package stringr
install.packages("stringr")

Aktifkan modul/package stringr.

# load the packages
library(stringr)

Muat data teks berupa kalimat dan kata-kata.

eng_sentence_all <- scan(file = "data/eng_stringr_sentences_all.txt", what = "char", sep = "\n", quiet = TRUE)

length(eng_sentence_all) # ada 720 elemen kalimat
[1] 720
sample(eng_sentence_all, size = 3) # tampilkan 3 kalimat acak saja
[1] "The beach is dry and shallow at low tide."      
[2] "Leaves turn brown and yellow in the fall."      
[3] "A whiff of it will cure the most stubborn cold."
words <- stringr::words # data kata (*words*) dari package stringr
sample(words, size = 3)
[1] "self"    "example" "care"   
fruits <- stringr::fruit # data kata-kata nama buah (*fruits*) dari package stringr
sample(fruits, size = 3)
[1] "satsuma"    "breadfruit" "rock melon"

2 Pencarian dan pendeteksian (rangkaian) karakter

2.1 Menguji pola pencarian dan hasil yang ditangkap dengan str_view_all()

Fungsi str_view_all() memerlukan kita menginstall package htmlwidgets. Jika tidak, error akan muncul seperti pada gambar di bawah ini.

# install htmlwidgets package
install.packages("htmlwidgets")

Kode berikut mencoba menampilkan keberadaan rangkaian karakater "ze" dalam vektor teks eng_sentence_all.

str_view_all(string = eng_sentence_all, pattern = "ze", match = TRUE)
Registered S3 methods overwritten by 'htmltools':
  method               from         
  print.html           tools:rstudio
  print.shiny.tag      tools:rstudio
  print.shiny.tag.list tools:rstudio
Registered S3 method overwritten by 'htmlwidgets':
  method           from         
  print.htmlwidget tools:rstudio

Latihan

  1. Ubah parameter argumen match = TRUE menjadi match = FALSE, lalu jalankan kode sebelumnya dengan pola pencarian "ze". Apa yang terjadi pada luarannya? Apa fungsi dari match = FALSE?
  2. Gunakan str_view_all() untuk menampilkan rangkaian karakter "ly" pada vektor teks eng_sentence_all.
  3. Bagaimana pola pencarian untuk menampilkan rangkaian karakter "ly" yang diikuti dengan spasi (whitespace)?

2.2 Mendeteksi keberadaan pola rangkaian karakter dengan str_detect()

Fungsi str_detect() menghasilkan luaran logis TRUE dan FALSE yang menyatakan apakah rangkaian karakter yang kita cari ditemukan (TRUE) atau tidak (FALSE) pada suatu vektor teks/karakter.

# buat 50 sampel kalimat sederhana
eng_sentence_all_sample <- sample(x = eng_sentence_all, size = 50)

# apakah rangkaian karakter "ed" ditemukan dalam `eng_sentence_all_sample`?
str_detect(string = eng_sentence_all_sample, pattern = "ed")
 [1] FALSE FALSE  TRUE  TRUE  TRUE  TRUE FALSE  TRUE FALSE  TRUE  TRUE FALSE  TRUE
[14]  TRUE FALSE FALSE  TRUE  TRUE  TRUE FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE
[27] FALSE FALSE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE FALSE  TRUE FALSE  TRUE FALSE
[40] FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE

Latihan

  1. Gunakan str_view_all() untuk menampilkan rangkaian karakter "ed" pada vektor teks eng_sentence_all_sample.
  2. Apakah rangkaian karakter konsonan "ck" ditemukan dalam nama-nama buah pada vektor teks fruits?
    • Jika ya, gunakan str_view_all() untuk menampilkan nama buah apa yang mengandung rangkaian karakter konsonan "ck" pada vektor teks fruits.

Fungsi str_detect() juga dapat digunakan untuk menyaring observasi yang diinginkan dalam tabel (data frame) berdasarkan rangkaian karakter tertentu. Ini dimungkinkan karena luaran str_detect() berupa struktur logis TRUE dan FALSE yang menjadi landasan dalam menyaring observasi, salah satunya dalam tabel.

# muat data tabel hanya kolom 4 - 7
verbs_idn <- read.table(file = "data/verb_semantics.txt", header = TRUE, sep = "\t")[4:7]

# lihat enam baris pertama
head(verbs_idn)

Kode berikut menyaring observasi (subset()) dalam tabel data verbs_idn berdasarkan apakah kolom example_target mengandung teks (yaitu kata kerja ber-) dengan rangkaian karakter "da" (lihat Rajeg 2013 untuk makalah yang dilandasi atas data tabel tersebut).

subset(verbs_idn, str_detect(string = example_target, pattern = "da"))

Latihan

  1. Ubah kode sebelumnya untuk menyaring/mendeteksi kata-kata dalam kolom example_source yang mengandung rangkaian karakter "ar".

2.3 Menyaring elemen vektor teks yang mengandung rangkaian karakter tertentu dengan str_subset()

Berbeda dengan str_detect(), yang mengeluarkan TRUE dan FALSE, str_subset() (i) mendeteksi dan (ii) mengeluarkan elemen dalam vektor teks yang mengandung rangkaian karakter yang dicari.

str_subset(string = eng_sentence_all_sample, pattern = "ing")
[1] "Wood is best for making toys and blocks."         
[2] "See the cat glaring at the scared mouse."         
[3] "The map had an X that meant nothing."             
[4] "The first part of the plan needs changing."       
[5] "The source of the huge river is the clear spring."
[6] "Clothes and lodging are free to new men."         
[7] "It takes heat to bring out the odor."             

Tentu kita bisa simpan hasil penyaringan ini ke vektor lain.

# simpan luaran kode berikut ke vektor `ing_output`
ing_output <- str_subset(string = eng_sentence_all_sample, pattern = "ing")
ing_output
[1] "Wood is best for making toys and blocks."         
[2] "See the cat glaring at the scared mouse."         
[3] "The map had an X that meant nothing."             
[4] "The first part of the plan needs changing."       
[5] "The source of the huge river is the clear spring."
[6] "Clothes and lodging are free to new men."         
[7] "It takes heat to bring out the odor."             

Latihan

  1. Buah apa yang namanya mengandung karakter "ck"? Gunakan str_subset() pada vektor teks fruits untuk menjawab pertanyaan ini.
  2. Gunakan str_subset() untuk menyaring kalimat dalam vektor eng_sentence_all yang mengandung rangkaian karakter "who". Apakah pola pencarian "who" ini mengeluarkan kalimat yang mengandung kata who ‘siapa’ dalam bahasa Inggris?

Catatan tentang regular expressions

Regular expressions (RegEx) adalah pola pencarian karakter yang lebih canggih dan fleksibel yang perlu dipelajari untuk pengolahan dan manipulasi teks tingkat lanjut (lihat Wickham & Grolemund 2017, sub-bagian 14.3 untuk ulasan lebih rinci).

Salah satu jenis ReGex yang penting diketahui adalah pewatas rangkaian karakter yang mencerminkan kata (word boundary) ("\\b"). Untuk kasus pencarian rangkaian karakter "who" sebelumnya, kita melakukan pencarian dengan rangkaian karakter tanpa RegEx karena kita tidak memperinci bahwa karakter "who" yang kita inginkan adalah kata who bukannya rangkaian karakter "who" yang bisa muncul dalam kata whole, whoever, dll. Untuk itu, pola pencarian kita untuk “kata” who (bukan rangkaian karakter "who") haruslah lebih spesifik dan karakter RegEx pewatas kata ("\\b") dapat membantu dalam hal ini, yaitu "\\bwho\\b".

Bandingkan luaran kedua baris kode berikut untuk pola pencarian dengan dan tanpa RegEx pewatas kata ("\\b"):

# tanpa regex pewatas kata "\\b" di kedua sisi karakter yang dicari
str_subset(string = eng_sentence_all, pattern = "who") 
[1] "Thieves who rob friends deserve jail."           
[2] "Find the twin who stole the pearl necklace."     
[3] "He took the lead and kept it the whole distance."
[4] "The facts don\u0092t always show who is right."  
# tanpa regex pewatas kata "\\b" di kedua sisi karakter yang dicari
str_view_all(string = eng_sentence_all, pattern = "who", match = TRUE)
# dengan regex pewatas kata "\\b" di kedua sisi karakter yang dicari
str_subset(string = eng_sentence_all, pattern = "\\bwho\\b") 
[1] "Thieves who rob friends deserve jail."         
[2] "Find the twin who stole the pearl necklace."   
[3] "The facts don\u0092t always show who is right."
# dengan regex pewatas kata "\\b" di kedua sisi karakter yang dicari
str_view_all(string = eng_sentence_all, pattern = "\\bwho\\b", match = TRUE)

Latihan

  1. Gunakan RegEx pewatas kata ("\\b") dengan str_subset() untuk menyaring kalimat dalam vektor eng_sentence_all yang mengandung kata-kata yang diakhiri dengan rangkaian karakter "ing" (misalnya, kata-kata seperti texting, living, ring, spring, dll.)
  2. Gunakan str_subset() dan pola pencarian dengan RegEx pewatas kata ("\\b") untuk mengeluarkan kata-kata yang diawali dengan karakter "ch" (misalnya chance, chap, dll.) dalam vektor teks words.

Catatan tentang regular expressions

Selain pewatas rangkaian karakter berupa kata, terdapat dua lagi ReGex pewatas rangkaian karakter yang penting diketahui, yaitu pewatas rangkaian karakter secara umum (anchor character): (i) pewatas posisi awal rangkaian karakter ("^") dan (ii) pewatas posisi akhir rangkaian karakter ("$").

Perhatikan kode berikut sebagai contoh penggunaan RegEx pewatas awal dan akhir rangkaian karakter (dikutip dari Wickham & Grolemund 2017:202):

# buat data sederhana
fruit_mini <- c("apple", "banana", "pear")

# menangkap karakter `"a"` yang muncul di akhir (`"$"`) rangkaian karakter nama buah pada vektor `fruit_mini`
str_view_all(string = fruit_mini, pattern = "a$")
str_subset(string = fruit_mini, pattern = "a$")
[1] "banana"
# menangkap karakter `"a"` yang muncul di akhir (`"$"`) rangkaian karakter nama buah pada vektor `fruit_mini`
str_view_all(string = fruit_mini, pattern = "^a")
str_subset(string = fruit_mini, pattern = "^a")
[1] "apple"

Kita bisa menggabungkan "^" dan "$" untuk mempertegas bahwa kita hanya ingin menangkap rangkaian karakter secara utuh. Bandingkan kedua kode berikut (dikutip dari Wickham & Grolemund 2017:202):

# buat data lain
fruit_cake <- c("apple pie", "apple", "apple cake")

# pencarian sederhana (tanpa RegEx) untuk menangkap rangkaian karakter `"apple"`
str_view_all(string = fruit_cake, pattern = "apple")
str_subset(string = fruit_cake, pattern = "apple")
[1] "apple pie"  "apple"      "apple cake"
# menangkap hanya rangkaian karakter utuh dari awal hingga akhir rangkaian karakter
str_view_all(string = fruit_cake, pattern = "^apple$")
str_subset(string = fruit_cake, pattern = "^apple$")
[1] "apple"

Latihan

  1. Buah apa saja yang namanya diawali dengan karakter konsonan "b"? Gunakan str_subset() untuk mengeluarkan dari vektor fruits nama-nama buah yang diawali dengan karakter "b".

  2. Ada berapa buah yang namanya berakhir dengan karakter vokal "o"? Gunakan str_subset() untuk mengeluarkan dari vektor fruits nama-nama buah yang diawali dengan karakter "o".

Tips

stringr juga memiliki dua fungsi khusus untuk mendeteksi keberadaan (rangkaian) karakter yang muncul (i) di awal rangkaian karakter, yaitu fungsi str_starts(), dan (ii) di akhir rangkaian karakter, yaitu fungsi str_ends(). Layaknya str_detect(), kedua fungsi ini mengeluarkan vektor logis TRUE dan FALSE.

Misalnya, str_starts(fruit_mini, "p") akan mendeteksi adakah elemen teks dalam vektor fruit_mini yang diawali dengan karakter "p", tanpa perlu menggunakan RegEx pewatas karakter awal "^". Sebaliknya, str_ends(fruit_mini, "p") akan mendeteksi keberadaan teks dalam fruit_mini yang diakhiri dengan karakter "p", tanpa perlu menggunakan RegEx pewatas karakter akhir "$".

RegEx tetap diperlukan jika menggunakan fungsi str_subset() untuk menyaring teks yang diawali atau diakhiri dengan (rangkaian) karakter tertentu.


3 Mengeluarkan (extract) pola karakter dari dalam teks

Fungsi str_extract_all() digunakan untuk “mengeluarkan” (extract) pola yang ditangkap dari pencarian karakter yang kita rancang. Sebagai contoh, vektor kalimat eng_sentence_all terdapat sejumlah nama-nama warna bahasa Inggris dan kita hanya ingin mengeluarkan kata-kata yang mencerminkan nama warna tersebut (tidak kata-kata lainnya dalam kalimat). Kita memerlukan karakter RegEx bernama “alternatif” (|) yang berarti ‘atau’. Jika kita ingin mencari warna "x" atau "y" atau "z", maka pola pencarian kita adalah "(x|y|z)".

Pertama kita rampingkan data kalimat eng_sentence_all dengan menyaring hanya kalimat-kalimat yang mengandung nama-nama warna.

# buat vektor karakter untuk regex pencarian dengan teknik "alternatif"
colour_pattern <- "(blue|orange|yellow|green|purple)" 

# deteksi dan saring terlebih dahulu hanya kalimat yang berisi nama-nama warna "biru", "oranye", "kuning", "hijau", dan "ungu".
sent_colour <- str_subset(string = eng_sentence_all, pattern = colour_pattern)

# cari tahu berapa kalimat yang mengandung nama-nama warna
length(sent_colour) # 20 kalimat mengandung nama-nama warna tersebut
[1] 20

Baru kita keluarkan kata-kata nama warna dari vektor karakter sent_colour dan simpan luarannya ke vektor karakter lainnya dengan nama word_colour.

# keluarkan nama-nama warna dari vektor `sent_colour` dan simpan ke vektor `word_colour`
word_colour <- str_extract_all(string = sent_colour, pattern = colour_pattern) 

# lihat enam elemen pertama
head(word_colour) # luaran berupa List bukan Vektor karakter (atomis)
[[1]]
[1] "blue"

[[2]]
[1] "blue"

[[3]]
[1] "blue"

[[4]]
[1] "yellow"

[[5]]
[1] "green"

[[6]]
[1] "blue"
word_colour_vector <- unlist(word_colour) # unlist menjadi vektor karakter
word_colour_vector
 [1] "blue"   "blue"   "blue"   "yellow" "green"  "blue"   "blue"   "blue"   "green" 
[10] "green"  "green"  "purple" "green"  "blue"   "blue"   "green"  "green"  "green" 
[19] "yellow" "orange"

Gunakan str_sort() untuk mengurutkan karakter secara alfabetis.

str_sort(word_colour_vector)
 [1] "blue"   "blue"   "blue"   "blue"   "blue"   "blue"   "blue"   "blue"   "green" 
[10] "green"  "green"  "green"  "green"  "green"  "green"  "green"  "orange" "purple"
[19] "yellow" "yellow"

Kita bisa gunakan table() untuk mentabulasi karakter vektor nama warna untuk mengetahui distribusi/frekuensi kemunculan warna tersebut.

table(word_colour_vector)
word_colour_vector
  blue  green orange purple yellow 
     8      8      1      1      2 
# sortir nama warna dari frekuensi tertinggi ke terendah
word_colour_count <- table(word_colour_vector)
word_colour_count <- sort(word_colour_count, decreasing = TRUE)
word_colour_count
word_colour_vector
  blue  green yellow orange purple 
     8      8      2      1      1 

4 Memecah teks menjadi unit yang lebih kecil

Fungsi str_split() digunakan untuk memecah teks berdasarkan pada karakter mana teks tersebut dipecah. Contoh paling sederhana adalah memecah kalimat menjadi kata dengan memecahnya pada karakter spasi (yang merupakan pemisah kata untuk karakter Roman yang dipahami oleh komputer).

# contoh sederhana pemecahan kalimat -> kata dengan dua kalimat 
two_sentences <- eng_sentence_all_sample[1:2]

# pecah teks pada karakter spasi `" "`.
str_split(two_sentences, pattern = " ") # luarannya adalah List
[[1]]
 [1] "The"     "weight." "of"      "the"     "package" "was"     "seen"    "on"     
 [9] "the"     "high"    "scale." 

[[2]]
[1] "Tear"   "a"      "thin"   "sheet"  "from"   "the"    "yellow" "pad."  

Isunya adalah tanda baca seperti titik (.) masih menempel pada kata yang mengakhiri kalimat. Pada situasi inilah kekuatan dari RegEx menjadi penting.

Kita perlu merancang pola pencarian RegEx yang menyatakan bahwa kita ingin memisahkan/memecah teks pada kelompok karakter selain kelompok karakter pembentuk kata, yaitu kelompok karakter di luar karakter alfanumeris dan strip "-". Dalam konteks bahasa Inggris, "-" dipertahankan untuk menangkap kata seperti computer-readable sebagai satu unit, bukannya menjadi dua unit computer dan readable.

RegEx yang bisa digunakan adalah "[^a-zA-Z0-9-]+", yang artinya: satu atau lebih ("+") kelompok karakter ("[...]") yang bukan ("^") (i) alfanumeris kapital dan kecil ("a-zA-Z0-9") dan strip ("-").

# pecah teks pada karakter non-alfanumeris dan spasi `" "`.
str_split(two_sentences, pattern = "[^a-zA-Z0-9-]+")
[[1]]
 [1] "The"     "weight"  "of"      "the"     "package" "was"     "seen"    "on"     
 [9] "the"     "high"    "scale"   ""       

[[2]]
[1] "Tear"   "a"      "thin"   "sheet"  "from"   "the"    "yellow" "pad"    ""      

Tentu luaran List ini bisa kita ubah menjadi vektor atomis:

split_sentence <- str_split(two_sentences, pattern = "[^a-zA-Z0-9-]+")
unlist(split_sentence)
 [1] "The"     "weight"  "of"      "the"     "package" "was"     "seen"    "on"     
 [9] "the"     "high"    "scale"   ""        "Tear"    "a"       "thin"    "sheet"  
[17] "from"    "the"     "yellow"  "pad"     ""       

Pemecahan teks dari kalimat menjadi kata ini dapat dilihat dari dua perspektif:

  1. memecah (yaitu memisahkan dengan menghilangkan) karakter selain alfanumeris dan strip, menggunakan str_split(), atau

  2. menarik (yaitu mengeluarkan/mengekstraksi) karakter yang membangun suatu kata, yaitu karakter alfanumeris dan strip, menggunakan str_extract_all().

Jika kita mengambil perspektif kedua (dengan str_extract_all()), maka RegEx yang digunakan sedikit berbeda, yaitu dengan menghilangkan tanda negasi (‘bukan’) "^" dalam RegEx-nya. Perhatikan kode berikut dan bandingkan dengan teliti luaran str_extract_all() dengan luaran str_split() sebelumnya.

# perspektif kedua memecah kalimat menjadi kata
# dengan **mengkekstraksi** kata-kata
str_extract_all(two_sentences, pattern = "[a-zA-Z0-9-]+")
[[1]]
 [1] "The"     "weight"  "of"      "the"     "package" "was"     "seen"    "on"     
 [9] "the"     "high"    "scale"  

[[2]]
[1] "Tear"   "a"      "thin"   "sheet"  "from"   "the"    "yellow" "pad"   

Yang membedakan luaran str_split() dan str_extract_all() di atas, khususnya dalam konteks memecah teks kalimat menjadi kata adalah:

  1. luaran str_split() menandai penghilangan/pemecahan tanda baca, dalam hal ini titik, dengan karakter kosong (lihat karakter "" setelah kata "ends" dan "enough").

  2. luaran str_extract_all() hanya akan mengeluarkan/mengekstraksi karakter yang dinyatakan dalam pola pencariannya, yaitu satu atau lebih karakter alfanumeris dan strip; tidak ada karakter kosong yang mencerminkan dalam hal ini tanda titik.

Kita yang menentukan fungsi dan luaran seperti apa yang diinginkan.

5 Mengubah komponen teks

5.1 Mengubah karakter menjadi huruf besar atau kecil

Fungsi str_to_upper() mengubah karakter menjadi huruf kapital dan str_to_lower() menjadi huruf kecil.

# mengubah nama warna sebelumnya menjadi huruf kapital
word_colour_caps <- str_to_upper(string = word_colour_vector)
word_colour_caps
 [1] "BLUE"   "BLUE"   "BLUE"   "YELLOW" "GREEN"  "BLUE"   "BLUE"   "BLUE"   "GREEN" 
[10] "GREEN"  "GREEN"  "PURPLE" "GREEN"  "BLUE"   "BLUE"   "GREEN"  "GREEN"  "GREEN" 
[19] "YELLOW" "ORANGE"
# mengubah nama warna kapital menjadi huruf kecil
str_to_lower(string = word_colour_caps)
 [1] "blue"   "blue"   "blue"   "yellow" "green"  "blue"   "blue"   "blue"   "green" 
[10] "green"  "green"  "purple" "green"  "blue"   "blue"   "green"  "green"  "green" 
[19] "yellow" "orange"

Latihan

  1. Lihat isi vektor two_sentences pada konsol dan perhatikan bentuk rangkaian karakternya. Kemudian jalankan fungsi str_to_title() dengan input two_sentences. Perubahan apa yang terjadi dan apa yang dilakukan oleh str_to_title()?

5.2 Mengganti komponen teks dengan karakter lain

Terkadang kita perlu mengubah komponen teks tertentu layaknya fungsi find and replace pada peranti seperti MS Word. Dalam stringr, kita bisa menggunakan str_replace() dan str_replace_all().

Varian dasar tanpa ..._all(), yaitu str_replace(), hanya akan mengganti karakter yang pertama kali ditangkap oleh pola pencariannya, sedangkan karakter yang sama yang muncul setelahnya tidak akan ditangkap dan diganti.

Perhatikan kode berikut yang mencoba mengganti karakter "e" pada vektor fruit_cake.

# lihat kembali vektor `fruit_cake`
fruit_cake
[1] "apple pie"  "apple"      "apple cake"
# gunakan str_replace() untuk mengganti karakter `"e"` yang ditemukan pertama dengan strip `"-"`
str_replace(string = fruit_cake, pattern = "e", replacement = "-")
[1] "appl- pie"  "appl-"      "appl- cake"
# gunakan str_replace_all() untuk mengganti SEMUA karakter `"e"` dengan strip `"-"`
str_replace_all(string = fruit_cake, pattern = "e", replacement = "-")
[1] "appl- pi-"  "appl-"      "appl- cak-"

Latihan

  1. Ganti rangkaian karakter untuk kata "apple" pada vektor fruit_cake (yang berisi "apple pie", "apple", dan "apple cake") dengan kata "butter".

6 Menggabungkan vektor rangkaian karakter

Untuk menggabungkan dua atau lebih rangkaian karakter, gunakan str_c().

# menggabungkan dua rangkaian karakter: "ba" dan "li"
str_c("ba", "li")
[1] "bali"
karakter_1 <- c("b", "l", "k")
karakter_2 <- c("a", "i", "u")

# gabungkan tiga karakter dari dua vektor
str_c(karakter_1, karakter_2)
[1] "ba" "li" "ku"
# gabungkan dan apit tiga karakter dalam satu vektor dengan dua karakter lain yaitu "<m>"
str_c("<m>", karakter_1, "<m>")
[1] "<m>b<m>" "<m>l<m>" "<m>k<m>"

Jika salah satu dari dua vektor karakter yang akan digabung memiliki jumlah elemen yang lebih sedikit, maka elemen pada vektor tersebut akan digunakan ulang. Perhatikan contoh berikut.

two_word_fruit <- c("apple", "banana")
four_word_snack <- c("cake", "juice", "pie", "chocolate")

# gabungkan kedua vektor di atas
str_c(two_word_fruit, four_word_snack, sep = "_")
[1] "apple_cake"       "banana_juice"     "apple_pie"        "banana_chocolate"

Gunakan argumen sep = ... untuk mengatur pemisah di antara rangkaian karakter yang digabungkan. Secara bawaan, argumen sep = ... telah diatur menjadi sep = "".

# atur pemisah di antara karakter yang digabungkan dengan `sep = ...`
str_c(karakter_1, karakter_2, sep = "_")
[1] "b_a" "l_i" "k_u"

Argumen collapse = ... akan menyatukan sejumlah rangkaian karakter menjadi satu rangkaian karakter. Bandingkan kedua kode berikut yang menggunakan sep = ... dan collapse = ...:

# dengan sep = ..., penggabungan berikut menghasilkan tiga elemen rangkaian karakter
three_strings <- str_c("<m>", karakter_1, "<m>", sep = "_")
three_strings
[1] "<m>_b_<m>" "<m>_l_<m>" "<m>_k_<m>"
# Hitung jumlah elemen dalam vektor `three_strings`
length(three_strings)
[1] 3
# dengan collapse = ..., penggabungan berikut menghasilkan satu elemen rangkaian karakter
one_string <- str_c("<m>", karakter_1, "<m>", collapse = "_")
one_string
[1] "<m>b<m>_<m>l<m>_<m>k<m>"
# Hitung jumlah elemen dalam vektor `one_string`
length(one_string)
[1] 1

7 Menyimpan vektor karakter ke dalam berkas teks (plain text)

Gunakan fungsi cat() yang tersedia dari instalasi dasar R untuk menyimpan vektor karakter ke dalam berkas teks sederhana (plain text dengan ekstensi .txt).

# simpan vektor nama warna ke berkas `"selected-colours.txt"`
# dalam direktori `results`
# yang masing-masing elemen vektornya dipisahkan dengan baris baru (`sep="\n"`)
cat(word_colour_vector, file = "results/selected-colours.txt", sep = "\n")

Session info

devtools::session_info()
─ Session info ─────────────────────────────────────────────────────────────────────
 setting  value
 version  R version 4.1.3 (2022-03-10)
 os       macOS Monterey 12.1
 system   aarch64, darwin20
 ui       RStudio
 language (EN)
 collate  en_US.UTF-8
 ctype    en_US.UTF-8
 tz       Asia/Makassar
 date     2022-04-02
 rstudio  2022.02.0+443 Prairie Trillium (desktop)
 pandoc   NA

─ Packages ─────────────────────────────────────────────────────────────────────────
 package     * version date (UTC) lib source
 brio          1.1.3   2021-11-30 [1] CRAN (R 4.1.1)
 cachem        1.0.6   2021-08-19 [1] CRAN (R 4.1.1)
 callr         3.7.0   2021-04-20 [1] CRAN (R 4.1.0)
 cli           3.2.0   2022-02-14 [1] CRAN (R 4.1.1)
 crayon        1.5.0   2022-02-14 [1] CRAN (R 4.1.1)
 desc          1.4.1   2022-03-06 [1] CRAN (R 4.1.1)
 devtools      2.4.3   2021-11-30 [1] CRAN (R 4.1.1)
 digest        0.6.29  2021-12-01 [1] CRAN (R 4.1.1)
 ellipsis      0.3.2   2021-04-29 [1] CRAN (R 4.1.0)
 fastmap       1.1.0   2021-01-25 [1] CRAN (R 4.1.0)
 fs            1.5.2   2021-12-08 [1] CRAN (R 4.1.1)
 glue          1.6.2   2022-02-24 [1] CRAN (R 4.1.1)
 htmltools     0.5.2   2021-08-25 [1] CRAN (R 4.1.1)
 htmlwidgets   1.5.4   2021-09-08 [1] CRAN (R 4.1.1)
 jsonlite      1.8.0   2022-02-22 [1] CRAN (R 4.1.1)
 knitr         1.37    2021-12-16 [1] CRAN (R 4.1.1)
 lifecycle     1.0.1   2021-09-24 [1] CRAN (R 4.1.1)
 magrittr      2.0.2   2022-01-26 [1] CRAN (R 4.1.1)
 memoise       2.0.1   2021-11-26 [1] CRAN (R 4.1.1)
 pkgbuild      1.3.1   2021-12-20 [1] CRAN (R 4.1.1)
 pkgload       1.2.4   2021-11-30 [1] CRAN (R 4.1.1)
 prettyunits   1.1.1   2020-01-24 [1] CRAN (R 4.1.0)
 processx      3.5.2   2021-04-30 [1] CRAN (R 4.1.0)
 ps            1.6.0   2021-02-28 [1] CRAN (R 4.1.0)
 purrr         0.3.4   2020-04-17 [1] CRAN (R 4.1.0)
 R6            2.5.1   2021-08-19 [1] CRAN (R 4.1.1)
 remotes       2.4.2   2021-11-30 [1] CRAN (R 4.1.1)
 rlang         1.0.2   2022-03-04 [1] CRAN (R 4.1.1)
 rprojroot     2.0.2   2020-11-15 [1] CRAN (R 4.1.0)
 sessioninfo   1.2.2   2021-12-06 [1] CRAN (R 4.1.1)
 stringi       1.7.6   2021-11-29 [1] CRAN (R 4.1.1)
 stringr     * 1.4.0   2019-02-10 [1] CRAN (R 4.1.1)
 testthat      3.1.3   2022-03-29 [1] CRAN (R 4.1.1)
 usethis       2.1.5   2021-12-09 [1] CRAN (R 4.1.1)
 withr         2.5.0   2022-03-03 [1] CRAN (R 4.1.1)
 xfun          0.30    2022-03-02 [1] CRAN (R 4.1.1)
 yaml          2.3.5   2022-02-21 [1] CRAN (R 4.1.1)

 [1] /Library/Frameworks/R.framework/Versions/4.1-arm64/Resources/library

────────────────────────────────────────────────────────────────────────────────────

Daftar acuan

Rajeg, Gede Primahadi Wijaya. 2013. Metonymy in Indonesian Prefixal Word-formation. Lingual: Journal of Language and Culture 1. 64–81. doi:10.26180/5b6e403959120.
Rajeg, Gede Primahadi Wijaya. 2022a. Pengolahan teks dasar dengan R menggunakan stringr. Open Science Framework (OSF). doi:10.17605/OSF.IO/9ZHDJ. https://osf.io/9zhdj/ (2 April, 2022).
Rajeg, Gede Primahadi Wijaya. 2022b. Basic text manipulation with stringr. OSF Preprints. doi:10.31219/osf.io/q9yva. https://osf.io/q9yva/ (2 April, 2022).
Rajeg, Gede Primahadi Wijaya, Karlina Denistia & I Made Rajeg. 2018. Working with a linguistic corpus using R: An introductory note with Indonesian negating construction. Linguistik Indonesia 36(1). 1–36. doi:10.26499/li.v36i1.71.
Wickham, Hadley & Garrett Grolemund. 2017. R for Data Science. Canada: O’Reilly. http://r4ds.had.co.nz/ (7 March, 2017).
