Hỏi Đáp

N-Gram Là Gì

Model probabilistik N-gram, merupakan model yang digunakan untuk memprediksi kata berikutnya yang mungkin dari kata N-1 sebelumnya. Model statistika dari urutan kata ini seringkali disebut juga sebagai model bahasa (language models / LMs).

Đang xem: N-gram là gì

Model estimasi seperti N-gram memberikan probabilitas kemungkinan pada kata berikutnya yang mungkin dapat digunakan untuk melakukan kemungkinan penggabungan pada keseluruhan kalimat. Model N-gram merupakan model yang paling penting dalam pemrosesan suara ataupun bahasa baik untuk memperkirakan probabilitas kata berikutnya maupun keseluruhan sequence.

N-gram cukup esensial pada banyak hal dimana kata perlu diartikan dengan lebih tepat mengingat terkadang ada input yang ambigu maupun gangguan (noise). Misalnya pada speech recognition, seringkali pembicaraan terdengar sangat membingungkan dan banyak kata terdengar sangat mirip sehingga sulit dibedakan.

Selain itu, model N-gram juga esensial dalam mesin penerjemah statistik misalnya dalam hal menerjemahkan sumber kalimat bahasa Mandarin seperti “他向记者介绍了该声明的主要内容”. Katakanlah telah disiapkan beberapa terjemahan bahasa Inggris yang mungkin untuk kalimat tersebut:

he briefed to reporters on the chief contents of the statementhe briefed reporters on the chief contents of the statementhe briefed to reporters on the main contents of the statementhe briefed reporters on the main contents of the statement

Gramatikal pada N-gram akan memberikan saran bahwa briefed reporters lebih mungkin dibandingkan dengan briefed to reporters, dan main contents lebih mungkin dibandingkan dengan chief contents. Sehingga kita dapat memilih kalimat yang lebih sesuai sebagai kalimat terjemahan, yakni yang memiliki probabilitas paling tinggi.

Xem thêm: Phương Nghĩa Là Gì – Công Cụ Đặt Tên Cho Bé

Dalam perbaikan ejaan, kita perlu menemukan dan memperbaiki kesalahan eja yang tanpa disengaja menghasilkan sebuah kata lain dalam bahasa Inggris. Misalkan kita ingin menulis minutes namun tertulis minuets dalam kalimat yang berbunyi “They are leaving in about fifteen minuets to go to her house.

Oleh karena kesalahan ini menjadi sebuah kata lain yang terdaftar dalam bahasa Inggris, kata tersebut tidak akan dapat begitu saja ditandai jika hanya dilakukan pengecekan kata yang terdaftar dalam kamus. Namun, bisa diperhatikan bahwa about fifteen minutes akan lebih mungkin dibandingkan dengan about fifteen minuets. Sebuah spellchecker dapat menggunakan estimasi probabilistik dalam mendeteksi baik kesalahan maupun menyarankan perbaikan yang memiliki probabilitas lebih tinggi.

Di sisi lain, prediksi kata juga penting dalam sistem argumentative communication yang digunakan untuk membantu para penyandang cacat.

Xem thêm: Blog Tre Làng Blog

Bagi orang-orang yang tidak dapat berkomunikasi menggunakan suara ataupun bahasa isyarat, dapat berkomunikasi menggunakan sedikit pergerakan tubuh untuk memilih kata dari menu yang disuarakan oleh sistem. Prediksi kata dapat kemudian digunakan untuk menyarankan kata yang mungkin bagi menu tersebut.

Selain area-area sederhana yang telah didiskusikan di atas, model N-gram juga memegang peranan amat penting dalam NLP, seperti part-of-speech tagging, natural language generation, dan word similarity, juga untuk aplikasi authorship identification, sentiment extraction hing

*

Dr. Derwin Suhartono, S.Kom., M.T.I Head of Program of Computer Science | School of Computer Science

Related Articles

Trả lời

Email của bạn sẽ không được hiển thị công khai.

Back to top button