Deteksi Clickbait pada Judul Berita Online Berbahasa Indonesia Menggunakan FastText
I will put the dimension here
Abstract
The rise of people accessing news portals has created intense competition between online media to get readers or visitors to maximize their revenue. This is what triggers the development of clickbait. Clickbait can reduce the quality of the news itself, and it also has the potential to be misinformation regarding to news contents as known as fake news. Therefore, it is necessary to detect news titles that contain clickbait. This study aims to obtain an optimal clickbait news title classification model using FastText. To get the optimal model can be done by cleaning the data and optimizing the model's hyperparameters. The model was trained using 9600 training data collected from Indonesian online news. The best model obtained in this study has performance with an accuracy of 77% and an F1-Score of 69%.
Downloads
References
N. Rahmatika and G. Prisanto, “Pengaruh Berita Clickbait Terhadap Kepercayaan pada Media di Era Attention Economy,” Avant Garde, vol. 10, no. 2, Art. no. 2, Dec. 2022, doi: 10.36080/ag.v10i2.1947.
Y. Chen, N. K. Conroy, and V. L. Rubin, “News in an online world: The need for an ‘automatic crap detector,’” Proceedings of the Association for Information Science and Technology, vol. 52, no. 1, pp. 1–4, 2015, doi: 10.1002/pra2.2015.145052010081.
Y. Chen, N. J. Conroy, and V. L. Rubin, “Misleading Online Content: Recognizing Clickbait as ‘False News,’” in Proceedings of the 2015 ACM on Workshop on Multimodal Deception Detection, in WMDD ’15. New York, NY, USA: Association for Computing Machinery, Nov. 2015, pp. 15–19. doi: 10.1145/2823465.2823467.
“Tingkat Literasi Indonesia di Dunia Rendah, Ranking 62 Dari 70 Negara.” Accessed: Sep. 09, 2023. [Online]. Available: https://perpustakaan.kemendagri.go.id/2021/03/tingkat-literasi-indonesia-di-dunia-rendah-ranking-62-dari-70-negara/
M. Liebenlito, Ivansyah, M. Y. Wijaya, and R. F. Suwarman, “Modified self-attentive bi-directional long-short term memory for detecting clickbait in Indonesian news headline,” AIP Conference Proceedings, vol. 3049, no. 1, p. 020016, Feb. 2024, doi: 10.1063/5.0194623.
B. Siregar, I. Habibie, E. B. Nababan, and Fahmi, “Identification of Indonesian clickbait news headlines with long short-term memory recurrent neural network algorithm,” J. Phys.: Conf. Ser., vol. 1882, no. 1, p. 012129, May 2021, doi: 10.1088/1742-6596/1882/1/012129.
A. William and Y. Sari, “CLICK-ID: A novel dataset for Indonesian clickbait headlines,” Data in Brief, vol. 32, p. 106231, Oct. 2020, doi: 10.1016/j.dib.2020.106231.
A. Amalia, O. S. Sitompul, E. B. Nababan, and T. Mantoro, “An Efficient Text Classification Using fastText for Bahasa Indonesia Documents Classification,” in 2020 International Conference on Data Science, Artificial Intelligence, and Business Analytics (DATABIA), Jul. 2020, pp. 69–75. doi: 10.1109/DATABIA50434.2020.9190447.
P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, “Enriching Word Vectors with Subword Information,” Transactions of the Association for Computational Linguistics, vol. 5, pp. 135–146, 2017, doi: 10.1162/tacl_a_00051.
A. Joulin, E. Grave, P. Bojanowski, and T. Mikolov, “Bag of Tricks for Efficient Text Classification,” in Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers, M. Lapata, P. Blunsom, and A. Koller, Eds., Valencia, Spain: Association for Computational Linguistics, Apr. 2017, pp. 427–431. Accessed: Dec. 21, 2023. [Online]. Available: https://aclanthology.org/E17-2068
S. Martinčić-Ipšić, T. Miličić, and L. Todorovski, “The Influence of Feature Representation of Text on the Performance of Document Classification,” Applied Sciences, vol. 9, no. 4, Art. no. 4, Jan. 2019, doi: 10.3390/app9040743.
B. Kuyumcu, C. Aksakalli, and S. Delil, “An automated new approach in fast text classification (fastText): A case study for Turkish text classification without pre-processing,” in Proceedings of the 2019 3rd International Conference on Natural Language Processing and Information Retrieval, in NLPIR ’19. New York, NY, USA: Association for Computing Machinery, Jun. 2019, pp. 1–4. doi: 10.1145/3342827.3342828.
T.-T. Wong, “Performance evaluation of classification algorithms by k-fold and leave-one-out cross validation,” Pattern Recognition, vol. 48, no. 9, pp. 2839–2846, Sep. 2015, doi: 10.1016/j.patcog.2015.03.009.
Copyright (c) 2024 Muhaza Liebenlito, Arlianis Arum Yesinta, Muhamad Irvan Septiar Musti
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Pernyataan Hak Cipta dan Lisensi
Dengan mengirimkan manuskrip ke Journal of Applied Computer Science and Technology (JACOST), penulis setuju dengan kebijakan ini. Tidak diperlukan persetujuan dokumen khusus.
- Hak cipta pada setiap artikel adalah milik penulis.
- Penulis mempertahankan semua hak mereka atas karya yang diterbitkan, tak terbatas pada hak-hak yang diatur dalam laman ini.
- Penulis mengakui bahwa Journal of Applied Computer Science and Technology (JACOST) sebagai yang pertama kali mempublikasikan dengan lisensi Creative Commons Atribusi 4.0 Internasional (CC BY-SA).
- Penulis dapat memasukan tulisan secara terpisah, mengatur distribusi non-ekskulif dari naskah yang telah terbit di jurnal ini kedalam versi yang lain (misal: dikirim ke respository institusi penulis, publikasi kedalam buku, dll), dengan mengakui bahwa naskah telah terbit pertama kali pada Journal of Applied Computer Science and Technology (JACOST);
- Penulis menjamin bahwa artikel asli, ditulis oleh penulis yang disebutkan, belum pernah dipublikasikan sebelumnya, tidak mengandung pernyataan yang melanggar hukum, tidak melanggar hak orang lain, tunduk pada hak cipta yang secara eksklusif dipegang oleh penulis.
- Jika artikel dipersiapkan bersama oleh lebih dari satu penulis, setiap penulis yang mengirimkan naskah menjamin bahwa dia telah diberi wewenang oleh semua penulis bersama untuk menyetujui hak cipta dan pemberitahuan lisensi (perjanjian) atas nama mereka, dan setuju untuk memberi tahu rekan penulis persyaratan kebijakan ini. Journal of Applied Computer Science and Technology (JACOST) tidak akan dimintai pertanggungjawaban atas apa pun yang mungkin timbul karena perselisihan internal penulis.
Lisensi :
Journal of Applied Computer Science and Technology (JACOST) diterbitkan berdasarkan ketentuan Lisensi Creative Commons Atribusi 4.0 Internasional (CC BY-SA). Lisensi ini mengizinkan setiap orang untuk :.
- Berbagi — menyalin dan menyebarluaskan kembali materi ini dalam bentuk atau format apapun;
- Adaptasi — menggubah, mengubah, dan membuat turunan dari materi ini untuk kepentingan apapun.
Lisensi :
-
Atribusi — Anda harus mencantumkan nama yang sesuai, mencantumkan tautan terhadap lisensi, dan menyatakan bahwa telah ada perubahan yang dilakukan. Anda dapat melakukan hal ini dengan cara yang sesuai, namun tidak mengisyaratkan bahwa pemberi lisensi mendukung Anda atau penggunaan Anda.
-
BerbagiSerupa — Apabila Anda menggubah, mengubah, atau membuat turunan dari materi ini, Anda harus menyebarluaskan kontribusi Anda di bawah lisensi yang sama dengan materi asli.