Machine Learning Untuk Deteksi Berita Hoax Menggunakan BERT

Authors

  • Isnaeni Imroatus Sholikhah Universitas PGRI Semarang
  • Aris Tri Jaka Harjanta Universitas PGRI Semarang
  • Khoiriya Latifah Universitas PGRI Semarang

Keywords:

Machine Learning, Klasifikasi berita hoax, BERT, Random Forest Classifier, representasi embedding

Abstract

Abstract.

The spread of hoax news is a serious problem in a digital era filled with information that is easily spread. This research aims to overcome these challenges by using BERT (Bidirectional Encoder Representations from Transformers) and Random Forest Classifier approaches in modeling and classifying hoax news. The BERT method is used to generate a rich sentence embedding representation, while the Random Forest Classifier is used as an effective classification tool and is able to overcome the problem of overfitting on text data. Using Google Collaboratory as a tool to explore the dataset, the evaluation results show that the BERT classification model has an accuracy of 67 percent on validation data in classifying hoax news, which shows the performance of the Machine Learning model in classifying hoax news. F1-Score for positive labels is 0.67 with Precision 0.57 for positive labels, Recall for positive labels is 0.80, the potential of this method can help in combating the spread of fake news. This research makes an important contribution in an effort to build a system that can identify and combat the spread of fake news, as well as show how to use BERT in the analysis of hoax news classification.

Keywords: Machine Learning, hoax news classification, BERT, Random Forest Classifier, embedding representation.

Abstrak

Penyebaran berita hoax menjadi permasalahan serius dalam era digital yang dipenuhi dengan informasi yang mudah tersebar. Penelitian ini bertujuan untuk mengatasi tantangan tersebut dengan menggunakan pendekatan BERT (Bidirectional Encoder Representations from Transformers) dan Random Forest Classifier dalam memodelkan dan mengklasifikasikan berita hoax. Metode BERT digunakan untuk menghasilkan representasi embedding kalimat yang kaya, sementara Random Forest Classifier digunakan sebagai alat klasifikasi yang efektif dan mampu mengatasi masalah overfitting pada data teks. Dengan Menggunakan Google Colaboratory sebagai alat untuk mengeksplor dataset sehingga  hasil  evaluasi menunjukkan bahwa model klasifikasi BERT memiliki akurasi sebesar 67 Persen pada data validasi dalam mengklasifikasikan berita hoax, yang menunjukkan performance atau kinerja model Machine Learning dalam melakukan klasifikasi berita hoax. F1-Score untuk label positif adalah 0.67 dengan Presisi  0.57 untuk label positif, Recall untuk label positif adalah 0.80,   potensi metode ini dapat membantu dalam memerangi penyebaran berita palsu. Penelitian ini memberikan kontribusi penting dalam upaya membangun sistem yang dapat mengidentifikasi dan memerangi penyebaran berita palsu, serta menunjukkan cara penggunaan BERT dalam analisis klasifikasi berita hoax.

Kata Kunci: Machine Learning, Klasifikasi berita hoax, BERT, Random Forest Classifier, representasi embedding.

 

Downloads

Published

2023-07-17

Issue

Section

Articles