Pemodelan Topik Film di Twitter menggunakan Latent Dirichlet Allocation

Print Friendly and PDF 0 Viewers
Pemodelan Topik Film di Twitter menggunakan Latent Dirichlet Allocation

Andri Imanudin

Abstrak - Film merupakan industri kreatif yang berkembang dari waktu ke waktu, bahkan dari satu judul film saja terkadang bisa dijadikan beberapa sekuel. Akan tetapi tidak serta merta suatu film dibuatkan sekuelnya begitu saja. Setiap industri film perlu memastikan terlebih dahulu apakah suatu film layak untuk dibuatkan sekuelnya atau tidak. Apakah masyarakat masih membicarakannya atau topik apa yang mereka bahas setelah penayangan film tersebut. Hal seperti ini tentunya akan menimbulkan banyak kesulitan, serta menghabiskan banyak waktu jika dilakukan secara manual. Maka dari itulah dibutuhkan suatu teknik untuk melakukannya. Pemodelan topik adalah teknik untuk menemukan kumpulan kata-kata yaitu topik dari sekelompok dokumen yang mewakili informasi dalam sekelompok dokumen tersebut. Sekelompok dokumen dapat diperoleh dari kumpulan data interaksi dalam media sosial, yang dalam hal ini adalah twitter. 

Keywords – Pemodelan Topik, Latent Dirichlet Allocation, Data Science

I. PENDAHULUAN

Film merupakan industri kreatif yang berkembang dari waktu ke waktu, bahkan dari satu judul film saja terkadang bisa dijadikan beberapa sekuel. Hal ini terjadi karena banyaknya masyarakat yang menantikan kelanjutan cerita dari suatu film yang telah ditontonya. Akan tetapi tidak serta merta suatu film dibuatkan sekuelnya begitu saja. Setiap industri film perlu memastikan terlebih dahulu apakah suatu film layak untuk dibuatkan sekuelnya atau tidak. 

Para pemilik industri film bisa melihatnya dari rating atau hal lain seperti review dan status media sosial yang dapat mewakili pendapat masyarakat terkait film yang telah mereka produksi. Apakah masyarakat masih membicarakan film tersebut, seberapa sering dan apa yang mereka bahas atau topik apa yang mereka bahas dalam pembicaraan tersebut. Hal seperti ini akan menimbulkan banyak kesulitan, serta menghabiskan banyak waktu jika dilakukan secara manual. Maka dari itulah dibutuhkan suatu teknik khusus yang dapat memudahkan dalam melakukannya. Pemodelan topik adalah teknik untuk menemukan kumpulan kata-kata yaitu topik dari sekelompok dokumen yang mewakili informasi dalam sekelompok dokumen tersebut. Sekelompok dokumen dapat diperoleh dari kumpulan data interaksi dalam media sosial, yang dalam hal ini adalah twitter. 

Dengan menggunakan kata kunci (hastag) #InfinityWars dan #InfinityWar yang sering dituliskan setiap pengguna membuat tweet terkait film  Avenger : Infinity War yang telah ditontonnya kita dapat menganalisa apakah mereka masih membicarakannya, seberapa sering dan apa yang sebenarnya mereka bicarakan atau topik apa yang mereka bicarakan setelah penayangan film tersebut.

II. DASAR TEORI

Beberapa langkah yang diperlukan dalam melakukan Pemodelan Topik di Twitter menggunakan LDA seperti Data Aquicition dengan melakukan web scraping, Data Preparation dengan melakukan preprocessing dan melakukan analisis data dengan menggunakan algoritma Latent Dirichlet Allocation, serta melakukan Visualization untuk menggambarkan hasil dari pemodelan topik tersebut

A. Data Aquicition

Suatu tahapan untuk pengumpulan informasi dalam hal ini berupa data twitter dengan menggunakan teknik web scraping, yakni teknik yang digunakan untuk mengambil isi sebuah halaman web dalam hal ini twitter secara spesifik, misalnya link tweet, isi tweet atau sejenisnya.

B. Data Preparation

Tahap penyiapan suatu data mentah, menjadi data berkualitas yang siap diolah, dengan melakukan beberapa tahap pre-processing seperti :
  • Case Folding : mengubah keseluruhan data menjadi bentuk standar (huruf kecil atau lowercase)
  • Filtering : melakukan penyaringan data untuk mendapatkan kata-kata yang penting dengan melakukan stopword removal atau penghapusan kata-kata yang tidak memiliki makna atau kata-kata yang tidak penting, punctuation filtering atau penghapusan tanda baca
  • Lemmatization : menghapus imbuhan dalam kata sehingga kata tersebut menjadi kata dasarnya
  • Tokenizing : melakukan split atau memisahkan seluruh kata yang ada menjadi list kata.

C. Analisis Data

Melakukan analisis terhadap data yang telah siap untuk diolah dengan melakukan ekstrasi fitur yang terkandung didalamnya meliputi :
  • Dictionary : memastikan setiap kata unik memperoleh index
  • Bag of word : menghitung frekuensi kemunculan setiap kata yang ada. 

Hingga selanjutnya barulah melakukan pemodelan topik menggunakan 
  • Latent Dirichlet Allocation : model Bayesian Hirarki yang memandang suatu dokumen sebagai kombinasi dari topik-topik yang berbeda. Dimana setiap dokumen diasumsikan memiliki sekelompok topik yang ditugaskan untuk membentuk dokumen tersebut.

D. Visualization

Melakukan visualiasi yang dapat menggambarkan isi dari data seperti
  • Barchart : menampilkan fluktuasi jumlah tweet perhari selama rentang waktu tertentu setelah penayangan film
  • WordCloud : menampilkan kata-kata yang menyusun suatu topik tertentu 
  • Nearest Interpolations : menggambarkan kedekatan kata dalam masing-masing topik

III. PERANCANGAN SISTEM

Perancangan sistem untuk pemodelan topik dilakukan menggunakan bahasa pemrograman python 3 pada Jupyter Notebook dan menggunakan algoritma pemodelan topik yakni Latent Dirichlet Allocation dengan tahapan sebagai berikut

A. Pengumpulan Data

Data dikumpulkan dengan melakukan twitter scraping pada Jupyter Notebook melalui library tweepy menggunakan kata kunci (hastag) #InfinityWars dan #InfinityWar dengan mengambil atribut berupa tanggal tweet dibuat, nama pemilik tweet, jumlah re-tweet dari tweet tersebut, jumlah favorit dari tweet tersebut, isi dari tweet tersebut dan lokasi tweet tersebut dibuat.

Gambar.1 Twitter Scraping dengan library tweepy

B. Preprocessing Data

Pada tahap ini dilakukan beberapa hal seperti Case Folding, Filtering, Lemmatization dan Tokenizing hingga data siap untuk dilakukan pengolahan ditahap berikutnya

Gambar.2 Proses Case Folding
Gambar.3 Proses Filtering, Lemmatization dan Tokenizing

C. Feature Extraction

Melakukan ekstrasi fitur dalam bentuk dictionary untuk memastikan setiap kata mendapatkan index, yang selanjutnya akan direpresentasikan dalam bentuk bag of word untuk mengetahui frekuensi kemunculan dari masing-masing kata. Ekstrasi fitur ini dilakukan dengan menggunakan library genism

Gambar.4 Proses Dictionary dan Bag of Word

D. Pemodelan Topik

Pemodelan topik dilakukan dengan LDA (Latent Dirichlet Allocation) menggunakan library gensim dengan penentuan jumlah passes, topik dan kata penyusun topik ditentukan secara manual yakni secara urut 50, 5 dan 10.

Gambar.5 Proses Pemodelan Topik dengan LDA
Untuk bab hasil pada artikel berikutnya yaa, admin ngantukk banget wkwk



Baca Juga ya


BAGIKAN
Previous
Next Post »
0 Komentar