Named-entity recognition (NER) (juga dikenal sebagai entitas identifikasi, chunking entitas dan entitas ekstraksi) adalah subtugas ekstraksi informasi yang berusaha untuk mencari dan mengelompokkan bernama entitas dalam teks ke dalam kategori yang ditetapkan seperti nama-nama orang, organisasi, lokasi, ekspresi kali, jumlah, nilai-nilai moneter, persentase, dll.
Siapkan Library, yang saya gunakan antara lain:
- NLTK Library
- RE Library
- Matplotlib.pyplot Library
- OS Library
Lalu cari 10 artikel dengan 1 tema lalu simpan isi artikelnya di notepad save semua artikel di dalam satu folder dengan format txt/ text document.
Jika sudah buka python shell/sublime/dll.
Import packages yang dibutuhkan, disini saya menggunakan re, nltk, networkx, matplotlib.pyplot, dan os:
Melakukan preprocesing data dengan tokenize sebuah dokumen yaitu pemisahan kata menggunakan library nltk kemudian dilakukan pos_tagg (pos tagging) untuk melabeli kata dalam kalimat (sentences):
Melakukan Information Extraction. Pada tahap ini data(document) yang sudah di preprocesing akan mengambil kata-kata dengan tag PERSON dan ORGANIZATIONS yang ada pada dokumen. Kata yang sudah diambil nantinya akan menjadi entitas orang atau organisasi:
Melakukan visualisasi dengan menggunakan networkx graph untuk membuat node (simpul/ yang bentuknya lingkaran) , edge (jalur/garis) untuk menghubungkan antar entitas. Untuk nodes saya menggunakan node_size=’1000’ dan node_color = ‘blue’ dan untuk edges saya menggunakan width=2, alpha= 0.3, edge_color= green. Dan untuk labels(tulisan) nya saya menggunakan font_size:12 dan font_family=’ sans-serif’:
Menghilangkan karakter non ASCII, berfungsi untuk menghilangan simbol yang tak dikenali dan kemudian yang ketujuh melakukan ekstrasi dataset pertama membuka file artikel disini saya menggunkan library os kemudian ada pengecekkan file jika file ekstensi artikel tersebut .txt maka data nya akan dibaca lalu dijalankan fungsi _removeNonAscii untuk menghiangkan karakter non ASCII kemudian memproses dua kata yang berhubungan “name” dan “organization” kemudian melakukan perulangan kemudian yang terakhir memanggil fungsi draw_graph untuk menampilkan grap:
Lalu save dengan format .py dan buka filehasil graph nya:
Sekian terimakasih
Alfian Maulana Fajar
171080200089



