Named-entity recognition (NER) (juga dikenal sebagai entitas identifikasi, chunking entitas dan entitas ekstraksi) adalah subtugas ekstraksi informasi yang berusaha untuk mencari dan mengelompokkan bernama entitas dalam teks ke dalam kategori yang ditetapkan seperti nama-nama orang, organisasi, lokasi, ekspresi kali, jumlah, nilai-nilai moneter, persentase, dll.
Siapkan Library, yang saya gunakan antara lain:
- NLTK Library
- RE Library
- Matplotlib.pyplot Library
- OS Library
Import packages yang dibutuhkan, disini saya menggunakan re, nltk, networkx, matplotlib.pyplot, dan os:
Melakukan preprocesing data dengan tokenize sebuah dokumen yaitu pemisahan kata menggunakan library nltk kemudian dilakukan pos_tagg (pos tagging) untuk melabeli kata dalam kalimat (sentences):
Melakukan Information Extraction. Pada tahap ini data(document) yang sudah di preprocesing akan mengambil kata-kata dengan tag PERSON dan ORGANIZATIONS yang ada pada dokumen. Kata yang sudah diambil nantinya akan menjadi entitas orang atau organisasi:
Menghilangkan karakter non ASCII, berfungsi untuk menghilangan simbol yang tak dikenali dan kemudian yang ketujuh melakukan ekstrasi dataset pertama membuka file artikel disini saya menggunkan library os kemudian ada pengecekkan file jika file ekstensi artikel tersebut .txt maka data nya akan dibaca lalu dijalankan fungsi _removeNonAscii untuk menghiangkan karakter non ASCII kemudian memproses dua kata yang berhubungan “name” dan “organization” kemudian melakukan perulangan kemudian yang terakhir memanggil fungsi draw_graph untuk menampilkan grap:



