Blog.YHT.Web.ID

Icon

Bosan adalah awal dari penciptaan perubahan.

Perl : Parsing Isi Halaman HTML

Pagi ini saya mencoba untuk melanjutkan riset pengembangan Kalamangga.Com. Kali ini riset saya mengarah kepada otomatisasi parsing berkas HTML agar menjadi text biasa.

Riset saya ini menggunakan berkas html yang saya ambil dari salah satu berita di situs detik dan saya simpan dan beri nama “xx.html”. Bahasa pemrograman dalam riset ini adalah Perl. Dan tujuan riset ini adalah membuat sebuah aplikasi parsing sederhana.

Aplikasi ini nantinya adalah bagian dari sistem infrastruktur.

Berikut kode sementara yang telah saya susun :

#!/usr/bin/perl

# Modul yang digunakan
use strict;
use warnings;
use HTML::TokeParser::Simple;
use HTML::Parse;
use HTML::FormatText;

# Pakai berkas “xx.html”
my $parser = HTML::TokeParser::Simple->new(“xx.html”);

# Cari tag “div”
while ( my $div = $parser->get_tag(‘div’) ) {

# Cari “id” = “isiberita”
my $id = $div->get_attr(‘id’);
next unless defined($id) and $id eq ‘isiberita’;
my $hasil = $parser->get_trimmed_text(”);

# Ubah ke teks
my $hasil_text = HTML::FormatText->new->format(parse_html($hasil));

# Cetak hasil
print $hasil_text.”\n”;
};

NB : Aplikasi ini masih dalam tahap pengembangan. Segala hal yang terjadi akibat menjalankan aplikasi ini diluar tanggung jawab saya.

Kategori: /usr/local/bin

Tag: , , , , ,

Leave a Reply