Konfigurasi Swish-e untuk Indexing - All Makruf

Mari Belajar di Sini

Konfigurasi Swish-e untuk Indexing

Sebelum  melakukan  indexing,  langkah  pertama  yang  harus  dilakukan  adalah membuat atau menulis sebuah file konfigurasi Swish-e untuk indexing. File konfigurasi Swish-e diperlukan untuk mengatur proses indexing nantinya sesuai dengan yang diinginkan. Pada contoh ini, nama file dituliskan dengan nama  “crawling.conf”. Siapkan  file-file  yang ingin  di-index  dan  simpan  di  dalam  satu  folder.  Contoh  di  dalam folder  “file_html_pdf” terdapat  beberapa  file  HTML  dan  PDF.  File  crawling.conf  dan folder “file_html_pdf” disimpan pada direktori yang sama.

#crawling

#directory yang diindex
IndexDir       ./file_html_pdf

#file yang diindex
IndexOnly      .html    .pdf

#konversi pdf ke txt
FileFilter     .pdf  pdftotext  "'%p'-"

#untuk mengambil konten html
DefaultContents    HTML*
StoreDescription   HTML* <body> 200000  200000


#meng-create file index
IndexFile      ./hasil_index.index


#meng-create file index
IndexFile    ./hasil_index.index

Setelah selesai membuat file konfigurasi maka kita dapat menjalankan proses indexing dari  file  konfigurasi Swish-e  yang  telah  dibuat  tersebut. Adapun cara menjalankannya adalah sebagai berikut.
$ swish-e –c crawling.conf
Konfigurasi Swish-e untuk Indexing

Postingan terkait:

Belum ada tanggapan untuk "Konfigurasi Swish-e untuk Indexing"

Post a Comment