Apps Artificial Intelligence CSS DevOps Go JavaScript Laravel Linux MongoDB MySQL PHP Python Rust Svelte Vue

Extract Text dari PDF di Python dengan PyMuPDF (fitz)

1 min read .

Updated on 02 Sep 2025

Extract Text dari PDF di Python dengan PyMuPDF (fitz)

Salah satu hal yang sering bikin repot waktu kerja sama PDF itu adalah ekstrak teks. Mau analisis, konversi, atau cuma mau bikin konten lebih gampang diakses, PDF itu tricky. Untungnya, Python punya library powerful: PyMuPDF alias fitz, yang bikin ekstrak teks dari PDF jadi gampang.

Prasyarat

Install dulu library-nya kalau belum:

pip install pymupdf

Script Ekstraksi Teks

Berikut contoh script sederhana yang ambil teks tiap halaman PDF dan simpan ke file .txt terpisah:

import fitz  # PyMuPDF
import os

def extract_text_from_pdf(pdf_path, output_dir):
    pdf_document = fitz.open(pdf_path)
    os.makedirs(output_dir, exist_ok=True)
    
    for page_num in range(len(pdf_document)):
        page = pdf_document.load_page(page_num)
        text = page.get_text()
        
        file_path = os.path.join(output_dir, f"page_{page_num + 1}.txt")
        with open(file_path, 'w', encoding='utf-8') as f:
            f.write(text)
        
        print(f"Teks halaman {page_num + 1} disimpan di {file_path}")

    pdf_document.close()

# Ganti sesuai file PDF dan direktori output
extract_text_from_pdf("data/file.pdf", "output_texts")

Cara Kerja Script

Buka PDF: fitz.open(pdf_path) untuk load PDF.
Buat Direktori Output: Kalau folder belum ada, os.makedirs(output_dir, exist_ok=True) bikin otomatis.
Ekstrak Teks: Loop tiap halaman, ambil teks dengan page.get_text().
Simpan Teks: Tulis ke file .txt dengan UTF-8 supaya karakter aman.
Tutup PDF: pdf_document.close() supaya resource bersih.

Customisasi

Bisa ubah format output.
Bisa ekstrak halaman tertentu aja.
Bisa ambil info tambahan seperti gambar atau anotasi.

Kesimpulan

Dengan beberapa baris kode, PyMuPDF bikin ekstrak teks PDF di Python gampang banget. Sejak kita pakai ini buat proyek, proses manipulasi PDF jauh lebih cepat dan nggak bikin pusing.

Lihat Juga

Bekerja dengan File CSV di Pandas

Updated on 02 Sep 2025

Bekerja dengan File CSV di Pandas

Dalam analisis data, file CSV (Comma-Separated Values) merupakan format populer untuk menyimpan dan bertukar data. Pandas, library Python yang powerful, memudahkan saya untuk bekerja dengan file CSV, baik untuk mengekspor maupun mengimpor data. Di sini, kita akan membahas cara mengekspor DataFrame ke file CSV dan membacanya kembali ke dalam DataFrame. Memasang Pandas Jika belum memasang Pandas, Anda bisa melakukannya menggunakan pip: Copy pip install pandas Mengekspor DataFrame ke File CSV Mengekspor data ke file CSV adalah tugas umum dalam analisis data. Berikut cara membuat DataFrame dan menyimpannya ke file CSV:

Bekerja dengan Pandas: Panduan untuk Pemula

Updated on 02 Sep 2025

Bekerja dengan Pandas: Panduan untuk Pemula

Pandas adalah library powerful untuk manipulasi dan analisis data di Python. Di sini, kita akan menjelajahi beberapa operasi dasar yang bisa dilakukan dengan Pandas, termasuk mengganti nama kolom, menambah, memperbarui, dan menghapus data, serta menyortir dan memfilter DataFrame. Memasang Pandas Untuk memulai, pastikan Pandas sudah terpasang. Anda bisa memasangnya dengan mudah menggunakan pip: Copy pip install pandas Membuat DataFrame kita mulai dengan membuat DataFrame sederhana. Berikut cara menginisialisasi DataFrame dengan beberapa data contoh:

Memahami Tuple di Python: Panduan Lengkap

Updated on 02 Sep 2025

Memahami Tuple di Python: Panduan Lengkap

Di Python, tuple adalah struktur data yang penting dan serbaguna untuk menyimpan beberapa item dalam satu variabel. Meskipun mirip dengan list, tuple memiliki beberapa perbedaan penting. Memahami cara bekerja dengan tuple sangat penting untuk pemrograman Python yang efisien dan efektif. Dalam panduan ini, kita akan membahas dasar-dasar tuple, fitur-fiturnya, dan penggunaannya. Apa Itu Tuple? Tuple adalah koleksi elemen yang immutable (tidak bisa diubah) dan terurut. Berbeda dengan list, begitu tuple dibuat, isinya tidak bisa diubah. Tuple dapat menyimpan item dengan berbagai tipe data dan sering digunakan untuk mengelompokkan data yang terkait.

Mengenal Arrays di Python: Panduan Lengkap

Updated on 02 Sep 2025

Mengenal Arrays di Python: Panduan Lengkap

Sebagai developer independen, saya sering nemuin kasus di mana data harus disimpan dan diolah secara efisien. Awalnya saya bingung bedain kapan pakai list, kapan pakai array, atau NumPy. Setelah nyobain beberapa cara, ternyata masing-masing punya keunggulan sendiri. Gini deh, mari kita bahas lengkap tapi santai. 1. Lists: Array Paling Fleksibel Di Python, list sering dipakai sebagai array karena fleksibel dan gampang banget. Bisa nyimpen berbagai tipe data sekaligus. Copy # List integer numbers = [1, 2, 3, 4, 5] # List campur-campur mixed_list = [1, "Python", 3.14, True] # Akses & ubah elemen numbers[2] = 35 # [1, 2, 35, 4, 5] Kelebihannya: fleksibel, gampang dipakai, cocok buat data campuran. Kekurangannya: nggak seefisien array murni kalau datanya banyak dan homogen.

Mengenal Jenis-Jenis Fungsi di Python

Updated on 02 Sep 2025

Mengenal Jenis-Jenis Fungsi di Python

Sebagai developer independen, awalnya saya sering bingung bedain kapan pakai fungsi biasa, lambda, atau generator. Tapi setelah sering eksperimen, ternyata tiap jenis fungsi punya keunggulan sendiri dan bikin kode lebih rapi serta reusable. Gini deh, mari kita bahas lengkap. 1. Built-in Functions Python sudah menyediakan banyak fungsi bawaan yang bisa langsung dipakai: Copy print("Hello, world!") print(len([1,2,3])) print(sum([1,2,3])) Contoh lain: type(), range(), dll. Simpel tapi powerful.

Mengenal Python Lists: Panduan Lengkap dari Dasar hingga Multidimensional

Updated on 02 Sep 2025

Mengenal Python Lists: Panduan Lengkap dari Dasar hingga Multidimensional

Sebagai developer independen, saya sering banget ketemu kasus di mana data harus disimpan dan diolah dengan fleksibel. Awalnya saya rada bingung bedain kapan pakai list biasa, nested list, atau cara querying yang efisien. Tapi setelah sering eksperimen, Python lists itu ternyata powerful banget. Gini deh, mari kita kupas tuntas. 1. Membuat Lists Dasar Copy # Kosong empty_list = [] # Integer numbers = [1, 2, 3, 4, 5] # Campur-campur mixed_list = [1, "Hello", 3.14, True] # Nested list nested_list = [[1,2,3], [4,5,6], [7,8,9]] Menggunakan list() Copy tuple_to_list = list((1,2,3)) string_to_list = list("hello") 2. Mengakses & Mengubah Elemen Copy numbers = [10, 20, 30, 40, 50] # Akses first_element = numbers[0] last_element = numbers[-1] slice_of_list = numbers[1:4] # Modifikasi numbers[1] = 99 3. Menambah & Menghapus Elemen Copy numbers = [1,2,3] # Menambah numbers.append(4) numbers.extend([5,6]) numbers.insert(1, 10) # Menghapus numbers.remove(3) removed = numbers.pop(1) del numbers[1] 4. Operasi Dasar Lists Copy list1 + list2 # Concatenation [1,2,3] * 3 # Repetition 3 in [1,2,3] # Membership 5. Iterasi & List Comprehension Copy for n in numbers: print(n) squares = [x**2 for x in range(10)] evens = [x for x in range(10) if x%2==0] 6. Multidimensional Lists Copy matrix = [ [1,2,3], [4,5,6], [7,8,9] ] tensor = [ [[1,2],[3,4]], [[5,6],[7,8]], [[9,10],[11,12]] ] # Akses element = matrix[1][2] block = tensor[0] # Iterasi for row in matrix: for val in row: print(val, end=' ') print() 7. Querying Lists Copy numbers = [1,2,3,4,5,6,7,8,9,10] # Filtering evens = [x for x in numbers if x%2==0] evens2 = list(filter(lambda x: x%2==0, numbers)) # Searching greater_than_five = next((x for x in numbers if x>5), None) all_positive = all(x>0 for x in numbers) # Aggregating total_sum = sum(numbers) min_value = min(numbers) max_value = max(numbers) 8. Kesimpulan Gini deh, Python lists itu simpel tapi powerful. Dari list dasar, nested list, sampai querying, semuanya bikin manipulasi data lebih fleksibel. Kita rutin pakai list dan list comprehension, coding Python sehari-hari jadi lebih cepat dan enak.