ゆるいブログだよーー!!!

人に向けて書いているようで、自分と対話してるだけ

PythonでPDF給与明細をデータ化 その2

久しぶりにPythonを使用する機会があったので、pdfminer.sixでpdfの表が読み込めずに撃沈していた給与明細のデータ化やります

前回は、pdfの文字を読みこもうとしていたのですが、 私の給与明細は明らかに表なので、今回はpdfの表を読みこむ方法を調べました

デデン! 「tabula」というキーワードがいっぱい出てきたのでこれを使います。 この記事に書かれてる感じで、私の表もデータ化したい qiita.com

ので、書かれている通りJavaをインストールします。 Javaの公式 https://www.java.com/ja/download/help/download_options_ja.html

オンラインインストールとオフラインインストールがあります。 特にオフラインでやる理由は無いのでオンラインでやります。 日本語でインストール方法書かれているので公式だけで完結する!うれしい!

ということでインストール完了

あとは、先程のQiitaの記事に書かれていた中からPDFを読みこんでくるこの数行を書けば

import pandas, tabula

target_file = "給与明細.pdf"
data_frames = tabula.read_pdf(target_file, lattice=True, pages='all')

for data_flame in data_frames:
    print(data_flame)
    print('★')

給与明細なので、載せられませんが表単位でデータが取れてるみたいです。 漢字の文字化けもしてないし、これなら使えそうです。 間はスペースだから、このデータを分けていけばいけそう? 次はとってきたデータを加工して扱いやすいようにしたいと思います!