PythonでPDF給与明細をデータ化その2 - ゆるいブログだよーー!!!

久しぶりにPythonを使用する機会があったので、pdfminer.sixでpdfの表が読み込めずに撃沈していた給与明細のデータ化やります

前回は、pdfの文字を読みこもうとしていたのですが、私の給与明細は明らかに表なので、今回はpdfの表を読みこむ方法を調べました

デデン！「tabula」というキーワードがいっぱい出てきたのでこれを使います。この記事に書かれてる感じで、私の表もデータ化したい qiita.com

ので、書かれている通りJavaをインストールします。 Javaの公式 https://www.java.com/ja/download/help/download_options_ja.html

オンラインインストールとオフラインインストールがあります。特にオフラインでやる理由は無いのでオンラインでやります。日本語でインストール方法書かれているので公式だけで完結する！うれしい！

ということでインストール完了

あとは、先程のQiitaの記事に書かれていた中からPDFを読みこんでくるこの数行を書けば

import pandas, tabula

target_file = "給与明細.pdf"
data_frames = tabula.read_pdf(target_file, lattice=True, pages='all')

for data_flame in data_frames:
    print(data_flame)
    print('★')

給与明細なので、載せられませんが表単位でデータが取れてるみたいです。漢字の文字化けもしてないし、これなら使えそうです。間はスペースだから、このデータを分けていけばいけそう？次はとってきたデータを加工して扱いやすいようにしたいと思います！