PythonでPDF給与明細をデータ化 その2
久しぶりにPythonを使用する機会があったので、pdfminer.sixでpdfの表が読み込めずに撃沈していた給与明細のデータ化やります
前回は、pdfの文字を読みこもうとしていたのですが、 私の給与明細は明らかに表なので、今回はpdfの表を読みこむ方法を調べました
デデン! 「tabula」というキーワードがいっぱい出てきたのでこれを使います。 この記事に書かれてる感じで、私の表もデータ化したい qiita.com
ので、書かれている通りJavaをインストールします。 Javaの公式 https://www.java.com/ja/download/help/download_options_ja.html
オンラインインストールとオフラインインストールがあります。 特にオフラインでやる理由は無いのでオンラインでやります。 日本語でインストール方法書かれているので公式だけで完結する!うれしい!
ということでインストール完了
あとは、先程のQiitaの記事に書かれていた中からPDFを読みこんでくるこの数行を書けば
import pandas, tabula target_file = "給与明細.pdf" data_frames = tabula.read_pdf(target_file, lattice=True, pages='all') for data_flame in data_frames: print(data_flame) print('★')
給与明細なので、載せられませんが表単位でデータが取れてるみたいです。 漢字の文字化けもしてないし、これなら使えそうです。 間はスペースだから、このデータを分けていけばいけそう? 次はとってきたデータを加工して扱いやすいようにしたいと思います!