ゆるいブログだよーー!!!

人に向けて書いているようで、自分と対話してるだけ

PythonでPDF給与明細をデータ化 その1

前回、PyhtonをVSCodeで実行できるように設定しました。

sbsn4623.hatenablog.com

私がPythonに手を出した理由、それはPDFでしかダウンロードできない給与明細の計算がめんどくさいから!
CSVでくらい出してくれればいいのに、PDFなんだよ、なんなん!

という事で、給与明細に書かれていそうな「日本語(文章ではない)」「数字」が読み取れるライブラリ探しをします

テキストファイルじゃないデータの読み込みはしたことないので、どこまでぱっぱと出来るのか分かりませんが、表としても認識してくれるのでしょうか。

まあ、そこは後からいじればいいので、PDF読みこませてみたいと思います。


需給、ガイドライン、入荷及び価格の見通し等に関する情報:農林水産省

農林水産省の、令和4年2月の野菜生育表の表をお借りします。

あと、詳細は省きますが今回からターミナル実行じゃなくてジュピター使います
atmarkit.itmedia.co.jp



とりあえず、pdfminer.sixをインストールして、pdf読みこんでそのまま表示、、を試みましたが、農林水産省から借りてきた野菜の生育表からは何も読み取れませんでした。

コードを書くにあたって参考にさせてもらったサイトに書かれていたpdfファイルはちゃんと読みこんだので、pdfminerは表には向いてないかもしれない
self-development.info
pdfminer.sixではなく、開発停止しているらしい方を使用しているっぽいが、派生だと思うのでこれ以上の深堀はやめよう。

Pythonゼロ歳児ですし、私の給与計算だけに使うので、もう少し表の読み込みは簡単にできないのか!?と、、


まあ、最終的な調整で画像処理しなきゃいかんのかなーとはなんとなく思ってる。無駄にカラーだから。PDF給与明細(怨)
PDFの読み込みって、画像処理して読んでくれてると思ってるけどあってるのか?
んーー。読みこんだ文字列を力技で加工して欲しいデータを表示するぜ計画は難航。。