標籤: library - Laugh Now

Tika PDFBox 讀取繁體中文編碼錯誤

Tika PDFBox 讀取繁體中文編碼錯誤

最近遇到個詭異的問題,就是當Tika去解析PDF文件時,如果文件有使用特定編碼(ETenms-B5),就會解析出亂碼,Tika解析PDF的部分是使用PDFBox,而我遇到的問題也正好是存在已久的PDFBox bug。

繼續閱讀