返回博客列表
批次轉檔

WPS批次OCR功能:掃描PDF一鍵轉可搜尋文字完整設定指南

WPS 官方團隊
OCR
批次處理
掃描PDF
可搜尋文字
設定
轉檔
WPS 批次OCR, 掃描PDF 轉可搜尋文字, WPS OCR 設定步驟, 大量PDF 文字辨識, 一鍵OCR 操作教學, WPS 掃描檔 轉文字, PDF 搜尋功能 開啟, 批次轉檔 最佳實踐

功能定位與2025版變更

掃描PDF無法全文檢索,是法律、財會、檔案室最常見的「啞文件」痛點。WPS在2025年把OCR從「外掛」升級為「批次工具」,定位為「低門檻、按頁計費」的替代方案,與Adobe Acrobat Pro的「訂閱制」與「ABBYY FineReader的高單價」錯開市場。核心變更有三:①支援一次拖入≤500檔;②輸出層可選「僅文字層」或「雙層PDF」;③計費改以Stars(WPS內購代幣)結算,1 Stars≈0.03 USD,官方兌率每日08:00刷新。

與舊版(2023及更早)相比,新版把識別語言從3種擴到21種,並把「表格結構復原」從企業外掛下放到個人版;但同時把「免費每日5頁」改為「1頁試用」,變相提高試用門檻。若您仍使用11.x版,可在説明→檢查更新→「正式版通道」取得12.3.1,更新後舊的「圖片轉文字」外掛會被自動卸載,避免重複扣費。

版本差異與相容性速查

平台最低版本批次上限Stars單價/頁
Windows12.3.1500檔3 Stars
macOS12.2.7200檔3 Stars
Android13.450檔4 Stars
iOS13.450檔4 Stars

經驗性觀察:Android版若同時開啟「省電模式」,批次識別速度會掉約25%,可關閉後再測。驗證方式:設定→電池→效能模式→「無限制」,同樣20頁PDF比較耗時。

操作路徑(最短入口)

Windows 12.3.1桌面端

  1. 開啟WPS Office→首頁左側「PDF」
  2. 頂部功能區「進階」→「批次OCR」
  3. 拖入資料夾或檔案→選語言→勾「生成雙層PDF」→「開始」

失敗分支:若檔案總頁數>2000,系統會彈回「拆分任務」提示,需手動切成<2000頁再執行;否則按「確定」會直接退回首頁,不會扣點。

macOS 12.2.7

路徑與Windows雷同,但「批次OCR」藏在「工具」→「批次工具」子選單,且不支援拖入資料夾,只能選多檔。若您習慣右鍵選單,可在Finder選取PDF→右鍵「以WPS打開」→自動帶入批次列表。

Android 13.4

首頁→「應用」→「PDF工具」→「批次OCR」→「+」→「從資料夾選取」。由於行動裝置IO頻寬限制,建議單次<100 MB;若檔案過大,會出現「壓縮後再上傳」選項,壓縮係數0.6,可能降低識別率。

效能與成本試算

以常見A4、300 dpi、中英混排為基準,官方數據每頁平均3.2秒;經驗性觀察,CPU為Intel i5-1240P、16 GB RAM時,1000頁約55分完成,CPU占用維持65–75℃。若升級到i7-1365U,時間可壓到42分,邊際效益遞減明顯。

提示

成本公式:總頁數×3 Stars×0.03 USD。例:800頁×3×0.03=72 USD。若您每日有>500頁常態需求,可等「雙11」官方半價儲值,或改用企業點數(約2.1 Stars/頁,但需一次購買5萬Stars以上)。

何時不該用?若原始PDF已含文字層(即雙層PDF),再跑OCR會導致文字疊影,檔案體積+15%且搜尋結果重複。驗證方法:Adobe Reader「檔案→內容→字型」頁籤,若出現「Type 3」或「Custom」且數量>10,極可能已有文字層。

遷移步驟(從舊外掛升級)

  1. 備份「我的文件\Kingsoft\OCR」內的log與臨時圖片(便於糾紛追溯)。
  2. 控制台→程式→移除「WPS OCR外掛」。
  3. 安裝12.3.1完整包,勾「保留使用者設定」。
  4. 首次啟動會提示「繼承點數」,按「確認」即可把剩餘點數轉成Stars(匯率1:1)。

經驗性觀察:約5%用戶在升級後遇到「識別語言包缺失」。處置:設定→語言→「下載完整語言包」→重啟軟體即可。

例外與相容性黑洞

  • 加密PDF:需先「PDF解密」→「批次OCR」,否則彈「無法讀取」。解密功能同樣收費2 Stars/檔。
  • 雙層PDF:如上所述,不建議再識別。
  • 低解析度<150 dpi:經測試,中文字元準確率從96%跌至78%,若量大建議重新掃描。
  • 直排古籍:目前不支援直排模型,可能出現欄位錯亂。

工作假設

彩色背景(如粉紅表單)會使準確率下降約4–6%,可先用「PDF黑白化」再識別;驗證:取20頁彩色與灰階對照,以「錯字數/總字數」計算。

與第三方Bot協同(可複現)

企業內常見「掃描→OCR→更名→歸檔」全自動流程。WPS未提供官方Bot,但可用「資料夾監控+命令列」兜接:把完成資料夾設為Syncthing節點,再由Python watchdog監聽→調用WPS命令列:

wpspdf.exe /ocr /lang cn+en /output C:\done C:\scan\*.pdf

經驗性觀察:命令列參數未寫入官方文件,但在12.3.1仍可呼叫;若未來版本移除,需改回GUI。權限最小化:給予該腳本唯讀與寫入「done」資料夾即可,避免全域管理員。

故障排查一覽

現象可能原因驗證處置
進度卡0%檔案被佔用工作管理員→句柄搜尋PDF名關閉佔用程式或重開機
識別後空白原檔為向量圖片放大>800%無鋸齒改用高解析度點陣掃描
Stars未扣卻成功離線快取斷網後仍可識別重連後會補扣,勿重複執行

適用/不適用場景清單

高契合

  • 律師事務所:單次200–800頁合約調卷,需產生可搜尋文字供Discovery。
  • 醫院病歷掃描:每日500頁,需保留原圖像並疊加文字層,符合《電子病歷管理辦法》。
  • 學位論文回溯:紙本年代早,無電子源,需全文檢索建置引用資料庫。

低契合

  • 流通型電子書:已有文字層,再跑OCR徒增成本。
  • 手寫日記:準確率<70%,不符成本。
  • 高敏感機密網:需離線100%,WPS雲端API無法落地。

最佳實踐檢查表

  1. 先抽10%樣本跑「試識別」,準確率≥95%才全量。
  2. 掃描設定:300 dpi、黑白、無壓縮JPEG,檔案<1 MB/頁。
  3. 語言包預載:在「設定→語言」勾選所需,避免即時下載卡死。
  4. 拆分>2000頁檔案,避開批次上限。
  5. 完成後用「搜尋→Ctrl+F」抽查5關鍵字,確認無空白層。
  6. 備份:原PDF加「_ori」後綴,與輸出放不同Bucket,防誤覆蓋。

案例研究

A. 中型律所:72 小時完成 1.2 萬頁合約回溯

背景:某 80 人律所承接上市盡職調查,需在交割前將 1995–2010 年紙本合約全數轉為可搜尋 PDF。做法:先以 40 台富士通 iX1600 統一掃描 300 dpi 黑白,產生單檔 <700 KB;透過 NAS 集中後,由 3 台 Windows 工作站分批掛載 12.3.1,每批 400 檔、共 3 輪。結果:總耗 2,750 分鐘,平均 3.1 秒/頁,Stars 成本 432 USD(利用雙 11 儲值 6 折)。復盤:瓶頸在掃描端而非 OCR,律所後續把夜間離峰時段掃描改為「兩班制」,整體交付週期從 5 天縮到 3 天。

B. 區域醫院:每日 500 頁病歷無人值守

背景:院方 HIM 系統需把歷史紙本病歷轉為「雙層 PDF」以供醫師全文檢索。做法:導入自動進紙掃描器與 WPS 命令列,Python watchdog 監控「hot-folder」;檔案落地即呼叫 wpspdf.exe /ocr /lang cn /output 病歷完成庫。結果:30 天運行 15,300 頁,僅 2 次因夾紙中斷,人工介入 <10 分鐘;字符準確率 97.2%,符合病歷法規「可機讀」要求。復盤:院方把錯字率 >3% 的 2% 檔案自動移入「QC 資料夾」,由專員 15 分鐘快速補字,整體生產力提升 4.6 倍。

監控與回滚 Runbook

1. 異常信號

每 15 分鐘檢查「…\Kingsoft\OCR\log」error 欄位出現「decodeFail」>5%;CPU 占用 <20% 且進度條 0% 超過 180 秒;Stars 扣款 API 回傳 4xx 持續 3 次。

2. 定位步驟

  1. 開啟工作管理員→效能→GPU,若 Video Decode 0% 且硬碟佇列 >5,大概率為磁碟瓶頸。
  2. 比對「ocr.log」時間戳與檔案總管建立時間,找出卡頁。
  3. 用 Adobe Reader 打開該頁,檢視有無破圖或加密提示。

3. 回退指令

GUI:點「中止」→「保留原檔」;CLI:Ctrl-C 後加 /rollback 參數(12.3.1 支援)會自動刪除半成品並退還 Stars。若已誤覆蓋,請從「_ori」備份拷貝回來。

4. 演練清單

每季執行:模擲 50 檔加密 PDF→觀察是否觸發解密提示;拔掉網路 5 分鐘→確認離線快取上限 20 頁;手動 Kill 處理程序→檢查重開後任務可否續傳。

FAQ

Q1:為何識別後檔案變大?
結論:雙層PDF額外寫入文字層,體積約+12–18%。
背景:文字以透明向量儲存,每頁增加 20–40 KB,對比原始掃描仍小於 5%。

Q2:能否離線使用?
結論:僅 20 頁快取額度,其後需連網。
背景:授權與計費 API 需即時握手,無本機離線序號。

Q3:中文直排古籍?
結論:不支援,準確率 <65%。
背景:模型未訓練直排座標,建議轉 90° 後橫排再識別。

Q4:如何批量刪除文字層?
結論:使用「PDF 優化→刪除隱藏文字」功能(同樣 2 Stars/檔)。
背景:適用於誤操作雙層疊影,可退回純圖像。

Q5:可否自訂字典?
結論:目前無對外 API。
背景:企業版曾出現「詞庫外掛」beta,但 2025 版暫未下放。

Q6:為何 macOS 批次上限 200?
結論:Apple Sandbox 限制同行程開檔數量。
背景:官方為避免觸發系統句柄上限,主動下調。

Q7:行動版 4 Stars 較貴?
結論:平台抽成與壓縮頻寬成本轉嫁。
背景:Android/iOS 內購需給 Google/Apple 30%,官方以單價調整吸收。

Q8:可以退費嗎?
結論:失敗頁自動退 Stars,成功頁不退。
背景:後台以「是否寫入文字層」為判斷依據,可於 24 小時內申訴。

Q9:是否支援 GPU?
結論:12.3.1 僅 CPU,12.4 路線圖提及 Apple Silicon 支援。
背景:Windows 端仍用 Intel OpenVINO,未啟用 CUDA。

Q10:檔案會上傳雲端嗎?
結論:是,加密傳輸後即時刪除。
背景:官方聲明留存 ≤24 h,符合 ISO 27001;若需落地,請等離線版。

術語表

  • Stars:WPS 內購代幣,1 Stars≈0.03 USD。
  • 雙層 PDF:下層圖像、上層可搜尋文字。
  • 離線快取:無網路時允許的 20 頁暫授權額度。
  • DecodeFail:log 中識別引擎回報的解碼失敗標記。
  • OCR:Optical Character Recognition,光學字元識別。
  • 句柄(Handle):系統層級檔案指標,macOS Sandbox 有限額。
  • dpi:dots per inch,解析度單位。
  • Type 3 字型:PDF 內嵌的自訂向量字體,暗示已含文字。
  • CPU 占用 65–75%:觀察值,指全核心平均負載。
  • GPU Video Decode:GPU 硬解佔用率,0% 表示未啟用硬解。
  • 資料夾監控:以 Python watchdog 監聽檔案系統事件。
  • Syncthing:開源點對點同步工具,用於跨機中轉。
  • ISO 27001:國際資訊安全管理標準。
  • Apple Silicon:M1/M2 晶片統稱。
  • 加密 PDF:含 Owner/User Password 的檔案。

風險與邊界

不可用情形:離線環境 >20 頁、低解析度 <150 dpi、直排古籍、手寫準確率 <70%、機密網需 100% 落地。副作用:雙層疊影導致搜尋結果重複、檔案膨脹 15%、彩色背景準確率降 4–6%。替代方案:ABBYY FineReader(離線、高價)、Tesseract+自訓模型(開源、需技術門檻)、Adobe Acrobat Pro(訂閱制、企業折扣)。

未來趨勢與版本預期

根據WPS 2025Q3公開簡報,下一版(12.4)將把「離線OCR」下放給Super Member,語言包降為3 GB,並支援Apple Silicon GPU加速。另官方路線圖提到「表格結構復原」將導出為Excel選項,對財會場景更友善。若您現在每月用量>1萬頁,可等待12.4再評估是否升級年費方案,以降低邊際成本。

總結:WPS批次OCR在2025年已達「可規模化」水準,收費透明、介面統一,對於「圖像型PDF→可搜尋文字」是性價比最高的中量方案;惟需避開加密、雙層與低解析度陷阱,並以10%抽樣做品質閘門,即可在48小時內完成千篇級文件數位化,而單頁成本維持在0.09 USD以下。