Phương pháp trích xuất dữ liệu chọn lọc từ PDF sang Excel
23/02/2025
Nội dung bài viết
Chuyển đổi toàn bộ file PDF sang Excel là việc phổ biến, nhưng trích xuất một phần dữ liệu cụ thể lại đòi hỏi kỹ thuật hơn. Bạn có thể thực hiện điều này thông qua các cách như sao chép và dán thủ công, sử dụng công cụ trực tuyến miễn phí như Docparser, hoặc dùng phần mềm trả phí như Adobe Acrobat Pro DC. Bài viết này sẽ hướng dẫn chi tiết cách trích xuất dữ liệu từ PDF sang Excel một cách hiệu quả.
Hướng dẫn chi tiết
Thực hiện sao chép và dán dữ liệu

Mở file PDF bằng phần mềm đọc PDF. Nhấp đúp vào file PDF để mở nó trong chương trình đọc PDF mặc định như Preview trên macOS hoặc Edge trên Windows.

Chọn phần dữ liệu cần trích xuất từ PDF. Bạn có thể thực hiện bằng cách nhấp và kéo chuột từ góc trên bên trái đến góc dưới bên phải của vùng dữ liệu. Khi đó, phần dữ liệu sẽ được tô sáng, sẵn sàng để sao chép.

Sao chép dữ liệu vào bộ nhớ tạm. Nhấp chuột phải vào vùng được tô sáng và chọn Sao chép.
- Ngoài ra, bạn có thể sử dụng phím tắt Command + C trên Mac hoặc Control + C trên Windows để thực hiện nhanh thao tác này.

Mở tài liệu Excel và chọn ô phù hợp. Tương tự như thao tác trước, hãy nhấp và kéo chuột từ ô góc trên bên trái đến ô góc dưới bên phải để chọn nhiều ô cùng lúc.
- Đảm bảo chọn đủ số ô để chứa toàn bộ dữ liệu. Nếu không, chỉ một phần dữ liệu sẽ được dán vào.

Dán dữ liệu vào tài liệu Excel. Nhấp chuột phải vào một trong các ô đã chọn và chọn Dán. Mặc dù cần định dạng lại dữ liệu, nhưng bạn đã thành công trong việc chuyển đổi dữ liệu từ PDF sang Excel!
- Nếu việc dán toàn bộ dữ liệu gặp khó khăn, hãy thử sao chép và dán từng dòng vào từng ô riêng lẻ.
- Bạn cũng có thể dùng phím tắt Command + V trên Mac hoặc Control + V trên Windows để dán dữ liệu.
Khám phá cách sử dụng Docparser

Đăng ký tài khoản tại https://app.docparser.com/account/signup. Docparser cung cấp nhiều gói dịch vụ, bao gồm gói miễn phí cho phép trích xuất 30 tài liệu mỗi tháng.
- Bạn có thể đăng ký bằng tài khoản Google, Microsoft hoặc tạo tài khoản Docparser mới.

Nhấp vào Create Document Parser (Tạo phần trích xuất). Đây là nút màu xanh dương nằm ở giữa phía dưới màn hình.

Nhập tên và chọn mẫu phù hợp. Nếu văn bản của bạn không khớp với các mẫu có sẵn, hãy chọn Custom (Tùy chỉnh) ở dòng đầu tiên.
- Các mẫu sẵn có của Docparser đã được thiết lập nguyên tắc riêng, trong khi mẫu tùy chỉnh yêu cầu bạn tự thiết lập các quy tắc phù hợp.

Tải lên PDF và nhấp vào Continue (Tiếp tục). Bạn có thể kéo thả file PDF vào trang web hoặc nhấp vào ô tải lên để chọn file từ máy tính. Sau khi tải lên, nhấp vào nút màu xanh lá ở góc phải màn hình.
- Nếu bạn muốn xử lý nhiều file PDF cùng lúc, hãy tiếp tục tải lên các file đó.

Xem hoặc bỏ qua video hướng dẫn về nguyên tắc trích xuất. Nguyên tắc trích xuất giúp bạn chọn phương pháp đọc và chuyển đổi file PDF. Nếu không muốn xem, hãy nhấp vào “X” ở góc phải cửa sổ.
- Video chỉ kéo dài khoảng 1 phút 30 giây, nhưng rất hữu ích để hiểu rõ cách tùy chỉnh quá trình trích xuất dữ liệu.

Làm theo hướng dẫn trên màn hình. Đầu tiên, Docparser yêu cầu bạn chọn bộ nguyên tắc Text Variable Position, sau đó đặt tên cho quy định. Chương trình sẽ hiển thị thêm thông tin về phần dữ liệu được trích xuất, vị trí thêm bộ lọc, cách lọc dữ liệu và xem trước kết quả.

Thêm bộ lọc văn bản và điều chỉnh từng bộ lọc bằng cách sử dụng các ô “Filtered Result” (Kết quả đã lọc) bên dưới. Mỗi ô đều có khung lựa chọn để điều chỉnh bộ lọc và xem trước dữ liệu.
- Để chọn một phần dữ liệu, nhấp vào Add Text Filter (Thêm bộ lọc văn bản), di chuyển con trỏ đến Crop From Start & End (Cắt từ điểm đầu đến điểm cuối), rồi thiết lập điểm đầu và điểm cuối cho phần dữ liệu cần trích xuất.

Nhấp vào Save Parsing Rule (Lưu nguyên tắc trích xuất). Đây là nút màu xanh lá có biểu tượng dấu tích nhỏ màu trắng ở góc phải màn hình.

Tạo nguyên tắc trích xuất khác hoặc thoát công cụ chỉnh sửa. Sau khi hoàn tất, nhấp vào nút Leave Parsing Editor (Thoát công cụ chỉnh sửa) màu xám. Nếu muốn tiếp tục, nhấp vào nút Create Another Parsing Rule (Tạo nguyên tắc khác) màu xanh dương, sau đó thoát và chuyển sang bước tiếp theo.

Nhấp vào ô chọn bên cạnh tên văn bản. Dấu tích màu đen sẽ xuất hiện, cho biết bạn đã chọn thành công.

Chọn Move To Parse Queue (Chuyển sang nhóm chờ trích xuất) từ trình đơn Perform Action (Thực hiện thao tác). Trình đơn này nằm ở góc trên bên trái màn hình, ngay phía trên tên văn bản.

Nhấp vào Ok, chờ một phút và làm mới trang. Nếu văn bản chưa xuất hiện, có thể nó đang được trích xuất. Hãy kiên nhẫn chờ thêm một chút và chuyển đổi giữa các thẻ trong công cụ trích xuất.

Nhấp vào tên tập tin. Đây là nút nằm ở bên trái trang, được đánh dấu bằng một mũi tên hướng xuống.

Nhấp vào Excel Download (Tải về Excel). Giờ đây, bạn đã có file Excel chứa dữ liệu được trích xuất từ PDF!
- Đừng quên cho phép tải file trên trang trước khi thực hiện.
Khám phá cách sử dụng Adobe Acrobat Pro DC

Mở file PDF bằng Adobe Acrobat. Nếu Acrobat không phải là phần mềm mặc định, hãy nhấp chuột phải vào file, chọn Open With (Mở bằng) và tìm Acrobat.
- Trên Mac, nhấp vào Other…, trên Windows, chọn Choose another app (Chọn ứng dụng khác) để tìm Acrobat.

Chọn phần dữ liệu cần trích xuất. Nhấp và kéo chuột từ góc trên bên trái đến góc dưới bên phải của vùng dữ liệu. Phần được chọn sẽ được tô sáng.

Nhấp chuột phải vào vùng dữ liệu đã chọn và chọn Export Selection As… (Xuất phần đã chọn dưới dạng…). Một cửa sổ mới sẽ hiển thị các tùy chọn trích xuất dữ liệu từ PDF.

Chọn định dạng XLSX trong danh sách Save As Type (Lưu dưới dạng) và nhấp vào Save (Lưu). Giờ đây, bạn đã có file Excel chứa dữ liệu được trích xuất từ PDF!
Du lịch
Ẩm thực
Khám phá
Đi Phượt
Vẻ đẹp Việt Nam
Chuyến đi
Có thể bạn quan tâm

10 sản phẩm sữa rửa mặt phù hợp và hiệu quả cho da hỗn hợp được nhiều người tin dùng

Top 9 thương hiệu kem chống nắng hàng đầu hiện nay, giúp bảo vệ làn da khỏi tác hại của tia UV một cách tối ưu và an toàn.

Cách làm khổ qua xào trứng muối đơn giản mà hấp dẫn khó cưỡng

Hướng Dẫn Làm Nến Tại Nhà Đơn Giản

Top 10 bộ phim về cô gái độc thân: Vừa hài hước, vừa sâu lắng bạn không thể bỏ lỡ
