Trình thu thập sách Google: Công cụ CLI để biên soạn các bản xem trước của Google Books thành PDF
Google Book Scraper, được tạo ra bởi shloop, tự động thu thập các trang xem trước từ Google Books để đọc và nghiên cứu ngoại tuyến. Công cụ này hoạt động như một tập lệnh dòng lệnh, lấy các hình ảnh trang riêng lẻ và lắp ráp chúng thành một PDF duy nhất. Nó nhấn mạnh một quy trình làm việc tối thiểu, có thể lập trình với xử lý tuần tự và chuyển đổi hình ảnh thành PDF. Các nhà nghiên cứu, sinh viên và nhà lưu trữ, những người quen thuộc với lập trình cơ bản, có thể nhanh chóng và lặp lại việc lưu trữ nội dung xem trước có thể nhìn thấy để nghiên cứu và trích dẫn.
Công cụ thu thập dữ liệu hoạt động như thế nào
Công cụ thu thập dữ liệu là một tiện ích dòng lệnh dựa trên Python, lấy hình ảnh trang từ trình xem trước Google Books và chuyển đổi chúng thành một PDF, sử dụng các thư viện như requests để lấy dữ liệu và img2pdf để chuyển đổi. Nó nhắm đến các tiêu đề riêng lẻ theo ID Sách và xử lý các trang theo thứ tự để các trang đầu ra vẫn giữ đúng thứ tự. Mã nguồn là mã nguồn mở, vì vậy người dùng có thể kiểm tra các tập lệnh thực hiện các bước tải xuống và biên dịch.
Nó thường ảnh hưởng đến tài nguyên địa phương như thế nào trong quá trình chạy
Bởi vì công cụ chạy dưới trình thông dịch Python mà không có giao diện đồ họa, hồ sơ tài nguyên của nó tương ứng với việc thực thi tập lệnh hơn là một ứng dụng đầy đủ. Hoạt động mạng xảy ra trong khi tải xuống hình ảnh, và hoạt động CPU và đĩa địa phương tập trung trong bước chuyển đổi hình ảnh sang PDF. Xử lý tuần tự tránh việc tải xuống đồng thời, điều này giảm thiểu các đỉnh CPU và mạng song song nhưng kéo dài thời gian chạy tổng thể cho các bản xem trước lớn.
Có an toàn khi sử dụng trên một máy trạm và nó cần quyền gì
An toàn trong thực tế đến từ tính minh bạch: kho mã nguồn mở cho phép xem xét mã trước khi thực thi, và tập lệnh chỉ truy cập các trang có thể nhìn thấy trong bản xem trước web, vì vậy nó không thể lấy nội dung không phải xem trước. Nó yêu cầu kết nối internet và môi trường Python 3.x với các phụ thuộc đã được nêu cài đặt, có nghĩa là người dùng phải cấp quyền mạng và ghi tệp để lưu PDF đã biên dịch vào đĩa.
Ai có thể vận hành nó mà không có rủi ro và trình độ kỹ năng nào giúp ích
Công cụ này giả định sự quen thuộc với quy trình làm việc dòng lệnh và lập trình tối thiểu; xác định một ID Sách từ URL Google Books là một phần của bước thiết lập. Nó chạy trên nhiều nền tảng nơi Python 3.x hoạt động, làm cho nó phù hợp cho các nhà nghiên cứu kỹ thuật và nhà lưu trữ thích các tác vụ có thể tái tạo, có thể lập trình hơn là một tiện ích đồ họa. Phản hồi của cộng đồng trên GitHub lưu ý rằng nó hoạt động đáng tin cậy cho những người dùng thoải mái với các bước này.
Lựa chọn thực tiễn cho các nhà nghiên cứu kỹ thuật, được khuyến nghị với một caveat thiết lập nhỏ
Trình thu thập dữ liệu là một lựa chọn thực tiễn cho các nhà nghiên cứu cần các bản sao ngoại tuyến có thể lặp lại của các trang xem trước hiển thị, miễn là họ có thể chạy các kịch bản Python và cài đặt các phụ thuộc. Mong đợi một đường cong học tập khiêm tốn cho việc vận hành dòng lệnh và quản lý phụ thuộc, và xác thực đầu ra trên một ID Sách duy nhất trước khi xử lý nhiều tiêu đề. Được khuyến nghị.
Ưu điểm
Mã nguồn mở cho phép kiểm tra và sửa đổi
Tự động tải xuống hình ảnh từng trang và lắp ráp PDF
Xử lý tuần tự giữ đúng thứ tự trang
Nhược điểm
Cần Python 3.x và các thư viện cụ thể để chạy
Hoạt động dòng lệnh đòi hỏi kiến thức lập trình cơ bản
Không thể lấy trang ngoài bản xem trước có thể nhìn thấy
Luật pháp liên quan đến việc sử dụng phần mềm này có sự khác biệt giữa các quốc gia. Chúng tôi không khuyến khích hay dung túng cho việc sử dụng chương trình này nếu điều đó vi phạm pháp luật. Softonic có thể nhận được phí giới thiệu nếu bạn nhấp vào hoặc mua bất kỳ sản phẩm nào được hiển thị nổi bật ở đây.