JAV ! Crawling data [P1]

Lâu rồi không viết tutorial gì, chắc cùi mọe nó roài. Thôi tập viết lại 1 chút cho REA.

Bài viết này không dành cho các bạn trùm cuối web developer, hay data analyst gì hết. Cơ bản trên tinh thần mình viết tool để mình xài và không cần care các việc khác

Hey hey hey

Okay vậy cái mình cần là gì. Data !!! Hiện tại local mình store 1 số lượng lớn JAV … Vấn đề là phân loại các film này: Studio, genres, idols etc … Khá là mệt. Cũng như 1 chút hứng thú với việc có đầy đủ data để dùng cho nhiều mục đích: Xu hướng genre, khu vực nào của Japan cho ra lò nhiều idols xuất chúng nhất etc … Nhiều thứ lắm ! Do đó data là cái cực kì quan trọng.

Ờ muốn thì phải làm sao ??? ! Hiện tại có nhiều trang JAV nhưng tạm thời mình sẽ lấy data trên xcity. Sẽ có thắc mắc: Có API không ? Xin thưa DMM có API. Nhưng khá phiền phức quy trình lấy API nên tạm thời bỏ qua, dù biết rằng có API là cực kì khỏe. Crawling thì vất vả hơn & nhiều risky hơn.

Alright, vậy ta crawle trang xcity. Để xem ta có thể lấy những gì. Bài viết này sẽ không focus cách viết code lấy nhưng sẽ mention 1 số thứ bạn sẽ gặp khi crawl.

Trên lý thuyết khi bạn đi crawl 1 trang để extract data là bạn đi ngược quy trình. Do đó cái khó là nhìn nhận vấn đề để có thể rebuild lại được data gần đúng nhất, hợp lý nhất

Crawling data
  • Nếu như lấy từng specific data thì sẽ có những case data đó không hề exists. Bạn phải như thế nào
  • Khi crawling việc data bị duplicated là rất dễ xảy ra
  • XCity các data về date rất lộn xộn
  • Khả năng missing data là rất cao. Do đó phải có cách đối chiếu và xử lý
  • Block :v ! Hình dung bạn gửi request liên tục tới server người ta. Khác gì flood đâu ! Khả năng bị block rất cao :v Thực tế khi mình làm tương tự trên NOW thì đã bị blocked … Đau đớn hơn là mình xài static IP :v . Do đó cần phải có biện pháp xử lý. Nhất là khi đang còn develop, cần debug.
  • Và 1 ý cuối. Database design ! Bạn sẽ cần design db sao cho phù hợp với việc analyze sau này !

Tạm thời là như thế … Bài tiếp theo sẽ đi vào chi tiết từng hạng mục

Written by 

Other posts by author

One thought on “JAV ! Crawling data [P1]

Leave a Reply