|
Post by Admin on Aug 3, 2017 11:10:36 GMT 7
[java] Tải một nội dung trang web thông qua địa chỉ, kết quả nhận lại chính là nội dung html của trang web.
public String loadhtml(String add) { try { URL url = new URL(add); HttpURLConnection hc = (HttpURLConnection) url.openConnection(); hc.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:19.0) Gecko/20100101 Firefox/19.0"); hc.connect(); InputStream is = hc.getInputStream(); ByteArrayOutputStream bos = new ByteArrayOutputStream(); DataOutputStream dos = new DataOutputStream(bos); byte[] bf = new byte[12020]; int c; while ((c = is.read(bf)) > 0) { dos.write(bf, 0, c); } is.close(); bf = bos.toByteArray(); dos.close(); bos.close(); String dt = new String(bf, "utf-8"); return dt; } catch (Exception e) { } return "khong tai duoc"; }
Tuy nhiên chúng ta thường không dùng nội dung của thể html, mà cái ta cần là giá trị của nó. hàm lấy giá trị chuỗi giữa 2 đánh dấu giúp ta làm việc này nhanh hơn. hàm nhận chuỗi dữ liệu, đánh dấu bắt đầu, đánh dấu kết thúc trả về là một mảng các chuỗi
public String[] getmid(String data, String f1, String f2) { String[] rt; ArrayList ar = new ArrayList(); int b = data.indexOf(f1); while (b != -1) { int c = data.indexOf(f2, b); ar.add(data.substring(b + f1.length(), c)); b = data.indexOf(f1, c); } rt = new String[ar.size()]; ar.toArray(rt); return rt; }
|
|