快速业务通道

使用泛型和并发改善集合 - 编程入门网

作者 佚名技术 来源 NET编程 浏览 发布时间 2012-06-16
>(); // Below is inside of while loop AttributeSet s = (AttributeSet)   elem.getAttributes().getAttribute(HTML.Tag.A); if (s != null) {   String href = (String)    s.getAttribute(HTML.Attribute.HREF);   uriList.add(href); }

使用泛型和并发改善集合(5)

时间:2011-06-16 John Zukowski

尽管到目前为止执行的步骤已经足够收集所有链接,您也可以处理一些特殊 的情况。比如,在发现的 href 为空的地方不需要添加链接 — 格式良好的文档 不应该出现这种情况,但是有时候确实会出现。另外,内部链接没有前导的 http://。最好将这些内部链接附加到文档的基 URL 之后,这样如果您需要再次 遍历该列表(比如在下一任务中),您可以拥有完整的 URL。而且,最好不要使 用 javascript: 标记。还可以进行其他更多增强。清单 5 显示了完整的程序:

清单 5. 列出单个页面的 URL 的代码

import java.io.*; import java.net.*; import java.util.*; import javax.swing.text.*; import javax.swing.text.html.*; public class ListUrls {   public static void main(String args[]) throws Exception {    Set<String> uriList = new TreeSet<String>();    HttpURLConnection.setFollowRedirects(false);    Edito***t kit = new HTMLEdito***t();    Document doc = kit.createDefaultDocument();    doc.putProperty("IgnoreCharsetDirective", Boolean.TRUE);    String uri = args[0];    Reader reader = null;    if (uri != null && uri.startsWith("http")) {     URLConnection conn = new URL(uri).openConnection();     reader = new InputStreamReader(conn.getInputStream());    } else {     System.err.println(      "Usage: java ListUrls http://example.com/startingpage");     System.exit(-1);    }    kit.read(reader, doc, 0);    ElementIterator it = new ElementIterator(doc);    javax.swing.text.Element elem;    while ((elem = it.next()) != null) {     AttributeSet s = (AttributeSet)      elem.getAttributes().getAttribute(HTML.Tag.A);     if (s != null) {      String href = (String)s.getAttribute (HTML.Attribute.HREF);      if (href == null) {       continue;      } else if (href.startsWith("javascript:")) {       continue; // skip it      } else if (href.startsWith("https:")) {       // add as is      } else if (!href.startsWith("http:")) {       href = uri + href;      }      uriList.add(href);     }    }    for (String element: uriList) {     System.out.printf(">>%s<<%n", element);    }   } }

该程序打印出了收集的 URL 集合。下载并编译 ListUrls 程序,通过在命令 行传入一个 URL 来运行该程序(要获取本文的完整源代码,请参阅 下载 部分 的链接)。确切的结果取决于您收集的页面。

.

使用泛型和并发改善集合(6)

时间:2011-06-16 John Zukowski

线程池

清单 5 中的 ListUrls 程序收集某个特定页面上的所有外出链接。要改进此 程序,使其作用到整个网站,最好将其分解为小一些的任务。尽管可以在一个线 程中完成所有工作,但是应用程序肯定会受到 I/O 延迟的阻碍,因为它必须首 先读取完整的网页,然后才对其进行处理。网络延迟是将工作分解为多

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务,公司网站:http://www.lingzhong.cn 为了给广大客户了解更多的技术信息,本技术文章收集来源于网络,凌众科技尊重文章作者的版权,如果有涉及你的版权有必要删除你的文章,请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!

分享到: 更多

Copyright ©1999-2011 厦门凌众科技有限公司 厦门优通互联科技开发有限公司 All rights reserved

地址(ADD):厦门软件园二期望海路63号701E(东南融通旁) 邮编(ZIP):361008

电话:0592-5908028 传真:0592-5908039 咨询信箱:web@lingzhong.cn 咨询OICQ:173723134

《中华人民共和国增值电信业务经营许可证》闽B2-20100024  ICP备案:闽ICP备05037997号