使用泛型和并发改善集合 - 编程入门网

作者佚名技术来源 NET编程浏览发布时间 2012-06-16

>(); // Below is inside of while loop AttributeSet s = (AttributeSet) 　 elem.getAttributes().getAttribute(HTML.Tag.A); if (s != null) { 　 String href = (String) 　　 s.getAttribute(HTML.Attribute.HREF); 　 uriList.add(href); }

使用泛型和并发改善集合(5)

时间:2011-06-16 John Zukowski

尽管到目前为止执行的步骤已经足够收集所有链接，您也可以处理一些特殊的情况。比如，在发现的 href 为空的地方不需要添加链接 — 格式良好的文档不应该出现这种情况，但是有时候确实会出现。另外，内部链接没有前导的 http://。最好将这些内部链接附加到文档的基 URL 之后，这样如果您需要再次遍历该列表（比如在下一任务中），您可以拥有完整的 URL。而且，最好不要使用 javascript: 标记。还可以进行其他更多增强。清单 5 显示了完整的程序：

清单 5. 列出单个页面的 URL 的代码

import java.io.*; import java.net.*; import java.util.*; import javax.swing.text.*; import javax.swing.text.html.*; public class ListUrls { 　 public static void main(String args[]) throws Exception { 　　 Set<String> uriList = new TreeSet<String>(); 　　 HttpURLConnection.setFollowRedirects(false); 　　 EditorKit kit = new HTMLEditorKit(); 　　 Document doc = kit.createDefaultDocument(); 　　 doc.putProperty("IgnoreCharsetDirective", Boolean.TRUE); 　　 String uri = args[0]; 　　 Reader reader = null; 　　 if (uri != null && uri.startsWith("http")) { 　　　 URLConnection conn = new URL(uri).openConnection(); 　　　 reader = new InputStreamReader(conn.getInputStream()); 　　 } else { 　　　 System.err.println( 　　　　 "Usage: java ListUrls http://example.com/startingpage"); 　　　 System.exit(-1); 　　 } 　　 kit.read(reader, doc, 0); 　　 ElementIterator it = new ElementIterator(doc); 　　 javax.swing.text.Element elem; 　　 while ((elem = it.next()) != null) { 　　　 AttributeSet s = (AttributeSet) 　　　　 elem.getAttributes().getAttribute(HTML.Tag.A); 　　　 if (s != null) { 　　　　 String href = (String)s.getAttribute (HTML.Attribute.HREF); 　　　　 if (href == null) { 　　　　　 continue; 　　　　 } else if (href.startsWith("javascript:")) { 　　　　　 continue; // skip it 　　　　 } else if (href.startsWith("https:")) { 　　　　　 // add as is 　　　　 } else if (!href.startsWith("http:")) { 　　　　　 href = uri + href; 　　　　 } 　　　　 uriList.add(href); 　　　 } 　　 } 　　 for (String element: uriList) { 　　　 System.out.printf(">>%s<<%n", element); 　　 } 　 } }

该程序打印出了收集的 URL 集合。下载并编译 ListUrls 程序，通过在命令行传入一个 URL 来运行该程序（要获取本文的完整源代码，请参阅下载部分的链接）。确切的结果取决于您收集的页面。

使用泛型和并发改善集合(6)

时间:2011-06-16 John Zukowski

线程池

清单 5 中的 ListUrls 程序收集某个特定页面上的所有外出链接。要改进此程序，使其作用到整个网站，最好将其分解为小一些的任务。尽管可以在一个线程中完成所有工作，但是应用程序肯定会受到 I/O 延迟的阻碍，因为它必须首先读取完整的网页，然后才对其进行处理。网络延迟是将工作分解为多

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

分享到：更多

你可能对下面的文章感兴趣

上一篇: Swing框架之Model - 编程入门网下一篇: 使用TPTP对Eclipse插件进行性能剖析和调优 - 编程入门网

关于使用泛型和并发改善集合 - 编程入门网的所有评论

随机推荐