>();
// Below is inside of while loop
AttributeSet s = (AttributeSet)
elem.getAttributes().getAttribute(HTML.Tag.A);
if (s != null) {
String href = (String)
s.getAttribute(HTML.Attribute.HREF);
uriList.add(href);
}
使用泛型和并发改善集合(5)
时间:2011-06-16 John Zukowski
尽管到目前为止执行的步骤已经足够收集所有链接,您也可以处理一些特殊 的情况。比如,在发现的 href 为空的地方不需要添加链接 — 格式良好的文档 不应该出现这种情况,但是有时候确实会出现。另外,内部链接没有前导的 http://。最好将这些内部链接附加到文档的基 URL 之后,这样如果您需要再次 遍历该列表(比如在下一任务中),您可以拥有完整的 URL。而且,最好不要使 用 javascript: 标记。还可以进行其他更多增强。清单 5 显示了完整的程序:
清单 5. 列出单个页面的 URL 的代码
import java.io.*;
import java.net.*;
import java.util.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
public class ListUrls {
public static void main(String args[]) throws Exception {
Set<String> uriList = new TreeSet<String>();
HttpURLConnection.setFollowRedirects(false);
Edito***t kit = new HTMLEdito***t();
Document doc = kit.createDefaultDocument();
doc.putProperty("IgnoreCharsetDirective", Boolean.TRUE);
String uri = args[0];
Reader reader = null;
if (uri != null && uri.startsWith("http")) {
URLConnection conn = new URL(uri).openConnection();
reader = new InputStreamReader(conn.getInputStream());
} else {
System.err.println(
"Usage: java ListUrls http://example.com/startingpage");
System.exit(-1);
}
kit.read(reader, doc, 0);
ElementIterator it = new ElementIterator(doc);
javax.swing.text.Element elem;
while ((elem = it.next()) != null) {
AttributeSet s = (AttributeSet)
elem.getAttributes().getAttribute(HTML.Tag.A);
if (s != null) {
String href = (String)s.getAttribute (HTML.Attribute.HREF);
if (href == null) {
continue;
} else if (href.startsWith("javascript:")) {
continue; // skip it
} else if (href.startsWith("https:")) {
// add as is
} else if (!href.startsWith("http:")) {
href = uri + href;
}
uriList.add(href);
}
}
for (String element: uriList) {
System.out.printf(">>%s<<%n", element);
}
}
}
该程序打印出了收集的 URL 集合。下载并编译 ListUrls 程序,通过在命令 行传入一个 URL 来运行该程序(要获取本文的完整源代码,请参阅 下载 部分 的链接)。确切的结果取决于您收集的页面。
.
使用泛型和并发改善集合(6)
时间:2011-06-16 John Zukowski
线程池
清单 5 中的 ListUrls 程序收集某个特定页面上的所有外出链接。要改进此 程序,使其作用到整个网站,最好将其分解为小一些的任务。尽管可以在一个线 程中完成所有工作,但是应用程序肯定会受到 I/O 延迟的阻碍,因为它必须首 先读取完整的网页,然后才对其进行处理。网络延迟是将工作分解为多 |