Jsoup解析HTML实例及文档方法详解

这篇文章主要介绍了Jsoup如何解析一个HTML文档、从文件加载文档、从URL加载Document等方法，对Jsoup常用方法做了详细讲解，最近提供了一个示例供大家参考使用DOM方法来遍历一个文档从元素抽取属性，文本和HTML 获取所有链接

解析和遍历一个HTML文档

如何解析一个HTML文档：

复制代码代码如下:

String html = "First parse"
+ "

Parsed HTML into a doc.

";
Document doc = Jsoup.parse(html);

其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：

1、没有关闭的标签 (比如：

Lorem

Ipsum parses to

Lorem

Ipsum

)
2、隐式标签 (比如. 它可以自动将 Table data包装成

以上就是Jsoup解析HTML实例及文档方法详解的详细内容，更多请关注0133技术站其它相关文章！

赞(0) 打赏

未经允许不得转载：0133技术站首页 » Java

?)
3、创建可靠的文档结构（html标签包含head 和 body，在head只出现恰当的元素）

一个文档的对象模型

1、文档由多个Elements和TextNodes组成 (以及其它辅助nodes).
2、其继承结构如下：Document继承Element继承Node. TextNode继承 Node.
3、一个Element包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。

从一个URL加载一个Document

存在问题
你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。你可以使用下面解决方法：

解决方法
使用 Jsoup.connect(String url)方法:

复制代码代码如下:

Document doc = Jsoup.connect("https://www.0133.cn/").get();
String title = doc.title();

说明
connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。

Connection 接口还提供一个方法链来解决特殊请求，具体如下：

复制代码代码如下:

Document doc = Jsoup.connect("https://www.0133.cn")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();

这个方法只支持Web URLs (http和https 协议); 假如你需要从一个文件加载，可以使用parse(File in, String charsetName) 代替。

从一个文件加载一个文档

问题
在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改。

办法
可以使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法：

复制代码代码如下:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "https://www.0133.cn/");

说明
parse(File in, String charsetName, String baseUri) 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误，将抛出IOException，应作适当处理。
baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。
另外还有一个方法parse(File in, String charsetName) ，它使用文件的路径做为 baseUri。这个方法适用于如果被解析文件位于网站的本地文件系统，且相关链接也指向该文件系统。

使用DOM方法来遍历一个文档

问题
你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法
将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

复制代码代码如下:

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "https://www.0133.cn/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}

Jsoup解析HTML实例及文档方法详解

相关文章

编程

置顶推荐

猜你喜欢