在Java中,可以使用正则表达式来提取HTML中的任意内容。以下是一个示例代码,演示如何使用正则表达式从HTML中提取文本:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class HtmlParser { public static void main(String[] args) { String html = "My Website This is some sample text.
"; Pattern pattern = Pattern.compile("]*>(.*?)
"); Matcher matcher = pattern.matcher(html); String pText = matcher.group(1); System.out.println(pText); } }
在上面的代码中,我们首先定义了一个HTML字符串,然后使用Pattern和Matcher类来匹配HTML中的文本。Pattern类用于定义正则表达式,Matcher类用于在HTML中查找匹配的文本。
在正则表达式中,我们使用了 ]*>
最后,我们使用group(1)方法来获取匹配的文本,并将其打印到控制台上。
需要注意的是,正则表达式可以根据HTML标签的不同来进行不同的