import  org.htmlparser.Node;
import  org.htmlparser.NodeFilter;
import  org.htmlparser.Parser;
import  org.htmlparser.filters.TagNameFilter;
import  org.htmlparser.tags.TableTag;
import  org.htmlparser.util.NodeList;

public   class  TestYehoo {
     
public   static   String  testHtml() {
         String testText
="";
         
try  {
            String sCurrentLine;
            String sTotalString;
            sCurrentLine  
=   "" ;
            sTotalString  
=   "" ;
            java.io.InputStream l_urlStream;
            java.net.URL l_url  
=   new  java.net.URL(
                     
" http://sports.sina.com.cn/iframe/nba/live/ " );
            java.net.HttpURLConnection l_connection  
=  (java.net.HttpURLConnection) l_url
                    .openConnection();
            l_connection.connect();
            l_urlStream  
=  l_connection.getInputStream();
            java.io.BufferedReader l_reader  
=   new  java.io.BufferedReader(
                     
new  java.io.InputStreamReader(l_urlStream));
             
while  ((sCurrentLine  =  l_reader.readLine())  !=   null ) {
                sTotalString  
+=  sCurrentLine;
            }

            System.out.println(sTotalString);

            System.out.println( 
" ==================== " );
           testText  
=  extractText(sTotalString);
            System.out.println(testText);
           
        }
  catch  (Exception e) {
            e.printStackTrace();
        }

        
return testText;

    }


     
/** 
     * 抽取纯文本信息
     * 
     *  
@param  inputHtml
     *  
@return 
      
*/
 
     
public   static  String extractText(String inputHtml)  throws  Exception {
        StringBuffer text  
=   new  StringBuffer();

        Parser parser  
=  Parser.createParser( new  String(inputHtml.getBytes(),
                 
"UTF-8" ) );
         
//  遍历所有的节点 
        NodeList nodes  =  parser.extractAllNodesThatMatch( new  NodeFilter() {
             
public   boolean  accept(Node node) {
                 
return   true ;
            }

        }
);
        Node node  
=  nodes.elementAt( 0 );
        text.append( 
new  String(node.toPlainTextString().getBytes( "UTF-8" )));
         
return  text.toString();
    }


     
/** 
     * 读取文件的方式来分析内容. filePath也可以是一个Url.
     * 
     *  
@param  resource
     *            文件/Url
      
*/
 
     
public   static   void  test5(String resource)  throws  Exception {
        Parser myParser  
=   new  Parser("http://sports.sina.com.cn/iframe/nba/live/");

         
//  设置编码 
        myParser.setEncoding( "GBK" );
        String filterStr  
=   "table" ;
        NodeFilter filter  
=   new  TagNameFilter(filterStr);
        NodeList nodeList  
=  myParser.extractAllNodesThatMatch(filter);
        TableTag tabletag  
=  (TableTag) nodeList.elementAt(2);
            
            
            
            System.out.println( tabletag );

    }


     
/* 
     * public static void main(String[] args) { TestYahoo testYahoo = new
     * TestYahoo(); testYahoo.testHtml(); }
      
*/
 
     
public   static   void  main(String[] args)  throws  Exception {
         test5(
"http://sports.sina.com.cn/iframe/nba/live/");
    }

}


结果:

TableTag
********
<table width="750" border="0" cellspacing="0" cellpadding="0" >

    
<tr>
      
<td bgcolor="#990000" height="26" style="padding-left:10px;"><font color="#ffffff">
   
<class="f14"><href="http://nba.sports.sina.com.cn/index.php"   class="a01">NBA数据库</a></b> 
        | 
<href="http://nba.sports.sina.com.cn/live.php"  class="a01">比分直播</a>
  | 
<href="http://nba.sports.sina.com.cn/match_result.php"   class="a01">赛程赛果</a> 
        | 
<a   class="a01">赛季总结</a> | <a   class="a01">交战记录</a> 
        | 
<href="http://nba.sports.sina.com.cn/league_order.php" class="a01">赛季排名</a> 
  | 
<href="http://nba.sports.sina.com.cn/order.php"   class="a01">统计排行</a> 
        | 
<href="http://nba.sports.sina.com.cn/arena.php"  class="a01">球员擂台</a> 
  | 
<a  href="http://nba.sports.sina.com.cn/team_order.php" class="a01">近期战绩</a> 
        | 
<href="http://nba.sports.sina.com.cn/teams.php"   class="a01">球队</a> 
  | 
<href="http://nba.sports.sina.com.cn/players.php" class="a01">球员</a> 
        | 
<href="http://sports.sina.com.cn/nba/" class="a01">NBA专题</a></font></td>
    
</tr>
  
</table>