SAXParseException: Content is not allowed in prolog

转载自：http://askcuix.appspot.com/2011/02/17/content-is-not-allowed-in-prolog.html

最近在做一些批处理XML的项目，通过Spring Batch读取XML，然后将数据存入数据库。XML是客户方通过AS400的技术将数据读出并写入到文件的，我不了解AS400处理这类问题是不是很麻烦，每次XML需要做些变动的时候，客户总是表现的很为难，并且都是很久才能给到新的XML，还总是有这样那样的问题，甚至都不是一个有效的XML。这两天总算是改的差不多了，但遇到了好几次这样的exception: org.xml.sax.SAXParseException: Content is not allowed in prolog。以前也接触过不少XML，可是这种问题还真是没遇到过。

检查XML发现有一些转义字符没有做处理，&没有写成&，这是出现这种错误的一种可能性，在XML规范中，明确的说明&和<需要做转义，不能直接出现在XML文档中，否则就不是一个有效的XML。修正了这个问题，一个XML处理成功了。

在执行另外一个XML文件时，又遇到了这个问题，将转义字符的问题修正后，依然存在该错误，经过google的帮助，发现应该是文件编码的问题。检查该文件，是UTF-8编码，应该没问题的，结果问题就出在这个文件用UltraEdit编辑过，UltraEdit等一些编辑器会在无BOM头的UTF-8文件中加入BOM信息，但是XML解析器不认BOM。查看该文件的二进制内容，会发现在文件头有EF BB BF，在对应的字符串显示中可以看到它是在<?xml version="1.0" encoding="UTF-8"?>前的一个乱码字符，问题就出在了这个字符上。我平时是用NotePad++，在状态栏的文件编码中可以看到这个文件是UTF-8编码，我在encoding菜单中选择UTF-8 without BOM，这时文件编码就变成了ANSI-UTF8，同时EF BB BF也消失了，再执行这个文件就正确了。这个encoding选项在高版本的UltraEdit中也有，但是旧版本中是没有的。

BOM - byte order mark，就是字节序标记，UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式，如果接受者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了，Windows就是使用BOM来标记文本文件的编码方式的。对于BOM我没有深究，有兴趣的话可以参考：http://www.unicode.org/faq/utf_bom.html#bom1。

对于这个错误，还有一种可能性，就是有标签使用了中文输入法，比如<?xml version="1.0" encoding="UTF-8"?>写成了<？xml version="1.0" encoding="UTF-8"？>，注意这两个问号都用了中文输入法。

这是我已发现的出现这种错误的三个可能性，出现这种错误后，应检查文件编码，除此以外应该就是一些字符输入错误的问题了，有问题的朋友可以从这两个方面着手。据说新版本的JDom解决了这个问题，看来并不是所有的解析器都不认BOM，有时间的话还是要研究研究。

发表于 2011-03-07 18:39 Chris.Cui 阅读(25939) 评论(0) 编辑收藏所属分类: Java

常用链接

留言簿(7)

随笔分类

随笔档案

Link

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

美丽的爪哇岛 Keep Walking......
语源科技BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理	随笔：47 文章：0 评论：33 引用：0