一个简单blog备份工具的实现

为了备份blog，简单写了一个适用于blogjava等metaWeblog的blog备份工具，功能：

（1）备份post的正文到本地

（2）备份正文中的图片、css文件到本地

（3）基于以上两的步骤，修改相关的链接，实现本地脱机浏览

想到了但是未实现的功能：

（1）评论无法保存

（2）合适的话可以考虑以Eclipes RCP形式包装

一、实现原理

（1）获取post的方法：使用MetaWeblog提供的API接口

metaWeblog.getRecentPosts (blogid, username, password, numberOfPosts) returns array of structs,

Each struct represents a recent weblog post, containing the same information that a call to metaWeblog.getPost would return.

If numberOfPosts is 1, you get the most recent post. If it's 2 you also get the second most recent post, as the second array element. If numberOfPosts is greater than the number of posts in the weblog you get all the posts in the weblog.

(2) 使用正则表达式分析获取下来的post，解析出post中包含的css和图片文件的地址，执行两步操作

根据地址，抓取图片保存到本地
修改post中的地址为本地保存地址

(3) 使用xml-rpc来简化远程调用过程的编程

二、主要的代码

public ArrayList<SimplePost> getAllPosts(String blogID, String name,String password, int num) throws XmlRpcException {
        ArrayList<SimplePost> posts = new ArrayList<SimplePost>();
        Object[] params = new Object[] { blogID, name, password,new Integer(num) };
        Object[] result = (Object[]) client.execute("metaWeblog.getRecentPosts", params);

        for (int i = 0; i < result.length; i++) {
            Map map = (Map) result[i];
            String postUrl = (String) map.get("link");
            String title = (String) map.get("title");
            String postId = (String) map.get("postid");

                        // post的内容
            String description = (String) map.get("description");

            Map<String, String> images = new HashMap<String, String>();
            images = getImagesURL(description);

            String newDes = handleImagesURL(description,postId);
            String descriptioFileName = savePostContent(savePath, title,postId, newDes, css);

            SimplePost post = new SimplePost(postUrl, title, postId,descriptioFileName);
            //从postContent获取图像的地址和名称，以便获取图片并保存
            post.setImages(images);
            posts.add(post);
            log.debug("postID: " + postId + "postTitle :" + title);
        }
        return posts;
    }

public static Map<String, String> getImagesURL(String description) {

       Map<String, String> map = new HashMap<String, String>();
        // img 的正则表达式
      String imgPattern = "<\\s*img\\s+([^>]+)\\s*>";
        Pattern p = Pattern.compile(imgPattern, Pattern.CASE_INSENSITIVE);
        Matcher matcher = p.matcher(description);

        // img src元素的正则表达式
        String srcPattern = "\\s*src\\s*=\\s*\"([^\"]+)\\s*\"";
       Pattern p2 = Pattern.compile(srcPattern, Pattern.CASE_INSENSITIVE);

        while (matcher.find()) {
            Matcher matcher2 = p2.matcher(matcher.group());
            // 一定要find(),这是实际的匹配动作
            if (matcher2.find()) {
                String src = matcher2.group();
                log.info(src);
                int i2 = src.lastIndexOf('/');
                int i1 = src.indexOf("http");
                if (i1 != -1) {
                    map.put(src.substring(i2 + 1, src.length() - 1), src
                            .substring(i1, src.length() - 1));
                }
            }
        }
        log.debug("图片：" + map);
        return map;
    }

/**
     * 替换description的图片链接为本地的相对链接，结构为blogFiles/images/postid/
     *
     * @param description
     * @param userName
     * @param postId
     * @return
     */
    public static String handleImagesURL(String description, String postId) {
        String tmp = description;
        String address="images/" + postId + "/";

        String imgPattern = "<\\s*img\\s+([^>]+)\\s*>";
        Pattern p = Pattern.compile(imgPattern, Pattern.CASE_INSENSITIVE);
        Matcher matcher = p.matcher(tmp);

        // img src元素的正则表达式
        String srcPattern = "\\s*src\\s*=\\s*\"([^\"]+)\\s*\"";
        // String srcPattern = "\\s*src\\s*=\\s*\'([^\']+)\\s*\'";
        Pattern p2 = Pattern.compile(srcPattern, Pattern.CASE_INSENSITIVE);
        while (matcher.find()) {
            Matcher matcher2 = p2.matcher(matcher.group());
            // 一定要find(),这是实际的匹配动作
            if (matcher2.find()) {
                String src = matcher2.group();
                log.info(src);
                int l2=src.lastIndexOf('/')+1;
                log.info(src.substring(l2,src.length()-1));
                tmp=tmp.replace(src,"  src=\""+address+src.substring(l2,src.length()-1)+"\"");
            }
        }
        return tmp;
    }

发表于 2007-07-16 11:22 凭栏观海阅读(1291) 评论(8) 编辑收藏所属分类: j2se

# re: 一个简单blog备份工具的实现

前排支持

交口称赞评论于 2007-07-16 13:20 回复更多评论

# re: 一个简单blog备份工具的实现

支持一下读取 MetaWeblog 的思路.
http://www.blogjava.net/beansoft/archive/2007/06/20/125255.html
BlogJava 备份文章阅读器+离线浏览备份(含源码,SWT)
里面已经包含了保存 CSS, js, image 的 MHT 文件生成器的API, MHT 文件可以离线浏览(IE下). 不过我的所有文章列表都是从 BlogJava 备份文件那个大 XML 里面分析的. 不会 RCP, 交流一下思路先. 我用 HtmlParser 这个项目做的 HTML 解析, 比正则表达式准确率高一些.

BeanSoft 评论于 2007-07-16 13:55 回复更多评论

# re: 一个简单blog备份工具的实现

@交口称赞
多谢！^_^

凭栏观海评论于 2007-07-16 14:15 回复更多评论

# re: 一个简单blog备份工具的实现

@BeanSoft
写这个小东西的背景：
当时刚刚在blogjava上安家，在blog上已经放了点东西了，不过有一天在某个商业的blog服务提供商上的主页上看到一段话，大致的意思是“大家难度都忘了几年前，免费主页空间的教训了吗？”，于是试着google blog的备份工具，就找到了你提供的BlogJava 备份文章阅读器+离线浏览备份，下载试用了下，感觉挺好的，美中不足的是，如果想要真正离线浏览，就必须使用mht来保存文章，这点我感觉有点受限了，因为firefox不能打开mht文件，（有时候还要到linux下面耍耍，mht在linux好像也没有什么方式打开），所以我才决定写一个东西将文件和图片，css都下载到本地，同时修改链接来实现更加灵活的离线浏览。我没有用过HtmlParser，学习学习去。。

凭栏观海评论于 2007-07-16 14:30 回复更多评论

# re: 一个简单blog备份工具的实现

是呀, 我也这样想, 万一哪天挂了, 就没了... 回头有空的时候改改, 保存成 HTML 格式会好很多的.

BeanSoft 评论于 2007-07-16 15:35 回复更多评论

# re: 一个简单blog备份工具的实现

有点意思.

sitinspring 评论于 2007-07-17 13:00 回复更多评论

# re: 一个简单blog备份工具的实现

怎么没有提供exe的下载，谢谢，能提供一个下载吗？

蒙在天涯评论于 2007-07-26 23:24 回复更多评论

# re: 一个简单blog备份工具的实现

@蒙在天涯
如果有需要的话，可以考虑用RCP 封装了提供出来，在http://www.blogjava.net/beansoft/archive/2007/06/20/125255.html有一个离线备份工具提供下载，原理上有点不一样，但是目的是一样的，现在也支持保存图片等资源到本地了

凭栏观海评论于 2007-07-27 08:54 回复更多评论

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: 关于Java String的intern and ==的笔试题，没有全答对设计及设计模式：关于Java权限控制算法(转） java基础：byte与int 判断resultset是否含有记录 java的数据类型（备用） java语言中的bit 移位操作 JPA --Java EE 5.0 ORM 规范（转）一个简单blog备份工具的实现正则表达式的总结用HttpClient来模拟浏览器GET POST(收藏)

一个简单blog备份工具的实现

一、实现原理

二、主要的代码

随笔分类(124)

随笔档案(185)

友情链接

工作流

常去的技术网站

邻居

积分与排名

最新评论

阅读排行榜

日出而作兮勤于外，日落而归兮忙于内
BlogJava \| 首页 \| 发新随笔 \| 发新文章 \| 联系 \| 聚合 \| 管理