/
HtmlParser.cpp
110 lines (98 loc) · 2.37 KB
/
HtmlParser.cpp
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
#include "HtmlParser.h"
#include "HtmlNode.h"
#include <istream>
#include <string>
#include <stdexcept>
namespace HtmlParser
{
HtmlNode GetNode(std::istream& io_is);
bool FindNext(const char i_symbol, std::istream& io_is);
std::string GetString(const char i_symbol, std::istream& io_is);
std::vector<HtmlNode> ParseHtml(std::istream& io_is)
{
if(io_is.eof())
{
throw std::logic_error("eof");
}
std::vector<HtmlNode> parsed_html;
while(io_is)
{
if(FindNext('<', io_is))
{
parsed_html.push_back(GetNode(io_is));
}
}
return parsed_html;
}
////////////////////////////////////////////////////////////////////////////////////////////////
HtmlNode GetNode(std::istream& io_is)
{
//get name
std::string node_name = GetString('>', io_is);
if(!FindNext('>', io_is))
{
throw std::logic_error("no >");
}
auto pos = io_is.tellg();
//get childs
std::vector<HtmlNode> node_childs;
while(FindNext('<', io_is) && io_is.peek() != '/')
{
node_childs.push_back(GetNode(io_is));
pos = io_is.tellg();
}
io_is.seekg(pos);
//get text
std::string node_text;
if(node_childs.empty())
{
//get text
node_text = GetString('<', io_is);
}
if(!FindNext('<', io_is))
{
throw std::logic_error("no <");
}
if(!FindNext('/', io_is))
{
throw std::logic_error("no /");
}
//get closed name
std::string node_close_name = GetString('>', io_is);
if(!FindNext('>', io_is))
{
throw std::logic_error("no >");
}
if(node_close_name != node_name)
{
throw std::logic_error("invalid close name");
}
HtmlNode node(node_name, node_text, node_childs);
return node;
}
////////////////////////////////////////////////////////////////////////////////////////////////
bool FindNext(const char i_symbol, std::istream& io_is)
{
while(io_is.peek() != i_symbol && io_is)
{
io_is.get();
}
if(io_is.eof())
{
return false;
}
io_is.seekg(1, std::istream::cur);
return true;
}
////////////////////////////////////////////////////////////////////////////////////////////////
std::string GetString(const char i_symbol, std::istream& io_is)
{
std::string str;
while(io_is.peek() != i_symbol && io_is)
{
str += io_is.get();
}
return str;
}
////////////////////////////////////////////////////////////////////////////////////////////////
}