Implement Parser1, simple recursive descent

2025-05-12 13:16:16 -04:00
parent f1acb2d0a0
commit 9e56aa9612
2 changed files with 471 additions and 6 deletions
@@ -31,9 +31,6 @@ set(CMAKE_MODULE_PATH ${CMAKE_MODULE_PATH} "${CMAKE_SOURCE_DIR}/cmake/")
 include(CTest)
 include(doctest)
 add_executable(bench src/bench.cpp)
 target_link_libraries(bench PRIVATE nanobench)
 add_executable(mytest src/test.cpp)
-target_link_libraries(mytest PRIVATE doctest)
+target_link_libraries(mytest PRIVATE doctest nanobench)
 doctest_discover_tests(mytest)
@@ -1,3 +1,471 @@
-#include <doctest.h>
+#include <cassert>
 #include <cstdint>
 #include <cstdio>
 #include <cstring>
-TEST_CASE("add") { CHECK(0 + 1 == 1); }
+#include <string>
 #include <utility>
 #include <doctest.h>
 #include <nanobench.h>
 // This is the JSON grammar in McKeeman Form.
 // json
 //    element
 // value
 //    object
 //    array
 //    string
 //    number
 //    "true"
 //    "false"
 //    "null"
 // object
 //     '{' ws '}'
 //     '{' members '}'
 // members
 //     member
 //     member ',' members
 // member
 //     ws string ws ':' element
 // array
 //     '[' ws ']'
 //     '[' elements ']'
 // elements
 //     element
 //     element ',' elements
 // element
 //     ws value ws
 // string
 // '"' characters '"'
 // characters
 //     ""
 //     character characters
 // character
 //     '0020' . '10FFFF' - '"' - '\'
 // '\' escape
 // escape
 //     '"'
 //     '\'
 //     '/'
 //     'b'
 //     'f'
 //     'n'
 //     'r'
 //     't'
 //     'u' hex hex hex hex
 // hex
 //     digit
 //     'A' . 'F'
 //     'a' . 'f'
 // number
 //     integer fraction exponent
 // integer
 //     digit
 //     onenine digits
 //     '-' digit
 //     '-' onenine digits
 // digits
 //     digit
 //     digit digits
 // digit
 //     '0'
 //     onenine
 // onenine
 //     '1' . '9'
 // fraction
 //     ""
 //     '.' digits
 // exponent
 //     ""
 //     'E' sign digits
 //     'e' sign digits
 // sign
 //     ""
 //     '+'
 //     '-'
 // ws
 //     ""
 //     '0020' ws
 //     '000A' ws
 //     '000D' ws
 //     '0009' ws
 struct Callbacks {
  void (*on_begin_value)(void *data) = noop;
  void (*on_end_value)(void *data) = noop;
  void (*on_begin_object)(void *data) = noop;
  void (*on_end_object)(void *data) = noop;
  void (*on_begin_string)(void *data) = noop;
  void (*on_string_data)(void *data, const char *buf, int len) = noop;
  void (*on_end_string)(void *data) = noop;
  void (*on_begin_array)(void *data) = noop;
  void (*on_end_array)(void *data) = noop;
  void (*on_begin_number)(void *data) = noop;
  void (*on_number_data)(void *data, const char *buf, int len) = noop;
  void (*on_end_number)(void *data) = noop;
  void (*on_true_literal)(void *data) = noop;
  void (*on_false_literal)(void *data) = noop;
  void (*on_null_literal)(void *data) = noop;
 private:
  static void noop(void *) {}
  static void noop(void *, const char *, int) {}
 };
 // Terminals and Nonterminals. These appear in the stack of the pushdown
 // automata
 enum Symbol : uint8_t {
  // Terminals
  T_LBRACE,
  T_RBRACE,
  T_COMMA,
  T_TRUE,
  T_FALSE,
  T_NULL,
  T_LBRACKET,
  T_RBRACKET,
  T_COLON,
  T_DOUBLEQUOTE,
  N_CHARACTER, // Multibyte!
  // Nonterminals
  N_VALUE,
  N_OBJECT,
  N_ARRAY,
  N_STRING,
  N_NUMBER,
  N_MEMBER,
  N_ELEMENTS,
  N_CHARACTERS,
 };
 namespace {
 bool whitespace(char x) {
  return x == 0x20 || x == 0x0A || x == 0x0D || x == 0x09;
 }
 // Straightforward recursive descent that doesn't handle string escaping or
 // non-integer or negative numbers
 struct Parser1 {
  Parser1(char *buf, int len, const Callbacks *callbacks, void *data)
      : buf(buf), len(len), callbacks(callbacks), data(data) {}
  // Returns false to reject
  bool parse() { return parse_element(); }
  Parser1(Parser1 const &) = delete;
  Parser1 &operator=(Parser1 const &) = delete;
  Parser1(Parser1 &&) = delete;
  Parser1 &operator=(Parser1 &&) = delete;
 private:
  char *buf;
  int len;
  const Callbacks *const callbacks;
  void *const data;
  // Helpers
  void maybeSkipWs() {
    while (len > 0 && whitespace(*buf)) {
      ++buf;
      --len;
    }
  }
  bool parseLiteral(const char *literal) {
    const int litLen = strlen(literal);
    if (len < litLen) {
      return false;
    }
    len -= litLen;
    return memcmp(std::exchange(buf, buf + litLen), literal, litLen) == 0;
  }
  // functions corresponding to productions
  bool parse_element() {
    maybeSkipWs();
    if (len == 0) {
      return false;
    }
    if (*buf == '{') {
      if (!parse_object()) {
        return false;
      }
    } else if (*buf == '[') {
      if (!parse_array()) {
        return false;
      }
    } else if (*buf == '"') {
      if (!parse_string()) {
        return false;
      }
    } else if (*buf == 't') {
      if (!parse_true()) {
        return false;
      }
    } else if (*buf == 'f') {
      if (!parse_false()) {
        return false;
      }
    } else if (*buf == 'n') {
      if (!parse_null()) {
        return false;
      }
    } else {
      if (!parse_number()) {
        return false;
      }
    }
    maybeSkipWs();
    return true;
  }
  bool parse_object() {
    if (!parseLiteral("{")) {
      return false;
    }
    callbacks->on_begin_object(data);
    maybeSkipWs();
    if (len == 0) {
      return false;
    }
    if (*buf != '}') {
      if (!parse_members()) {
      }
    }
    if (!parseLiteral("}")) {
      return false;
    }
    callbacks->on_end_object(data);
    return true;
  }
  bool parse_members() {
  begin:
    if (!parse_member()) {
      return false;
    }
    if (len == 0) {
      return false;
    }
    if (*buf == ',') {
      if (!parseLiteral(",")) {
        return false;
      }
      goto begin; // tail call
    }
    return true;
  }
  bool parse_member() {
    maybeSkipWs();
    if (!parse_string()) {
      return false;
    }
    maybeSkipWs();
    if (!parseLiteral(":")) {
      return false;
    }
    if (!parse_element()) {
      return false;
    }
    return true;
  }
  bool parse_array() {
    if (!parseLiteral("[")) {
      return false;
    }
    callbacks->on_begin_array(data);
    maybeSkipWs();
    if (len == 0) {
      return false;
    }
    if (*buf != ']') {
      if (!parse_elements()) {
        return false;
      }
    }
    if (!parseLiteral("]")) {
      return false;
    }
    callbacks->on_end_array(data);
    return true;
  }
  bool parse_elements() {
  begin:
    if (!parse_element()) {
      return false;
    }
    if (len == 0) {
      return false;
    }
    if (*buf == ',') {
      if (!parseLiteral(",")) {
        return false;
      }
      goto begin; // tail call
    }
    return true;
  }
  bool parse_string() {
    callbacks->on_begin_string(data);
    if (!parseLiteral("\"")) {
      return false;
    }
    auto *result = (char *)memchr(buf, '"', len);
    if (result == nullptr) {
      return false;
    }
    int stringLen = result - buf;
    callbacks->on_string_data(data, buf, stringLen);
    buf += stringLen;
    len -= stringLen;
    if (!parseLiteral("\"")) {
      return false;
    }
    callbacks->on_end_string(data);
    return true;
  }
  bool parse_number() {
    callbacks->on_begin_number(data);
    char *const bufBefore = buf;
    for (;;) {
      if (len == 0) {
        return false;
      }
      if ('0' <= *buf && *buf <= '9') {
        ++buf;
        --len;
      } else {
        break;
      }
    }
    if (buf == bufBefore) {
      return false;
    }
    callbacks->on_number_data(data, bufBefore, buf - bufBefore);
    callbacks->on_end_number(data);
    return true;
  }
  bool parse_true() {
    if (!parseLiteral("true")) {
      return false;
    }
    callbacks->on_true_literal(data);
    return true;
  }
  bool parse_false() {
    if (!parseLiteral("false")) {
      return false;
    }
    callbacks->on_false_literal(data);
    return true;
  }
  bool parse_null() {
    if (!parseLiteral("null")) {
      return false;
    }
    callbacks->on_null_literal(data);
    return true;
  }
 };
 const std::string json = R"({
    "glossary": {
        "title": "example glossary",
 		"GlossDiv": {
            "title": "S",
 			"GlossList": {
                "GlossEntry": {
                    "ID": "SGML",
 					"SortAs": "SGML",
 					"GlossTerm": "Standard Generalized Markup Language",
 					"Acronym": "SGML",
 					"Abbrev": "ISO 8879:1986",
 					"GlossDef": {
                        "para": "A meta-markup language, used to create markup languages such as DocBook.",
 						"GlossSeeAlso": ["GML", "XML"]
                    },
 					"GlossSee": "markup"
                }
            }
        }
    }
 })";
 Callbacks printCallbacks() {
  Callbacks result;
  result.on_begin_value = +[](void *) { puts("on_begin_value"); };
  result.on_end_value = +[](void *) { puts("on_end_value"); };
  result.on_begin_object = +[](void *) { puts("on_begin_object"); };
  result.on_end_object = +[](void *) { puts("on_end_object"); };
  result.on_begin_string = +[](void *) { puts("on_begin_string"); };
  result.on_string_data = +[](void *, const char *buf, int len) {
    printf("on_string_data `%.*s`\n", len, buf);
  };
  result.on_end_string = +[](void *) { puts("on_end_string"); };
  result.on_begin_array = +[](void *) { puts("on_begin_array"); };
  result.on_end_array = +[](void *) { puts("on_end_array"); };
  result.on_begin_number = +[](void *) { puts("on_begin_number"); };
  result.on_number_data = +[](void *, const char *buf, int len) {
    printf("on_number_data `%.*s`\n", len, buf);
  };
  result.on_end_number = +[](void *) { puts("on_end_number"); };
  result.on_true_literal = +[](void *) { puts("on_true_literal"); };
  result.on_false_literal = +[](void *) { puts("on_false_literal"); };
  result.on_null_literal = +[](void *) { puts("on_null_literal"); };
  return result;
 }
 } // namespace
 TEST_CASE("parser1") {
  Callbacks c = printCallbacks();
  auto copy = json;
  Parser1 parser(copy.data(), copy.length(), &c, nullptr);
  CHECK(parser.parse());
  c = Callbacks{};
  ankerl::nanobench::Bench bench;
  bench.relative(true);
  bench.batch(json.size());
  bench.unit("byte");
  bench.run("parser control", [&]() {
    auto copy = json;
    bench.doNotOptimizeAway(copy);
  });
  bench.run("parser1", [&]() {
    auto copy = json;
    Parser1 parser(copy.data(), copy.length(), &c, nullptr);
    bench.doNotOptimizeAway(parser.parse());
  });
 }