first commit

2026-05-15 13:45:21 +07:00 · 2026-05-15 13:45:21 +07:00 · 05cfbaa1b8
commit 05cfbaa1b8
13 changed files with 1982 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,4 @@
+*.o
+*.a
+binding.o
+libbinding.a
--- a/47
+++ b/47
@ -0,0 +1,47 @@
+.PHONY: all clean libbinding.a
+
+include build.conf
+
+LLAMA_INCLUDE := $(LLAMA_CPP_PATH)/include
+LLAMA_COMMON  := $(LLAMA_CPP_PATH)/common
+LLAMA_GGML    := $(LLAMA_CPP_PATH)/ggml/include
+
+CXXFLAGS := -std=c++17 -O3 -DNDEBUG -fPIC -pthread \
+	-I$(LLAMA_INCLUDE) -I$(LLAMA_COMMON) -I$(LLAMA_GGML) -I.
+
+LDFLAGS_LIBS := \
+	-L$(LLAMA_BUILD_PATH)/src -lllama \
+	-L$(LLAMA_BUILD_PATH)/common -lllama-common \
+	-L$(LLAMA_BUILD_PATH)/ggml/src -lggml -lggml-cpu -lggml-base \
+	-L$(LLAMA_BUILD_PATH)/vendor/cpp-httplib -lcpp-httplib \
+	-lpthread -fopenmp -ldl -lm -lstdc++
+
+all: libbinding.a cgo_flags.go
+
+# Обновить пути в cgo_flags.go из build.conf
+cgo_flags.go: build.conf
+	@LLAMA=$$(grep '^LLAMA_CPP_PATH=' build.conf | cut -d= -f2); \
+	BUILD=$$(grep '^LLAMA_BUILD_PATH=' build.conf | cut -d= -f2); \
+	printf '%s\n' \
+		'package llama' \
+		'' \
+		'/*' \
+		"#cgo CXXFLAGS: -std=c++17 -I$$LLAMA/include -I$$LLAMA/common -I$$LLAMA/ggml/include -I\$${SRCDIR}" \
+		"#cgo LDFLAGS: -L\$${SRCDIR} -lbinding -L$$BUILD/src -lllama -L$$BUILD/common -lllama-common -lllama-common-base -L$$BUILD/ggml/src -lggml -lggml-cpu -lggml-base -L$$BUILD/vendor/cpp-httplib -lcpp-httplib -lstdc++ -lm -lpthread -fopenmp -ldl" \
+		'*/' \
+		'import "C"' \
+		> cgo_flags.go
+
+$(LLAMA_BUILD_PATH)/src/libllama.a:
+	cd $(LLAMA_BUILD_PATH) && cmake .. -DCMAKE_BUILD_TYPE=Release -DBUILD_SHARED_LIBS=OFF && \
+	cmake --build . --target llama llama-common -j$$(nproc)
+
+binding.o: binding.cpp binding.h $(LLAMA_BUILD_PATH)/src/libllama.a
+	$(CXX) $(CXXFLAGS) -c binding.cpp -o binding.o
+
+libbinding.a: binding.o
+	ar rcs libbinding.a binding.o
+	@echo "Собрано: libbinding.a. Линковка llama.cpp — через cgo_flags.go."
+
+clean:
+	rm -f binding.o libbinding.a
--- a/README.md
+++ b/README.md
@ -0,0 +1,198 @@
+# go-llama-new.cpp
+
+Go-обёртка над [llama.cpp](https://github.com/ggml-org/llama.cpp) с API, совместимым с [go-skynet/go-llama.cpp](https://github.com/go-skynet/go-llama.cpp): те же имена типов, функций и экспортируемых переменных (`LLama`, `New`, `Predict`, `SetContext`, `EnableEmbeddings` и т.д.).
+
+Ядро собирается из локальных исходников llama.cpp (не из submodule внутри репозитория). Пути к исходникам задаются в файле `build.conf`, переменные окружения для этого не используются.
+
+## Требования
+
+- **Go** 1.21 или новее (с поддержкой CGO)
+- **Компилятор C++** с поддержкой C++17 (`g++` / `clang++`)
+- **CMake** 3.14+
+- **make**, **ar**
+- **OpenMP** (обычно пакет `libgomp` в Linux)
+- Инструменты сборки: `git`, `build-essential` (или аналог)
+
+Для линковки также нужны статические библиотеки, которые CMake собирает из llama.cpp: `libllama.a`, `libllama-common.a`, `libllama-common-base.a`, `libggml*.a`, `libcpp-httplib.a`.
+
+## Настройка путей
+
+Отредактируйте `build.conf` в корне модуля:
+
+```ini
+# Пути к исходникам llama.cpp (без переменных окружения)
+LLAMA_CPP_PATH=/home/admin/cpp/llama.cpp
+LLAMA_BUILD_PATH=/home/admin/cpp/llama.cpp/build
+```
+
+| Параметр | Описание |
+|----------|----------|
+| `LLAMA_CPP_PATH` | Каталог с исходниками llama.cpp (`include/`, `common/`, `src/` и т.д.) |
+| `LLAMA_BUILD_PATH` | Каталог сборки CMake (там появятся `build/src/libllama.a` и др.) |
+
+После изменения `build.conf` выполните `make` — будет пересоздан `cgo_flags.go` с актуальными путями для CGO.
+
+## Сборка
+
+Сборка состоит из двух этапов: сначала нативное ядро llama.cpp, затем Go-модуль с C-обёрткой `binding`.
+
+### 1. Сборка llama.cpp
+
+```bash
+mkdir -p /home/admin/cpp/llama.cpp/build
+cd /home/admin/cpp/llama.cpp/build
+
+cmake .. \
+  -DCMAKE_BUILD_TYPE=Release \
+  -DBUILD_SHARED_LIBS=OFF
+
+cmake --build . --target llama llama-common -j"$(nproc)"
+```
+
+Проверка, что библиотеки на месте:
+
+```bash
+ls -la build/src/libllama.a
+ls -la build/common/libllama-common.a
+ls -la build/common/libllama-common-base.a
+ls -la build/ggml/src/libggml.a
+```
+
+Цель `make` в каталоге модуля при необходимости запустит эту же сборку автоматически (см. `Makefile`).
+
+### 2. Сборка C-обёртки (libbinding.a)
+
+В каталоге модуля:
+
+```bash
+cd /path/to/go-llama-new.cpp
+make
+```
+
+Будет выполнено:
+
+1. Генерация `cgo_flags.go` из `build.conf`
+2. Компиляция `binding.cpp` → `binding.o`
+3. Создание архива `libbinding.a`
+
+Очистка артефактов обёртки:
+
+```bash
+make clean
+```
+
+### 3. Сборка Go-модуля
+
+```bash
+go build ./...
+```
+
+Или пример:
+
+```bash
+go build -o llama-example ./examples/
+go run ./examples/main.go /path/to/model.gguf "Привет, мир"
+```
+
+При первой сборке CGO скомпилирует `binding.cpp` ещё раз и слинкует его с библиотеками из `LLAMA_BUILD_PATH` (см. `cgo_flags.go`).
+
+## Использование в своём проекте
+
+```go
+import llama "go-llama-new.cpp"
+
+func main() {
+    model, err := llama.New("/path/to/model.gguf",
+        llama.SetContext(4096),
+        llama.SetGPULayers(0),
+    )
+    if err != nil {
+        panic(err)
+    }
+    defer model.Free()
+
+    text, err := model.Predict("Привет",
+        llama.SetTokens(128),
+        llama.SetTemperature(0.8),
+    )
+    if err != nil {
+        panic(err)
+    }
+    println(text)
+}
+```
+
+В `go.mod` вашего проекта:
+
+```go
+require go-llama-new.cpp v0.0.0
+
+replace go-llama-new.cpp => /path/to/go-llama-new.cpp
+```
+
+Перед `go build` в проекте-потребителе должны быть собраны llama.cpp и `libbinding.a` (шаги 1–2 выше).
+
+## Опциональные теги сборки
+
+Как в оригинальном go-llama.cpp:
+
+| Тег | Назначение |
+|-----|------------|
+| `openblas` | Дополнительная линковка с OpenBLAS (`llama_openblas.go`) |
+| `cublas` | CUDA (`llama_cublas.go`) — требует отдельной сборки llama.cpp с `GGML_CUDA=ON` |
+
+Пример:
+
+```bash
+go build -tags openblas ./...
+```
+
+Для GPU нужно пересобрать llama.cpp с нужными опциями CMake (например `-DGGML_CUDA=ON`) и убедиться, что пути в `build.conf` указывают на эту сборку.
+
+## Устранение неполадок
+
+### `неопределённая ссылка на llama_compiler` / `llama_commit` / `llama_build_number`
+
+Не слинкована `libllama-common-base.a`. Убедитесь, что в `cgo_flags.go` в `LDFLAGS` есть `-lllama-common-base`, и пересоберите:
+
+```bash
+make
+go build ./...
+```
+
+### `cannot find -lllama` или `-lllama-common`
+
+Проверьте `LLAMA_BUILD_PATH` в `build.conf` и выполните сборку llama.cpp (шаг 1).
+
+### CGO отключён
+
+```bash
+go env CGO_ENABLED   # должно быть 1
+```
+
+Установите `gcc`/`g++`, если CGO выключен из-за отсутствия компилятора C.
+
+### Изменили путь к llama.cpp
+
+1. Обновите `build.conf`
+2. `make` (обновит `cgo_flags.go` и `libbinding.a`)
+3. `go build ./...`
+
+## Структура репозитория
+
+```
+.
+├── build.conf          # пути к llama.cpp
+├── binding.h
+├── binding.cpp         # C API для CGO
+├── cgo_flags.go        # флаги CGO (генерируется make)
+├── llama.go
+├── options.go
+├── Makefile
+├── examples/main.go
+└── README.md
+```
+
+## Лицензия
+
+Следует лицензиям llama.cpp и исходного go-llama.cpp. Используйте в соответствии с условиями соответствующих проектов.
--- a/binding.cpp
+++ b/binding.cpp
@ -0,0 +1,719 @@
+#include "binding.h"
+
+#include "common.h"
+#include "llama.h"
+#include "sampling.h"
+
+#include <algorithm>
+#include <cstdio>
+#include <cstring>
+#include <fstream>
+#include <regex>
+#include <sstream>
+#include <string>
+#include <vector>
+
+struct llama_binding_state {
+    common_init_result_ptr init;
+    llama_model *           model = nullptr;
+    llama_context *         ctx   = nullptr;
+    common_sampler *        smpl  = nullptr;
+    bool                    embeddings = false;
+};
+
+static llama_binding_state * binding_state(void * state_pr) {
+    return static_cast<llama_binding_state *>(state_pr);
+}
+
+static void parse_tensor_split(const char * tensorsplit, float * out, size_t n) {
+    for (size_t i = 0; i < n; ++i) {
+        out[i] = 0.0f;
+    }
+    if (tensorsplit == nullptr || tensorsplit[0] == '\0') {
+        return;
+    }
+    std::string arg_next = tensorsplit;
+    const std::regex regex{R"([,/]+)"};
+    std::sregex_token_iterator it{arg_next.begin(), arg_next.end(), regex, -1};
+    std::vector<std::string> split_arg{it, {}};
+    for (size_t i = 0; i < split_arg.size() && i < n; ++i) {
+        out[i] = std::stof(split_arg[i]);
+    }
+}
+
+static void apply_model_load_options(
+        common_params & params,
+        int n_ctx,
+        int n_seed,
+        bool memory_f16,
+        bool mlock,
+        bool embeddings,
+        bool mmap,
+        int n_gpu,
+        int n_batch,
+        const char * maingpu,
+        const char * tensorsplit,
+        bool numa,
+        float rope_freq_base,
+        float rope_freq_scale,
+        const char * lora,
+        const char * lora_base,
+        bool perplexity) {
+    (void) lora_base;
+
+    if (n_ctx > 0) {
+        params.n_ctx = n_ctx;
+    }
+    if (n_seed >= 0) {
+        params.sampling.seed = (uint32_t) n_seed;
+    }
+    params.use_mlock    = mlock;
+    params.embedding    = embeddings;
+    params.use_mmap     = mmap;
+    params.n_gpu_layers = n_gpu;
+    params.n_batch      = n_batch > 0 ? n_batch : params.n_batch;
+    params.n_ubatch     = std::min(params.n_batch, params.n_ubatch);
+    params.numa         = numa ? GGML_NUMA_STRATEGY_DISTRIBUTE : GGML_NUMA_STRATEGY_DISABLED;
+    params.warmup       = false;
+    params.fit_params   = false;
+
+    if (rope_freq_base > 0.0f) {
+        params.rope_freq_base = rope_freq_base;
+    }
+    if (rope_freq_scale > 0.0f) {
+        params.rope_freq_scale = rope_freq_scale;
+    }
+
+    if (memory_f16) {
+        params.cache_type_k = GGML_TYPE_F16;
+        params.cache_type_v = GGML_TYPE_F16;
+    }
+
+    if (maingpu != nullptr && maingpu[0] != '\0') {
+        params.main_gpu = std::stoi(maingpu);
+    }
+
+    parse_tensor_split(tensorsplit, params.tensor_split, sizeof(params.tensor_split) / sizeof(params.tensor_split[0]));
+
+    if (perplexity) {
+        params.compute_ppl = true;
+    }
+
+    if (lora != nullptr && lora[0] != '\0') {
+        common_adapter_lora_info la;
+        la.path  = lora;
+        la.scale = 1.0f;
+        params.lora_adapters.push_back(la);
+    }
+}
+
+static bool check_antiprompt(
+        const std::string & output,
+        const std::vector<std::string> & antiprompt,
+        bool interactive) {
+    for (const auto & ap : antiprompt) {
+        if (ap.empty()) {
+            continue;
+        }
+        const size_t extra = interactive ? 0 : 2;
+        const size_t search_start = output.length() > ap.length() + extra
+            ? output.length() - ap.length() - extra
+            : 0;
+        if (output.find(ap, search_start) != std::string::npos) {
+            return true;
+        }
+    }
+    return false;
+}
+
+extern "C" {
+
+void * load_model(
+        const char * fname,
+        int n_ctx,
+        int n_seed,
+        bool memory_f16,
+        bool mlock,
+        bool embeddings,
+        bool mmap,
+        bool low_vram,
+        int n_gpu,
+        int n_batch,
+        const char * maingpu,
+        const char * tensorsplit,
+        bool numa,
+        float rope_freq_base,
+        float rope_freq_scale,
+        bool mul_mat_q,
+        const char * lora,
+        const char * lora_base,
+        bool perplexity) {
+    (void) low_vram;
+    (void) mul_mat_q;
+
+    common_init();
+    llama_backend_init();
+
+    common_params params;
+    params.model.path = fname;
+
+    apply_model_load_options(
+            params, n_ctx, n_seed, memory_f16, mlock, embeddings, mmap,
+            n_gpu, n_batch, maingpu, tensorsplit, numa,
+            rope_freq_base, rope_freq_scale, lora, lora_base, perplexity);
+
+    llama_numa_init(params.numa);
+
+    auto * binding = new llama_binding_state();
+    binding->init = common_init_from_params(params);
+    if (!binding->init || binding->init->context() == nullptr) {
+        delete binding;
+        return nullptr;
+    }
+
+    binding->model      = binding->init->model();
+    binding->ctx        = binding->init->context();
+    binding->smpl       = binding->init->sampler(0);
+    binding->embeddings = embeddings;
+
+    return binding;
+}
+
+void llama_binding_free_model(void * state_pr) {
+    delete binding_state(state_pr);
+}
+
+int load_state(void * state_pr, char * statefile, char * modes) {
+    (void) modes;
+    auto * state = binding_state(state_pr);
+    if (state == nullptr || state->ctx == nullptr) {
+        return 1;
+    }
+
+    std::vector<llama_token> tokens(llama_n_ctx(state->ctx));
+    size_t n_out = 0;
+    if (!llama_state_load_file(state->ctx, statefile, tokens.data(), tokens.size(), &n_out)) {
+        return 1;
+    }
+    return 0;
+}
+
+void save_state(void * state_pr, char * dst, char * modes) {
+    (void) modes;
+    auto * state = binding_state(state_pr);
+    if (state == nullptr || state->ctx == nullptr) {
+        return;
+    }
+    llama_state_save_file(state->ctx, dst, nullptr, 0);
+}
+
+void * llama_allocate_params(
+        const char * prompt,
+        int seed,
+        int threads,
+        int tokens,
+        int top_k,
+        float top_p,
+        float temp,
+        float repeat_penalty,
+        int repeat_last_n,
+        bool ignore_eos,
+        bool memory_f16,
+        int n_batch,
+        int n_keep,
+        const char ** antiprompt,
+        int antiprompt_count,
+        float tfs_z,
+        float typical_p,
+        float frequency_penalty,
+        float presence_penalty,
+        int mirostat,
+        float mirostat_eta,
+        float mirostat_tau,
+        bool penalize_nl,
+        const char * logit_bias,
+        const char * session_file,
+        bool prompt_cache_all,
+        bool mlock,
+        bool mmap,
+        const char * maingpu,
+        const char * tensorsplit,
+        bool prompt_cache_ro,
+        const char * grammar,
+        float rope_freq_base,
+        float rope_freq_scale,
+        float negative_prompt_scale,
+        const char * negative_prompt,
+        int n_draft) {
+    (void) tfs_z;
+    (void) penalize_nl;
+    (void) negative_prompt_scale;
+    (void) negative_prompt;
+    (void) memory_f16;
+
+    auto * params = new common_params();
+    params->prompt = prompt != nullptr ? prompt : "";
+    params->n_predict = tokens;
+    params->n_batch   = n_batch > 0 ? n_batch : params->n_batch;
+    params->n_keep    = n_keep;
+    params->use_mlock = mlock;
+    params->use_mmap  = mmap;
+    params->path_prompt_cache = session_file != nullptr ? session_file : "";
+    params->prompt_cache_all  = prompt_cache_all;
+    params->prompt_cache_ro   = prompt_cache_ro;
+
+    if (rope_freq_base > 0.0f) {
+        params->rope_freq_base = rope_freq_base;
+    }
+    if (rope_freq_scale > 0.0f) {
+        params->rope_freq_scale = rope_freq_scale;
+    }
+
+    params->sampling.seed           = seed >= 0 ? (uint32_t) seed : LLAMA_DEFAULT_SEED;
+    params->cpuparams.n_threads     = threads > 0 ? threads : 4;
+    params->cpuparams_batch.n_threads = params->cpuparams.n_threads;
+    params->sampling.top_k          = top_k;
+    params->sampling.top_p          = top_p;
+    params->sampling.temp           = temp;
+    params->sampling.penalty_repeat = repeat_penalty;
+    params->sampling.penalty_last_n = repeat_last_n;
+    params->sampling.penalty_freq   = frequency_penalty;
+    params->sampling.penalty_present = presence_penalty;
+    params->sampling.typ_p          = typical_p > 0 ? typical_p : 1.0f;
+    params->sampling.mirostat       = mirostat;
+    params->sampling.mirostat_eta   = mirostat_eta;
+    params->sampling.mirostat_tau   = mirostat_tau;
+    params->sampling.ignore_eos     = ignore_eos;
+
+    if (grammar != nullptr && grammar[0] != '\0') {
+        params->sampling.grammar = common_grammar(COMMON_GRAMMAR_TYPE_USER, grammar);
+    }
+
+    if (maingpu != nullptr && maingpu[0] != '\0') {
+        params->main_gpu = std::stoi(maingpu);
+    }
+    parse_tensor_split(tensorsplit, params->tensor_split, sizeof(params->tensor_split) / sizeof(params->tensor_split[0]));
+
+    if (antiprompt_count > 0 && antiprompt != nullptr) {
+        params->antiprompt = create_vector(antiprompt, antiprompt_count);
+    }
+
+    if (logit_bias != nullptr && logit_bias[0] != '\0') {
+        std::stringstream ss(logit_bias);
+        llama_token key;
+        char sign = 0;
+        std::string value_str;
+        if (ss >> key >> sign && std::getline(ss, value_str) && (sign == '+' || sign == '-')) {
+            params->sampling.logit_bias.push_back({key, std::stof(value_str) * ((sign == '-') ? -1.0f : 1.0f)});
+        }
+    }
+
+    params->speculative.draft.n_max = n_draft > 0 ? n_draft : params->speculative.draft.n_max;
+
+    return params;
+}
+
+void llama_free_params(void * params_ptr) {
+    delete static_cast<common_params *>(params_ptr);
+}
+
+int eval(void * params_ptr, void * state_pr, char * text) {
+    auto * params = static_cast<common_params *>(params_ptr);
+    auto * state  = binding_state(state_pr);
+    if (state == nullptr || state->ctx == nullptr) {
+        return 1;
+    }
+
+    std::string str = text != nullptr ? text : params->prompt;
+    auto embd = common_tokenize(state->ctx, str, true, true);
+    if (embd.empty()) {
+        return 1;
+    }
+
+    int n_past = 0;
+    if (!common_prompt_batch_decode(state->ctx, embd, n_past, params->n_batch, "", false)) {
+        return 1;
+    }
+    return 0;
+}
+
+int get_embeddings(void * params_ptr, void * state_pr, float * res_embeddings) {
+    auto * params = static_cast<common_params *>(params_ptr);
+    auto * state  = binding_state(state_pr);
+    if (state == nullptr || state->ctx == nullptr || !state->embeddings) {
+        return 1;
+    }
+
+    auto embd = common_tokenize(state->ctx, params->prompt, true, true);
+    if (!embd.empty()) {
+        int n_past = 0;
+        if (!common_prompt_batch_decode(state->ctx, embd, n_past, params->n_batch, "", false)) {
+            return 1;
+        }
+    }
+
+    const int n_embd = llama_model_n_embd(state->model);
+    const float * emb = llama_get_embeddings_ith(state->ctx, -1);
+    if (emb == nullptr) {
+        emb = llama_get_embeddings(state->ctx);
+    }
+    if (emb == nullptr) {
+        return 1;
+    }
+
+    for (int i = 0; i < n_embd; ++i) {
+        res_embeddings[i] = emb[i];
+    }
+    return 0;
+}
+
+int get_token_embeddings(void * params_ptr, void * state_pr, int * tokens, int tokenSize, float * res_embeddings) {
+    auto * params = static_cast<common_params *>(params_ptr);
+    auto * state  = binding_state(state_pr);
+    if (state == nullptr || state->ctx == nullptr) {
+        return 1;
+    }
+
+    std::string text;
+    for (int i = 0; i < tokenSize; ++i) {
+        text += common_token_to_piece(state->ctx, tokens[i]);
+    }
+    params->prompt = text;
+    return get_embeddings(params_ptr, state_pr, res_embeddings);
+}
+
+int llama_tokenize_string(void * params_ptr, void * state_pr, int * result) {
+    auto * params = static_cast<common_params *>(params_ptr);
+    auto * state  = binding_state(state_pr);
+    if (state == nullptr || state->ctx == nullptr) {
+        return -1;
+    }
+
+    const llama_vocab * vocab = llama_model_get_vocab(state->model);
+    const bool add_bos = llama_vocab_get_add_bos(vocab);
+    const int32_t max_tokens = params->n_ctx > 0 ? params->n_ctx : 4096;
+
+    return llama_tokenize(
+            vocab,
+            params->prompt.c_str(),
+            (int32_t) params->prompt.size(),
+            reinterpret_cast<llama_token *>(result),
+            max_tokens,
+            add_bos,
+            true);
+}
+
+int llama_predict(void * params_ptr, void * state_pr, char * result, bool debug) {
+    auto * params = static_cast<common_params *>(params_ptr);
+    auto * state  = binding_state(state_pr);
+    if (state == nullptr || state->ctx == nullptr || state->smpl == nullptr) {
+        return 1;
+    }
+
+    llama_context * ctx   = state->ctx;
+    llama_model *   model = state->model;
+    const llama_vocab * vocab = llama_model_get_vocab(model);
+    llama_memory_t mem = llama_get_memory(ctx);
+
+    common_sampler_ptr smpl_ptr(common_sampler_init(model, params->sampling));
+    if (!smpl_ptr) {
+        return 1;
+    }
+    common_sampler * smpl = smpl_ptr.get();
+
+    const int n_ctx = llama_n_ctx(ctx);
+    if (params->n_predict < 0) {
+        params->n_predict = 128;
+    }
+
+    llama_set_n_threads(ctx, params->cpuparams.n_threads, params->cpuparams_batch.n_threads);
+
+    std::string path_session = params->path_prompt_cache;
+    std::vector<llama_token> session_tokens;
+
+    if (!path_session.empty()) {
+        session_tokens.resize(n_ctx);
+        size_t n_out = 0;
+        if (std::ifstream(path_session).good()) {
+            llama_state_load_file(ctx, path_session.c_str(), session_tokens.data(), session_tokens.size(), &n_out);
+            session_tokens.resize(n_out);
+        }
+    }
+
+    const bool add_bos = llama_vocab_get_add_bos(vocab);
+    std::vector<llama_token> embd_inp = common_tokenize(ctx, params->prompt, add_bos, true);
+    if (embd_inp.empty()) {
+        embd_inp.push_back(llama_vocab_bos(vocab));
+    }
+
+    if ((int) embd_inp.size() > n_ctx - 4) {
+        return 1;
+    }
+
+    if (params->n_keep < 0 || params->n_keep > (int) embd_inp.size()) {
+        params->n_keep = (int) embd_inp.size();
+    }
+
+    common_sampler_reset(smpl);
+
+    int n_past             = 0;
+    int n_remain           = params->n_predict;
+    int n_consumed         = 0;
+    int n_session_consumed = 0;
+    bool is_antiprompt     = false;
+    bool need_save_session = !path_session.empty() && !params->prompt_cache_ro;
+
+    std::vector<llama_token> embd;
+    std::string res;
+
+    while (n_remain > 0 && !is_antiprompt) {
+        if (!embd.empty()) {
+            const int max_embd_size = n_ctx - 4;
+            if ((int) embd.size() > max_embd_size) {
+                embd.resize(max_embd_size);
+            }
+
+            if (n_past + (int) embd.size() >= n_ctx) {
+                const int n_left    = n_past - params->n_keep;
+                const int n_discard = n_left / 2;
+                llama_memory_seq_rm(mem, 0, params->n_keep, params->n_keep + n_discard);
+                llama_memory_seq_add(mem, 0, params->n_keep + n_discard, n_past, -n_discard);
+                n_past -= n_discard;
+                path_session.clear();
+            }
+
+            if (n_session_consumed < (int) session_tokens.size()) {
+                size_t i = 0;
+                for (; i < embd.size(); ++i) {
+                    if (embd[i] != session_tokens[n_session_consumed]) {
+                        session_tokens.resize(n_session_consumed);
+                        break;
+                    }
+                    n_past++;
+                    n_session_consumed++;
+                    if (n_session_consumed >= (int) session_tokens.size()) {
+                        ++i;
+                        break;
+                    }
+                }
+                if (i > 0) {
+                    embd.erase(embd.begin(), embd.begin() + i);
+                }
+            }
+
+            if (!embd.empty()) {
+                const bool save_now = need_save_session && n_consumed >= (int) embd_inp.size();
+                if (!common_prompt_batch_decode(ctx, embd, n_past, params->n_batch, path_session, save_now)) {
+                    return 1;
+                }
+                session_tokens.insert(session_tokens.end(), embd.begin(), embd.end());
+                n_session_consumed = session_tokens.size();
+                need_save_session  = false;
+            }
+        }
+
+        embd.clear();
+
+        if ((int) embd_inp.size() <= n_consumed) {
+            const llama_token id = common_sampler_sample(smpl, ctx, -1);
+            common_sampler_accept(smpl, id, true);
+            embd.push_back(id);
+
+            auto piece = common_token_to_piece(ctx, id);
+            if (!tokenCallback(state_pr, const_cast<char *>(piece.c_str()))) {
+                break;
+            }
+
+            res += piece;
+            --n_remain;
+
+            if (llama_vocab_is_eog(vocab, id)) {
+                break;
+            }
+        } else {
+            while ((int) embd_inp.size() > n_consumed) {
+                embd.push_back(embd_inp[n_consumed]);
+                common_sampler_accept(smpl, embd_inp[n_consumed], false);
+                ++n_consumed;
+                if ((int) embd.size() >= params->n_batch) {
+                    break;
+                }
+            }
+        }
+
+        for (const auto id : embd) {
+            res += common_token_to_piece(ctx, id);
+        }
+
+        if ((int) embd_inp.size() <= n_consumed && !params->antiprompt.empty()) {
+            is_antiprompt = check_antiprompt(res, params->antiprompt, false);
+        }
+    }
+
+    if (!path_session.empty() && params->prompt_cache_all && !params->prompt_cache_ro) {
+        llama_state_save_file(ctx, path_session.c_str(), session_tokens.data(), session_tokens.size());
+    }
+
+    if (debug) {
+        common_perf_print(ctx, smpl);
+    }
+
+    if (result != nullptr) {
+        std::strncpy(result, res.c_str(), params->n_predict > 0 ? (size_t) params->n_predict : res.size());
+        result[params->n_predict > 0 ? params->n_predict - 1 : res.size()] = '\0';
+    }
+
+    return 0;
+}
+
+int speculative_sampling(void * params_ptr, void * target_model, void * draft_model, char * result, bool debug) {
+    auto * params = static_cast<common_params *>(params_ptr);
+    auto * tgt    = binding_state(target_model);
+    auto * dft    = binding_state(draft_model);
+    if (tgt == nullptr || dft == nullptr || tgt->ctx == nullptr || dft->ctx == nullptr) {
+        return 1;
+    }
+
+    llama_context * ctx_tgt = tgt->ctx;
+    llama_context * ctx_dft = dft->ctx;
+    const llama_vocab * vocab = llama_model_get_vocab(tgt->model);
+
+    common_sampler_ptr smpl_ptr(common_sampler_init(tgt->model, params->sampling));
+    if (!smpl_ptr) {
+        return 1;
+    }
+    common_sampler * smpl_tgt = smpl_ptr.get();
+
+    auto inp = common_tokenize(ctx_tgt, params->prompt, true, true);
+    const int max_tokens = llama_n_ctx(ctx_tgt) - 4;
+    if ((int) inp.size() > max_tokens) {
+        return 1;
+    }
+
+    int n_past_tgt = 0;
+    int n_past_dft = 0;
+    if (!inp.empty()) {
+        if (!common_prompt_batch_decode(ctx_tgt, inp, n_past_tgt, params->n_batch, "", false)) {
+            return 1;
+        }
+        if (!common_prompt_batch_decode(ctx_dft, inp, n_past_dft, params->n_batch, "", false)) {
+            return 1;
+        }
+    }
+
+    const int n_draft = params->speculative.draft.n_max > 0 ? params->speculative.draft.n_max : 16;
+    int n_predict = 0;
+    std::string res;
+    bool has_eos = false;
+
+    std::vector<llama_token> drafted;
+    std::vector<llama_token> last_tokens(llama_n_ctx(ctx_tgt), 0);
+    for (auto id : inp) {
+        last_tokens.erase(last_tokens.begin());
+        last_tokens.push_back(id);
+    }
+
+    while (n_predict < params->n_predict && !has_eos) {
+        int i_dft = 0;
+        while (true) {
+            const llama_token id = common_sampler_sample(smpl_tgt, ctx_tgt, -1);
+            common_sampler_accept(smpl_tgt, id, true);
+
+            last_tokens.erase(last_tokens.begin());
+            last_tokens.push_back(id);
+
+            auto piece = common_token_to_piece(ctx_tgt, id);
+            if (!tokenCallback(draft_model, const_cast<char *>(piece.c_str()))) {
+                break;
+            }
+            res += piece;
+
+            if (llama_vocab_is_eog(vocab, id)) {
+                has_eos = true;
+            }
+
+            ++n_predict;
+
+            if (i_dft < (int) drafted.size() && id == drafted[i_dft]) {
+                ++i_dft;
+                continue;
+            }
+
+            llama_token dft_id = id;
+            llama_batch batch = llama_batch_get_one(&dft_id, 1);
+            if (llama_decode(ctx_dft, batch) != 0) {
+                return 1;
+            }
+            ++n_past_dft;
+
+            drafted.clear();
+            drafted.push_back(id);
+            break;
+        }
+
+        if (n_predict >= params->n_predict || has_eos) {
+            break;
+        }
+
+        int n_past_cur = n_past_dft;
+        for (int i = 0; i < n_draft; ++i) {
+            float * logits = llama_get_logits(ctx_dft);
+            const int n_vocab = llama_vocab_n_tokens(vocab);
+
+            llama_token draft_id = 0;
+            float max_logit = logits[0];
+            for (llama_token t = 1; t < n_vocab; ++t) {
+                if (logits[t] > max_logit) {
+                    max_logit = logits[t];
+                    draft_id = t;
+                }
+            }
+            drafted.push_back(draft_id);
+
+            if (i == n_draft - 1) {
+                break;
+            }
+
+            llama_batch batch = llama_batch_get_one(&draft_id, 1);
+            if (llama_decode(ctx_dft, batch) != 0) {
+                return 1;
+            }
+            ++n_past_cur;
+        }
+
+        llama_batch batch = llama_batch_get_one(drafted.data(), (int32_t) drafted.size());
+        if (llama_decode(ctx_tgt, batch) != 0) {
+            return 1;
+        }
+        ++n_past_tgt;
+
+        if (!drafted.empty()) {
+            drafted.erase(drafted.begin());
+        }
+    }
+
+    if (debug) {
+        common_perf_print(ctx_tgt, smpl_tgt);
+        common_perf_print(ctx_dft, nullptr);
+    }
+
+    if (result != nullptr) {
+        std::strncpy(result, res.c_str(), params->n_predict > 0 ? (size_t) params->n_predict : res.size());
+    }
+
+    return 0;
+}
+
+} // extern "C"
+
+std::vector<std::string> create_vector(const char ** strings, int count) {
+    std::vector<std::string> vec;
+    for (int i = 0; i < count; ++i) {
+        vec.emplace_back(strings[i]);
+    }
+    return vec;
+}
+
+void delete_vector(std::vector<std::string> * vec) {
+    delete vec;
+}
--- a/binding.h
+++ b/binding.h
@ -0,0 +1,63 @@
+#ifdef __cplusplus
+#include <vector>
+#include <string>
+extern "C" {
+#endif
+
+#include <stdbool.h>
+
+extern unsigned char tokenCallback(void *, char *);
+
+int load_state(void *ctx, char *statefile, char*modes);
+
+int eval(void* params_ptr, void *ctx, char*text);
+
+void save_state(void *ctx, char *dst, char*modes);
+
+void* load_model(const char *fname, 
+                 int n_ctx, 
+                 int n_seed, 
+                 bool memory_f16, 
+                 bool mlock, 
+                 bool embeddings, 
+                 bool mmap, 
+                 bool low_vram, 
+                 int n_gpu, 
+                 int n_batch, 
+                 const char *maingpu, 
+                 const char *tensorsplit, 
+                 bool numa, 
+                 float rope_freq_base, 
+                 float rope_freq_scale,
+                 bool mul_mat_q, const char *lora, const char *lora_base, bool perplexity
+                 );
+
+int get_embeddings(void* params_ptr, void* state_pr, float * res_embeddings);
+
+int get_token_embeddings(void* params_ptr, void* state_pr,  int *tokens, int tokenSize, float * res_embeddings);
+
+void* llama_allocate_params(const char *prompt, int seed, int threads, int tokens,
+                            int top_k, float top_p, float temp, float repeat_penalty, 
+                            int repeat_last_n, bool ignore_eos, bool memory_f16, 
+                            int n_batch, int n_keep, const char** antiprompt, int antiprompt_count,
+                            float tfs_z, float typical_p, float frequency_penalty, float presence_penalty, int mirostat, float mirostat_eta, float mirostat_tau, bool penalize_nl, const char *logit_bias, const char *session_file, bool prompt_cache_all, bool mlock, bool mmap, const char *maingpu, const char *tensorsplit , 
+                            bool prompt_cache_ro, const char *grammar, float rope_freq_base, float rope_freq_scale, float negative_prompt_scale, const char* negative_prompt,
+                            int n_draft);
+
+int speculative_sampling(void* params_ptr, void* target_model, void* draft_model, char* result, bool debug);
+
+void llama_free_params(void* params_ptr);
+
+void llama_binding_free_model(void* state);
+
+int llama_tokenize_string(void* params_ptr, void* state_pr, int* result);
+
+int llama_predict(void* params_ptr, void* state_pr, char* result, bool debug);
+
+#ifdef __cplusplus
+}
+
+
+std::vector<std::string> create_vector(const char** strings, int count);
+void delete_vector(std::vector<std::string>* vec);
+#endif
--- a/build.conf
+++ b/build.conf
@ -0,0 +1,3 @@
+# Пути к исходникам llama.cpp (без переменных окружения)
+LLAMA_CPP_PATH=/home/admin/cpp/llama.cpp
+LLAMA_BUILD_PATH=/home/admin/cpp/llama.cpp/build
--- a/cgo_flags.go
+++ b/cgo_flags.go
@ -0,0 +1,10 @@
+package llama
+
+// Флаги CGO генерируются из build.conf (пути к /home/admin/cpp/llama.cpp).
+// При смене пути отредактируйте build.conf и этот файл.
+
+/*
+#cgo CXXFLAGS: -std=c++17 -I/home/admin/cpp/llama.cpp/include -I/home/admin/cpp/llama.cpp/common -I/home/admin/cpp/llama.cpp/ggml/include -I${SRCDIR}
+#cgo LDFLAGS: -L${SRCDIR} -lbinding -L/home/admin/cpp/llama.cpp/build/src -lllama -L/home/admin/cpp/llama.cpp/build/common -lllama-common -lllama-common-base -L/home/admin/cpp/llama.cpp/build/ggml/src -lggml -lggml-cpu -lggml-base -L/home/admin/cpp/llama.cpp/build/vendor/cpp-httplib -lcpp-httplib -lstdc++ -lm -lpthread -fopenmp -ldl
+*/
+import "C"
--- a/examples/main.go
+++ b/examples/main.go
@ -0,0 +1,48 @@
+package main
+
+import (
+    "bufio"
+    "fmt"
+    "os"
+    "strings"
+
+    llama "go-llama-new.cpp"
+)
+
+func main() {
+    if len(os.Args) < 2 {
+        fmt.Fprintf(os.Stderr, "usage: %s <model.gguf> [prompt]\n", os.Args[0])
+        os.Exit(1)
+    }
+
+    modelPath := os.Args[1]
+    prompt := "Hello"
+    if len(os.Args) > 2 {
+        prompt = strings.Join(os.Args[2:], " ")
+    }
+
+    l, err := llama.New(modelPath, llama.SetContext(512), llama.SetGPULayers(0))
+    if err != nil {
+        fmt.Fprintf(os.Stderr, "load model: %v\n", err)
+        os.Exit(1)
+    }
+    defer l.Free()
+
+    out, err := l.Predict(prompt, llama.SetTokens(64), llama.SetThreads(4))
+    if err != nil {
+        fmt.Fprintf(os.Stderr, "predict: %v\n", err)
+        os.Exit(1)
+    }
+
+    fmt.Println(out)
+
+    reader := bufio.NewReader(os.Stdin)
+    fmt.Print("\nТокенизация (введите текст): ")
+    line, _ := reader.ReadString('\n')
+    _, tokens, err := l.TokenizeString(strings.TrimSpace(line))
+    if err != nil {
+        fmt.Fprintf(os.Stderr, "tokenize: %v\n", err)
+        return
+    }
+    fmt.Printf("токенов: %d, ids: %v\n", len(tokens), tokens)
+}
--- a/go.mod
+++ b/go.mod
@ -0,0 +1,3 @@
+module go-llama-new.cpp
+
+go 1.21
--- a/llama.go
+++ b/llama.go
@ -0,0 +1,409 @@
+package llama
+
+// #include "binding.h"
+// #include <stdlib.h>
+import "C"
+import (
+    "fmt"
+    "os"
+    "strings"
+    "sync"
+    "unsafe"
+)
+
+type LLama struct {
+    state       unsafe.Pointer
+    embeddings  bool
+    contextSize int
+}
+
+func New(model string, opts ...ModelOption) (*LLama, error) {
+    mo := NewModelOptions(opts...)
+    modelPath := C.CString(model)
+    defer C.free(unsafe.Pointer(modelPath))
+    loraBase := C.CString(mo.LoraBase)
+    defer C.free(unsafe.Pointer(loraBase))
+    loraAdapter := C.CString(mo.LoraAdapter)
+    defer C.free(unsafe.Pointer(loraAdapter))
+
+    MulMatQ := true
+
+    if mo.MulMatQ != nil {
+        MulMatQ = *mo.MulMatQ
+    }
+
+    result := C.load_model(modelPath,
+        C.int(mo.ContextSize), C.int(mo.Seed),
+        C.bool(mo.F16Memory), C.bool(mo.MLock), C.bool(mo.Embeddings), C.bool(mo.MMap), C.bool(mo.LowVRAM),
+        C.int(mo.NGPULayers), C.int(mo.NBatch), C.CString(mo.MainGPU), C.CString(mo.TensorSplit), C.bool(mo.NUMA),
+        C.float(mo.FreqRopeBase), C.float(mo.FreqRopeScale),
+        C.bool(MulMatQ), loraAdapter, loraBase, C.bool(mo.Perplexity),
+    )
+
+    if result == nil {
+        return nil, fmt.Errorf("failed loading model")
+    }
+
+    ll := &LLama{state: result, contextSize: mo.ContextSize, embeddings: mo.Embeddings}
+    return ll, nil
+}
+
+func (l *LLama) Free() {
+    C.llama_binding_free_model(l.state)
+}
+
+func (l *LLama) LoadState(state string) error {
+    d := C.CString(state)
+    w := C.CString("rb")
+    result := C.load_state(l.state, d, w)
+
+    defer C.free(unsafe.Pointer(d))
+    defer C.free(unsafe.Pointer(w))
+
+    if result != 0 {
+        return fmt.Errorf("error while loading state")
+    }
+
+    return nil
+}
+
+func (l *LLama) SaveState(dst string) error {
+    d := C.CString(dst)
+    w := C.CString("wb")
+
+    C.save_state(l.state, d, w)
+
+    defer C.free(unsafe.Pointer(d))
+    defer C.free(unsafe.Pointer(w))
+
+    _, err := os.Stat(dst)
+    return err
+}
+
+// Token Embeddings
+func (l *LLama) TokenEmbeddings(tokens []int, opts ...PredictOption) ([]float32, error) {
+    if !l.embeddings {
+        return []float32{}, fmt.Errorf("model loaded without embeddings")
+    }
+
+    po := NewPredictOptions(opts...)
+
+    outSize := po.Tokens
+    if po.Tokens == 0 {
+        outSize = 9999999
+    }
+
+    floats := make([]float32, outSize)
+
+    myArray := (*C.int)(C.malloc(C.size_t(len(tokens)) * C.sizeof_int))
+
+    for i, v := range tokens {
+        (*[1 << 31]int32)(unsafe.Pointer(myArray))[i] = int32(v)
+    }
+
+    params := C.llama_allocate_params(C.CString(""), C.int(po.Seed), C.int(po.Threads), C.int(po.Tokens), C.int(po.TopK),
+        C.float(po.TopP), C.float(po.Temperature), C.float(po.Penalty), C.int(po.Repeat),
+        C.bool(po.IgnoreEOS), C.bool(po.F16KV),
+        C.int(po.Batch), C.int(po.NKeep), nil, C.int(0),
+        C.float(po.TailFreeSamplingZ), C.float(po.TypicalP), C.float(po.FrequencyPenalty), C.float(po.PresencePenalty),
+        C.int(po.Mirostat), C.float(po.MirostatETA), C.float(po.MirostatTAU), C.bool(po.PenalizeNL), C.CString(po.LogitBias),
+        C.CString(po.PathPromptCache), C.bool(po.PromptCacheAll), C.bool(po.MLock), C.bool(po.MMap),
+        C.CString(po.MainGPU), C.CString(po.TensorSplit),
+        C.bool(po.PromptCacheRO),
+        C.CString(po.Grammar),
+        C.float(po.RopeFreqBase), C.float(po.RopeFreqScale), C.float(po.NegativePromptScale), C.CString(po.NegativePrompt),
+        C.int(po.NDraft),
+    )
+    ret := C.get_token_embeddings(params, l.state, myArray, C.int(len(tokens)), (*C.float)(&floats[0]))
+    C.free(unsafe.Pointer(myArray))
+    C.llama_free_params(params)
+    if ret != 0 {
+        return floats, fmt.Errorf("embedding inference failed")
+    }
+    return floats, nil
+}
+
+// Embeddings
+func (l *LLama) Embeddings(text string, opts ...PredictOption) ([]float32, error) {
+    if !l.embeddings {
+        return []float32{}, fmt.Errorf("model loaded without embeddings")
+    }
+
+    po := NewPredictOptions(opts...)
+
+    input := C.CString(text)
+    defer C.free(unsafe.Pointer(input))
+    if po.Tokens == 0 {
+        po.Tokens = 99999999
+    }
+    floats := make([]float32, po.Tokens)
+    reverseCount := len(po.StopPrompts)
+    reversePrompt := make([]*C.char, reverseCount)
+    var pass **C.char
+    for i, s := range po.StopPrompts {
+        cs := C.CString(s)
+        defer C.free(unsafe.Pointer(cs))
+        reversePrompt[i] = cs
+        pass = &reversePrompt[0]
+    }
+
+    params := C.llama_allocate_params(input, C.int(po.Seed), C.int(po.Threads), C.int(po.Tokens), C.int(po.TopK),
+        C.float(po.TopP), C.float(po.Temperature), C.float(po.Penalty), C.int(po.Repeat),
+        C.bool(po.IgnoreEOS), C.bool(po.F16KV),
+        C.int(po.Batch), C.int(po.NKeep), pass, C.int(reverseCount),
+        C.float(po.TailFreeSamplingZ), C.float(po.TypicalP), C.float(po.FrequencyPenalty), C.float(po.PresencePenalty),
+        C.int(po.Mirostat), C.float(po.MirostatETA), C.float(po.MirostatTAU), C.bool(po.PenalizeNL), C.CString(po.LogitBias),
+        C.CString(po.PathPromptCache), C.bool(po.PromptCacheAll), C.bool(po.MLock), C.bool(po.MMap),
+        C.CString(po.MainGPU), C.CString(po.TensorSplit),
+        C.bool(po.PromptCacheRO),
+        C.CString(po.Grammar),
+        C.float(po.RopeFreqBase), C.float(po.RopeFreqScale), C.float(po.NegativePromptScale), C.CString(po.NegativePrompt),
+        C.int(po.NDraft),
+    )
+
+    ret := C.get_embeddings(params, l.state, (*C.float)(&floats[0]))
+    C.llama_free_params(params)
+    if ret != 0 {
+        return floats, fmt.Errorf("embedding inference failed")
+    }
+
+    return floats, nil
+}
+
+func (l *LLama) Eval(text string, opts ...PredictOption) error {
+    po := NewPredictOptions(opts...)
+
+    input := C.CString(text)
+    defer C.free(unsafe.Pointer(input))
+    if po.Tokens == 0 {
+        po.Tokens = 99999999
+    }
+
+    reverseCount := len(po.StopPrompts)
+    reversePrompt := make([]*C.char, reverseCount)
+    var pass **C.char
+    for i, s := range po.StopPrompts {
+        cs := C.CString(s)
+        defer C.free(unsafe.Pointer(cs))
+        reversePrompt[i] = cs
+        pass = &reversePrompt[0]
+    }
+
+    params := C.llama_allocate_params(input, C.int(po.Seed), C.int(po.Threads), C.int(po.Tokens), C.int(po.TopK),
+        C.float(po.TopP), C.float(po.Temperature), C.float(po.Penalty), C.int(po.Repeat),
+        C.bool(po.IgnoreEOS), C.bool(po.F16KV),
+        C.int(po.Batch), C.int(po.NKeep), pass, C.int(reverseCount),
+        C.float(po.TailFreeSamplingZ), C.float(po.TypicalP), C.float(po.FrequencyPenalty), C.float(po.PresencePenalty),
+        C.int(po.Mirostat), C.float(po.MirostatETA), C.float(po.MirostatTAU), C.bool(po.PenalizeNL), C.CString(po.LogitBias),
+        C.CString(po.PathPromptCache), C.bool(po.PromptCacheAll), C.bool(po.MLock), C.bool(po.MMap),
+        C.CString(po.MainGPU), C.CString(po.TensorSplit),
+        C.bool(po.PromptCacheRO),
+        C.CString(po.Grammar),
+        C.float(po.RopeFreqBase), C.float(po.RopeFreqScale), C.float(po.NegativePromptScale), C.CString(po.NegativePrompt),
+        C.int(po.NDraft),
+    )
+    ret := C.eval(params, l.state, input)
+    C.llama_free_params(params)
+    if ret != 0 {
+        return fmt.Errorf("inference failed")
+    }
+
+    return nil
+}
+
+func (l *LLama) SpeculativeSampling(ll *LLama, text string, opts ...PredictOption) (string, error) {
+    po := NewPredictOptions(opts...)
+
+    if po.TokenCallback != nil {
+        setCallback(l.state, po.TokenCallback)
+    }
+
+    input := C.CString(text)
+    defer C.free(unsafe.Pointer(input))
+    if po.Tokens == 0 {
+        po.Tokens = 99999999
+    }
+    out := make([]byte, po.Tokens)
+
+    reverseCount := len(po.StopPrompts)
+    reversePrompt := make([]*C.char, reverseCount)
+    var pass **C.char
+    for i, s := range po.StopPrompts {
+        cs := C.CString(s)
+        defer C.free(unsafe.Pointer(cs))
+        reversePrompt[i] = cs
+        pass = &reversePrompt[0]
+    }
+
+    params := C.llama_allocate_params(input, C.int(po.Seed), C.int(po.Threads), C.int(po.Tokens), C.int(po.TopK),
+        C.float(po.TopP), C.float(po.Temperature), C.float(po.Penalty), C.int(po.Repeat),
+        C.bool(po.IgnoreEOS), C.bool(po.F16KV),
+        C.int(po.Batch), C.int(po.NKeep), pass, C.int(reverseCount),
+        C.float(po.TailFreeSamplingZ), C.float(po.TypicalP), C.float(po.FrequencyPenalty), C.float(po.PresencePenalty),
+        C.int(po.Mirostat), C.float(po.MirostatETA), C.float(po.MirostatTAU), C.bool(po.PenalizeNL), C.CString(po.LogitBias),
+        C.CString(po.PathPromptCache), C.bool(po.PromptCacheAll), C.bool(po.MLock), C.bool(po.MMap),
+        C.CString(po.MainGPU), C.CString(po.TensorSplit),
+        C.bool(po.PromptCacheRO),
+        C.CString(po.Grammar),
+        C.float(po.RopeFreqBase), C.float(po.RopeFreqScale), C.float(po.NegativePromptScale), C.CString(po.NegativePrompt),
+        C.int(po.NDraft),
+    )
+    ret := C.speculative_sampling(params, l.state, ll.state, (*C.char)(unsafe.Pointer(&out[0])), C.bool(po.DebugMode))
+    C.llama_free_params(params)
+
+    if po.TokenCallback != nil {
+        setCallback(l.state, nil)
+    }
+
+    if ret != 0 {
+        return "", fmt.Errorf("inference failed")
+    }
+    res := C.GoString((*C.char)(unsafe.Pointer(&out[0])))
+
+    res = strings.TrimPrefix(res, " ")
+    res = strings.TrimPrefix(res, text)
+    res = strings.TrimPrefix(res, "\n")
+
+    for _, s := range po.StopPrompts {
+        res = strings.TrimRight(res, s)
+    }
+
+    return res, nil
+}
+
+func (l *LLama) Predict(text string, opts ...PredictOption) (string, error) {
+    po := NewPredictOptions(opts...)
+
+    if po.TokenCallback != nil {
+        setCallback(l.state, po.TokenCallback)
+    }
+
+    input := C.CString(text)
+    defer C.free(unsafe.Pointer(input))
+    if po.Tokens == 0 {
+        po.Tokens = 99999999
+    }
+    out := make([]byte, po.Tokens)
+
+    reverseCount := len(po.StopPrompts)
+    reversePrompt := make([]*C.char, reverseCount)
+    var pass **C.char
+    for i, s := range po.StopPrompts {
+        cs := C.CString(s)
+        defer C.free(unsafe.Pointer(cs))
+        reversePrompt[i] = cs
+        pass = &reversePrompt[0]
+    }
+
+    params := C.llama_allocate_params(input, C.int(po.Seed), C.int(po.Threads), C.int(po.Tokens), C.int(po.TopK),
+        C.float(po.TopP), C.float(po.Temperature), C.float(po.Penalty), C.int(po.Repeat),
+        C.bool(po.IgnoreEOS), C.bool(po.F16KV),
+        C.int(po.Batch), C.int(po.NKeep), pass, C.int(reverseCount),
+        C.float(po.TailFreeSamplingZ), C.float(po.TypicalP), C.float(po.FrequencyPenalty), C.float(po.PresencePenalty),
+        C.int(po.Mirostat), C.float(po.MirostatETA), C.float(po.MirostatTAU), C.bool(po.PenalizeNL), C.CString(po.LogitBias),
+        C.CString(po.PathPromptCache), C.bool(po.PromptCacheAll), C.bool(po.MLock), C.bool(po.MMap),
+        C.CString(po.MainGPU), C.CString(po.TensorSplit),
+        C.bool(po.PromptCacheRO),
+        C.CString(po.Grammar),
+        C.float(po.RopeFreqBase), C.float(po.RopeFreqScale), C.float(po.NegativePromptScale), C.CString(po.NegativePrompt),
+        C.int(po.NDraft),
+    )
+    ret := C.llama_predict(params, l.state, (*C.char)(unsafe.Pointer(&out[0])), C.bool(po.DebugMode))
+    C.llama_free_params(params)
+
+    if po.TokenCallback != nil {
+        setCallback(l.state, nil)
+    }
+
+    if ret != 0 {
+        return "", fmt.Errorf("inference failed")
+    }
+    res := C.GoString((*C.char)(unsafe.Pointer(&out[0])))
+
+    res = strings.TrimPrefix(res, " ")
+    res = strings.TrimPrefix(res, text)
+    res = strings.TrimPrefix(res, "\n")
+
+    for _, s := range po.StopPrompts {
+        res = strings.TrimRight(res, s)
+    }
+
+    return res, nil
+}
+
+func (l *LLama) TokenizeString(text string, opts ...PredictOption) (int32, []int32, error) {
+    po := NewPredictOptions(opts...)
+
+    input := C.CString(text)
+    defer C.free(unsafe.Pointer(input))
+    if po.Tokens == 0 {
+        po.Tokens = 4096
+    }
+    out := make([]C.int, po.Tokens)
+
+    var fakeDblPtr **C.char
+
+    params := C.llama_allocate_params(input, C.int(po.Seed), C.int(po.Threads), C.int(po.Tokens), C.int(po.TopK),
+        C.float(po.TopP), C.float(po.Temperature), C.float(po.Penalty), C.int(po.Repeat),
+        C.bool(po.IgnoreEOS), C.bool(po.F16KV),
+        C.int(po.Batch), C.int(po.NKeep), fakeDblPtr, C.int(0),
+        C.float(po.TailFreeSamplingZ), C.float(po.TypicalP), C.float(po.FrequencyPenalty), C.float(po.PresencePenalty),
+        C.int(po.Mirostat), C.float(po.MirostatETA), C.float(po.MirostatTAU), C.bool(po.PenalizeNL), C.CString(po.LogitBias),
+        C.CString(po.PathPromptCache), C.bool(po.PromptCacheAll), C.bool(po.MLock), C.bool(po.MMap),
+        C.CString(po.MainGPU), C.CString(po.TensorSplit),
+        C.bool(po.PromptCacheRO),
+        C.CString(po.Grammar),
+        C.float(po.RopeFreqBase), C.float(po.RopeFreqScale), C.float(po.NegativePromptScale), C.CString(po.NegativePrompt),
+        C.int(po.NDraft),
+    )
+
+    tokRet := C.llama_tokenize_string(params, l.state, (*C.int)(unsafe.Pointer(&out[0])))
+    C.llama_free_params(params)
+
+    if tokRet < 0 {
+        return int32(tokRet), []int32{}, fmt.Errorf("llama_tokenize_string returned negative count %d", tokRet)
+    }
+
+    gTokRet := int32(tokRet)
+
+    gLenOut := min(len(out), int(gTokRet))
+
+    goSlice := make([]int32, gLenOut)
+    for i := 0; i < gLenOut; i++ {
+        goSlice[i] = int32(out[i])
+    }
+
+    return gTokRet, goSlice, nil
+}
+
+func (l *LLama) SetTokenCallback(callback func(token string) bool) {
+    setCallback(l.state, callback)
+}
+
+var (
+    m         sync.RWMutex
+    callbacks = map[uintptr]func(string) bool{}
+)
+
+//export tokenCallback
+func tokenCallback(statePtr unsafe.Pointer, token *C.char) bool {
+    m.RLock()
+    defer m.RUnlock()
+
+    if callback, ok := callbacks[uintptr(statePtr)]; ok {
+        return callback(C.GoString(token))
+    }
+
+    return true
+}
+
+func setCallback(statePtr unsafe.Pointer, callback func(string) bool) {
+    m.Lock()
+    defer m.Unlock()
+
+    if callback == nil {
+        delete(callbacks, uintptr(statePtr))
+    } else {
+        callbacks[uintptr(statePtr)] = callback
+    }
+}
--- a/llama_cublas.go
+++ b/llama_cublas.go
@ -0,0 +1,9 @@
+//go:build cublas
+// +build cublas
+
+package llama
+
+/*
+#cgo LDFLAGS: -lcublas -lcudart -L/usr/local/cuda/lib64/
+*/
+import "C"
--- a/llama_openblas.go
+++ b/llama_openblas.go
@ -0,0 +1,9 @@
+//go:build openblas
+// +build openblas
+
+package llama
+
+/*
+#cgo LDFLAGS: -lopenblas
+*/
+import "C"
--- a/options.go
+++ b/options.go
@ -0,0 +1,460 @@
+package llama
+
+type ModelOptions struct {
+    ContextSize   int
+    Seed          int
+    NBatch        int
+    F16Memory     bool
+    MLock         bool
+    MMap          bool
+    LowVRAM       bool
+    Embeddings    bool
+    NUMA          bool
+    NGPULayers    int
+    MainGPU       string
+    TensorSplit   string
+    FreqRopeBase  float32
+    FreqRopeScale float32
+    MulMatQ       *bool
+    LoraBase      string
+    LoraAdapter   string
+    Perplexity    bool
+}
+
+type PredictOptions struct {
+    Seed, Threads, Tokens, TopK, Repeat, Batch, NKeep int
+    TopP, Temperature, Penalty                        float32
+    NDraft                                            int
+    F16KV                                             bool
+    DebugMode                                         bool
+    StopPrompts                                       []string
+    IgnoreEOS                                         bool
+
+    TailFreeSamplingZ float32
+    TypicalP          float32
+    FrequencyPenalty  float32
+    PresencePenalty   float32
+    Mirostat          int
+    MirostatETA       float32
+    MirostatTAU       float32
+    PenalizeNL        bool
+    LogitBias         string
+    TokenCallback     func(string) bool
+
+    PathPromptCache             string
+    MLock, MMap, PromptCacheAll bool
+    PromptCacheRO               bool
+    Grammar                     string
+    MainGPU                     string
+    TensorSplit                 string
+
+    // Rope parameters
+    RopeFreqBase  float32
+    RopeFreqScale float32
+
+    // Negative prompt parameters
+    NegativePromptScale float32
+    NegativePrompt      string
+}
+
+type PredictOption func(p *PredictOptions)
+
+type ModelOption func(p *ModelOptions)
+
+var DefaultModelOptions ModelOptions = ModelOptions{
+    ContextSize:   512,
+    Seed:          0,
+    F16Memory:     false,
+    MLock:         false,
+    Embeddings:    false,
+    MMap:          true,
+    LowVRAM:       false,
+    NBatch:        512,
+    FreqRopeBase:  10000,
+    FreqRopeScale: 1.0,
+}
+
+var DefaultOptions PredictOptions = PredictOptions{
+    Seed:              -1,
+    Threads:           4,
+    Tokens:            128,
+    Penalty:           1.1,
+    Repeat:            64,
+    Batch:             512,
+    NKeep:             64,
+    TopK:              40,
+    TopP:              0.95,
+    TailFreeSamplingZ: 1.0,
+    TypicalP:          1.0,
+    Temperature:       0.8,
+    FrequencyPenalty:  0.0,
+    PresencePenalty:   0.0,
+    Mirostat:          0,
+    MirostatTAU:       5.0,
+    MirostatETA:       0.1,
+    MMap:              true,
+    RopeFreqBase:      10000,
+    RopeFreqScale:     1.0,
+}
+
+func SetMulMatQ(b bool) ModelOption {
+    return func(p *ModelOptions) {
+        p.MulMatQ = &b
+    }
+}
+
+func SetLoraBase(s string) ModelOption {
+    return func(p *ModelOptions) {
+        p.LoraBase = s
+    }
+}
+
+func SetLoraAdapter(s string) ModelOption {
+    return func(p *ModelOptions) {
+        p.LoraAdapter = s
+    }
+}
+
+// SetContext sets the context size.
+func SetContext(c int) ModelOption {
+    return func(p *ModelOptions) {
+        p.ContextSize = c
+    }
+}
+
+func WithRopeFreqBase(f float32) ModelOption {
+    return func(p *ModelOptions) {
+        p.FreqRopeBase = f
+    }
+}
+
+func WithRopeFreqScale(f float32) ModelOption {
+    return func(p *ModelOptions) {
+        p.FreqRopeScale = f
+    }
+}
+
+func SetModelSeed(c int) ModelOption {
+    return func(p *ModelOptions) {
+        p.Seed = c
+    }
+}
+
+// SetContext sets the context size.
+func SetMMap(b bool) ModelOption {
+    return func(p *ModelOptions) {
+        p.MMap = b
+    }
+}
+
+// SetNBatch sets the  n_Batch
+func SetNBatch(n_batch int) ModelOption {
+    return func(p *ModelOptions) {
+        p.NBatch = n_batch
+    }
+}
+
+// Set sets the tensor split for the GPU
+func SetTensorSplit(maingpu string) ModelOption {
+    return func(p *ModelOptions) {
+        p.TensorSplit = maingpu
+    }
+}
+
+// SetMainGPU sets the main_gpu
+func SetMainGPU(maingpu string) ModelOption {
+    return func(p *ModelOptions) {
+        p.MainGPU = maingpu
+    }
+}
+
+// SetPredictionTensorSplit sets the tensor split for the GPU
+func SetPredictionTensorSplit(maingpu string) PredictOption {
+    return func(p *PredictOptions) {
+        p.TensorSplit = maingpu
+    }
+}
+
+// SetPredictionMainGPU sets the main_gpu
+func SetPredictionMainGPU(maingpu string) PredictOption {
+    return func(p *PredictOptions) {
+        p.MainGPU = maingpu
+    }
+}
+
+// Rope and negative prompt parameters
+func SetRopeFreqBase(rfb float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.RopeFreqBase = rfb
+    }
+}
+
+func SetRopeFreqScale(rfs float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.RopeFreqScale = rfs
+    }
+}
+
+func SetNDraft(nd int) PredictOption {
+    return func(p *PredictOptions) {
+        p.NDraft = nd
+    }
+}
+
+func SetPerplexity(b bool) ModelOption {
+    return func(p *ModelOptions) {
+        p.Perplexity = b
+    }
+}
+
+func SetNegativePromptScale(nps float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.NegativePromptScale = nps
+    }
+}
+
+func SetNegativePrompt(np string) PredictOption {
+    return func(p *PredictOptions) {
+        p.NegativePrompt = np
+    }
+}
+
+var EnabelLowVRAM ModelOption = func(p *ModelOptions) {
+    p.LowVRAM = true
+}
+
+var EnableNUMA ModelOption = func(p *ModelOptions) {
+    p.NUMA = true
+}
+
+var EnableEmbeddings ModelOption = func(p *ModelOptions) {
+    p.Embeddings = true
+}
+
+var EnableF16Memory ModelOption = func(p *ModelOptions) {
+    p.F16Memory = true
+}
+
+var EnableF16KV PredictOption = func(p *PredictOptions) {
+    p.F16KV = true
+}
+
+var Debug PredictOption = func(p *PredictOptions) {
+    p.DebugMode = true
+}
+
+var EnablePromptCacheAll PredictOption = func(p *PredictOptions) {
+    p.PromptCacheAll = true
+}
+
+var EnablePromptCacheRO PredictOption = func(p *PredictOptions) {
+    p.PromptCacheRO = true
+}
+
+var EnableMLock ModelOption = func(p *ModelOptions) {
+    p.MLock = true
+}
+
+// Create a new PredictOptions object with the given options.
+func NewModelOptions(opts ...ModelOption) ModelOptions {
+    p := DefaultModelOptions
+    for _, opt := range opts {
+        opt(&p)
+    }
+    return p
+}
+
+var IgnoreEOS PredictOption = func(p *PredictOptions) {
+    p.IgnoreEOS = true
+}
+
+// WithGrammar sets the grammar to constrain the output of the LLM response
+func WithGrammar(s string) PredictOption {
+    return func(p *PredictOptions) {
+        p.Grammar = s
+    }
+}
+
+// SetMlock sets the memory lock.
+func SetMlock(b bool) PredictOption {
+    return func(p *PredictOptions) {
+        p.MLock = b
+    }
+}
+
+// SetMemoryMap sets memory mapping.
+func SetMemoryMap(b bool) PredictOption {
+    return func(p *PredictOptions) {
+        p.MMap = b
+    }
+}
+
+// SetGPULayers sets the number of GPU layers to use to offload computation
+func SetGPULayers(n int) ModelOption {
+    return func(p *ModelOptions) {
+        p.NGPULayers = n
+    }
+}
+
+// SetTokenCallback sets the prompts that will stop predictions.
+func SetTokenCallback(fn func(string) bool) PredictOption {
+    return func(p *PredictOptions) {
+        p.TokenCallback = fn
+    }
+}
+
+// SetStopWords sets the prompts that will stop predictions.
+func SetStopWords(stop ...string) PredictOption {
+    return func(p *PredictOptions) {
+        p.StopPrompts = stop
+    }
+}
+
+// SetSeed sets the random seed for sampling text generation.
+func SetSeed(seed int) PredictOption {
+    return func(p *PredictOptions) {
+        p.Seed = seed
+    }
+}
+
+// SetThreads sets the number of threads to use for text generation.
+func SetThreads(threads int) PredictOption {
+    return func(p *PredictOptions) {
+        p.Threads = threads
+    }
+}
+
+// SetTokens sets the number of tokens to generate.
+func SetTokens(tokens int) PredictOption {
+    return func(p *PredictOptions) {
+        p.Tokens = tokens
+    }
+}
+
+// SetTopK sets the value for top-K sampling.
+func SetTopK(topk int) PredictOption {
+    return func(p *PredictOptions) {
+        p.TopK = topk
+    }
+}
+
+// SetTopP sets the value for nucleus sampling.
+func SetTopP(topp float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.TopP = topp
+    }
+}
+
+// SetTemperature sets the temperature value for text generation.
+func SetTemperature(temp float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.Temperature = temp
+    }
+}
+
+// SetPathPromptCache sets the session file to store the prompt cache.
+func SetPathPromptCache(f string) PredictOption {
+    return func(p *PredictOptions) {
+        p.PathPromptCache = f
+    }
+}
+
+// SetPenalty sets the repetition penalty for text generation.
+func SetPenalty(penalty float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.Penalty = penalty
+    }
+}
+
+// SetRepeat sets the number of times to repeat text generation.
+func SetRepeat(repeat int) PredictOption {
+    return func(p *PredictOptions) {
+        p.Repeat = repeat
+    }
+}
+
+// SetBatch sets the batch size.
+func SetBatch(size int) PredictOption {
+    return func(p *PredictOptions) {
+        p.Batch = size
+    }
+}
+
+// SetKeep sets the number of tokens from initial prompt to keep.
+func SetNKeep(n int) PredictOption {
+    return func(p *PredictOptions) {
+        p.NKeep = n
+    }
+}
+
+// Create a new PredictOptions object with the given options.
+func NewPredictOptions(opts ...PredictOption) PredictOptions {
+    p := DefaultOptions
+    for _, opt := range opts {
+        opt(&p)
+    }
+    return p
+}
+
+// SetTailFreeSamplingZ sets the tail free sampling, parameter z.
+func SetTailFreeSamplingZ(tfz float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.TailFreeSamplingZ = tfz
+    }
+}
+
+// SetTypicalP sets the typicality parameter, p_typical.
+func SetTypicalP(tp float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.TypicalP = tp
+    }
+}
+
+// SetFrequencyPenalty sets the frequency penalty parameter, freq_penalty.
+func SetFrequencyPenalty(fp float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.FrequencyPenalty = fp
+    }
+}
+
+// SetPresencePenalty sets the presence penalty parameter, presence_penalty.
+func SetPresencePenalty(pp float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.PresencePenalty = pp
+    }
+}
+
+// SetMirostat sets the mirostat parameter.
+func SetMirostat(m int) PredictOption {
+    return func(p *PredictOptions) {
+        p.Mirostat = m
+    }
+}
+
+// SetMirostatETA sets the mirostat ETA parameter.
+func SetMirostatETA(me float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.MirostatETA = me
+    }
+}
+
+// SetMirostatTAU sets the mirostat TAU parameter.
+func SetMirostatTAU(mt float32) PredictOption {
+    return func(p *PredictOptions) {
+        p.MirostatTAU = mt
+    }
+}
+
+// SetPenalizeNL sets whether to penalize newlines or not.
+func SetPenalizeNL(pnl bool) PredictOption {
+    return func(p *PredictOptions) {
+        p.PenalizeNL = pnl
+    }
+}
+
+// SetLogitBias sets the logit bias parameter.
+func SetLogitBias(lb string) PredictOption {
+    return func(p *PredictOptions) {
+        p.LogitBias = lb
+    }
+}