Почему разделение строки медленнее в C++ , чем в Python?

Question

Почему разделение строки медленнее в C++ , чем в Python?

Я пытаюсь преобразовать некоторый код из Python в C++, чтобы получить немного скорости и отточить свои ржавые навыки C++. Вчера я был потрясен, когда наивная реализация чтения строк из stdin была намного быстрее в Python, чем в C++ (см. этой). Сегодня я, наконец, понял, как разделить строку в C++ с помощью слияния разделителей (аналогичная семантика для разделения python ()), и теперь испытываю дежавю! Мой код на C++ занимает гораздо больше времени, чтобы сделать работу (хотя и не на порядок больше, как это было на вчерашнем уроке).

Python-Кода:

#!/usr/bin/env python

from __future__ import print_function                                            

import time

import sys



count = 0

start_time = time.time()

dummy = None



for line in sys.stdin:

    dummy = line.split()

    count += 1



delta_sec = int(time.time() - start_time)

print("Python: Saw {0} lines in {1} seconds. ".format(count, delta_sec), end='')

if delta_sec > 0:

    lps = int(count/delta_sec)

    print("  Crunch Speed: {0}".format(lps))

else:

    print('')

C++ Код:

#include <iostream>                                                              

#include <string>

#include <sstream>

#include <time.h>

#include <vector>



using namespace std;



void split1(vector<string> &tokens, const string &str,

        const string &delimiters = " ") {

    // Skip delimiters at beginning

    string::size_type lastPos = str.find_first_not_of(delimiters, 0);



    // Find first non-delimiter

    string::size_type pos = str.find_first_of(delimiters, lastPos);



    while (string::npos != pos || string::npos != lastPos) {

        // Found a token, add it to the vector

        tokens.push_back(str.substr(lastPos, pos - lastPos));

        // Skip delimiters

        lastPos = str.find_first_not_of(delimiters, pos);

        // Find next non-delimiter

        pos = str.find_first_of(delimiters, lastPos);

    }

}



void split2(vector<string> &tokens, const string &str, char delim=' ') {

    stringstream ss(str); //convert string to stream

    string item;

    while(getline(ss, item, delim)) {

        tokens.push_back(item); //add token to vector

    }

}



int main() {

    string input_line;

    vector<string> spline;

    long count = 0;

    int sec, lps;

    time_t start = time(NULL);



    cin.sync_with_stdio(false); //disable synchronous IO



    while(cin) {

        getline(cin, input_line);

        spline.clear(); //empty the vector for the next line to parse



        //I'm trying one of the two implementations, per compilation, obviously:

//        split1(spline, input_line);  

        split2(spline, input_line);



        count++;

    };



    count--; //subtract for final over-read

    sec = (int) time(NULL) - start;

    cerr << "C++   : Saw " << count << " lines in " << sec << " seconds." ;

    if (sec > 0) {

        lps = count / sec;

        cerr << "  Crunch speed: " << lps << endl;

    } else

        cerr << endl;

    return 0;



//compiled with: g++ -Wall -O3 -o split1 split_1.cpp

обратите внимание, что я пробовал две разные реализации разделения. Один (split1) использует строковые методы для поиска токенов и способен объединять несколько токенов, а также обрабатывать многочисленные токены (он происходит от здесь). Второй (split2) использует getline для чтения строки в виде потока, не сливается разделители, и поддерживает только один разделитель, символ (который был написал нескольким пользователям в сайте StackOverflow ответы на вопросы разбиения строки).

я запускал это несколько раз в разных порядках. Моя тестовая машина-это Macbook Pro (2011, 8GB, Quad Core), не то, чтобы это имело большое значение. Я тестирую 20-метровый текстовый файл с тремя разделенными пробелами столбцами, каждый из которых похож на это: "foo.бар 127.0.0.1 жилище.foo.бар"

результаты:

$ /usr/bin/time cat test_lines_double | ./split.py

       15.61 real         0.01 user         0.38 sys

Python: Saw 20000000 lines in 15 seconds.   Crunch Speed: 1333333

$ /usr/bin/time cat test_lines_double | ./split1

       23.50 real         0.01 user         0.46 sys

C++   : Saw 20000000 lines in 23 seconds.  Crunch speed: 869565

$ /usr/bin/time cat test_lines_double | ./split2

       44.69 real         0.02 user         0.62 sys

C++   : Saw 20000000 lines in 45 seconds.  Crunch speed: 444444

что я делаю не так? Есть ли лучший способ сделать разделение строк в C++, который не зависит от внешних библиотек (т. е. без повышения), поддерживает слияние последовательностей разделителей (например, разделение python), является потокобезопасным (поэтому нет strtok) и чья производительность, по крайней мере, на одном уровне с python?

Редактировать 1 / Частичное Решение?:

Я попытался сделать его более справедливым сравнением, имея python сбрасывает фиктивный список и добавляет к нему каждый раз, как это делает C++. Это еще не совсем то, что код на C++, но это немного ближе. В принципе, цикл теперь:

for line in sys.stdin:

    dummy = []

    dummy += line.split()

    count += 1

производительность python теперь примерно такая же, как и реализация split1 C++.

/usr/bin/time cat test_lines_double | ./split5.py

       22.61 real         0.01 user         0.40 sys

Python: Saw 20000000 lines in 22 seconds.   Crunch Speed: 909090

Я все еще удивлен, что, даже если Python настолько оптимизирован для обработки строк (как предложил Мэтт Столяр), что эти реализации C++ не будут быстрее. Если у кого есть идеи по поводу как сделать это более оптимальным способом с помощью C++, пожалуйста, поделитесь своим кодом. (Я думаю, что мой следующий шаг будет пытаться реализовать это в чистом C, хотя я не собираюсь отказываться от производительности программиста, чтобы повторно реализовать мой общий проект на C, так что это будет просто эксперимент для скорости разделения строк.)

спасибо всем за помощь.

Окончательное Редактирование/Решение:

пожалуйста, смотрите принятый ответ Альфа. Поскольку python имеет дело со строками строго по ссылке и строки STL часто копируются, производительность лучше с реализациями vanilla python. Для сравнения, я скомпилировал и запустил свои данные через код Alf, и вот производительность на той же машине, что и все другие запуски, по существу идентичная наивной реализации python (хотя и быстрее, чем реализация python, которая сбрасывает/добавляет список, как показано в приведенном выше редактировании):

$ /usr/bin/time cat test_lines_double | ./split6

       15.09 real         0.01 user         0.45 sys

C++   : Saw 20000000 lines in 15 seconds.  Crunch speed: 1333333

моя единственная небольшая оставшаяся жалоба касается количества код, необходимый для выполнения C++ в этом случае.

один из уроков здесь из этой проблемы и вчерашней проблемы чтения строки stdin (связанной выше) заключается в том, что всегда следует проверять, а не делать наивные предположения об относительной производительности языков "по умолчанию". Я ценю ваше образование.

еще раз спасибо всем за ваши предложения!

858 8

python c++string split benchmarking

8 ответов:

Comments

Ничего не найдено.

Cheers and hth. - Alf · Accepted Answer · 2015-02-12 07:24:02

как предположение, строки Python являются ссылочными подсчитанными неизменяемыми строками, так что никакие строки не копируются в коде Python, в то время как C++ std::string является изменяемым типом значения и копируется при малейшей возможности.

Если целью является быстрое расщепление, то можно было бы использовать операции подстроки с постоянным временем, что означает только ссыль к частям исходной строки, как в Python (и Java, и C#...).

C++ std::string класс имеет одно преимущество особенность, однако: это стандартный, так что его можно использовать для безопасной и переносимой передачи строк там, где эффективность не является главным соображением. Но хватит болтать. Код -- и на моей машине это, конечно, быстрее, чем Python, так как обработка строк Python реализована в C, который является подмножеством C++ (he he):
#include <iostream>                                                              
#include <string>
#include <sstream>
#include <time.h>
#include <vector>

using namespace std;

class StringRef
{
private:
    char const*     begin_;
    int             size_;

public:
    int size() const { return size_; }
    char const* begin() const { return begin_; }
    char const* end() const { return begin_ + size_; }

    StringRef( char const* const begin, int const size )
        : begin_( begin )
        , size_( size )
    {}
};

vector<StringRef> split3( string const& str, char delimiter = ' ' )
{
    vector<StringRef>   result;

    enum State { inSpace, inToken };

    State state = inSpace;
    char const*     pTokenBegin = 0;    // Init to satisfy compiler.
    for( auto it = str.begin(); it != str.end(); ++it )
    {
        State const newState = (*it == delimiter? inSpace : inToken);
        if( newState != state )
        {
            switch( newState )
            {
            case inSpace:
                result.push_back( StringRef( pTokenBegin, &*it - pTokenBegin ) );
                break;
            case inToken:
                pTokenBegin = &*it;
            }
        }
        state = newState;
    }
    if( state == inToken )
    {
        result.push_back( StringRef( pTokenBegin, &*str.end() - pTokenBegin ) );
    }
    return result;
}

int main() {
    string input_line;
    vector<string> spline;
    long count = 0;
    int sec, lps;
    time_t start = time(NULL);

    cin.sync_with_stdio(false); //disable synchronous IO

    while(cin) {
        getline(cin, input_line);
        //spline.clear(); //empty the vector for the next line to parse

        //I'm trying one of the two implementations, per compilation, obviously:
//        split1(spline, input_line);  
        //split2(spline, input_line);

        vector<StringRef> const v = split3( input_line );
        count++;
    };

    count--; //subtract for final over-read
    sec = (int) time(NULL) - start;
    cerr << "C++   : Saw " << count << " lines in " << sec << " seconds." ;
    if (sec > 0) {
        lps = count / sec;
        cerr << "  Crunch speed: " << lps << endl;
    } else
        cerr << endl;
    return 0;
}

//compiled with: g++ -Wall -O3 -o split1 split_1.cpp -std=c++0x
отказ от ответственности: я надеюсь, нет никаких ошибок. Я не проверял функциональность, а только проверял скорость. Но я думаю, даже если есть ошибка или во-вторых, исправление этого не будет существенно влиять на скорость.

tobbez · Accepted Answer · 2012-03-11 20:58:16

Я не предоставляю никаких лучших решений (по крайней мере, с точки зрения производительности), но некоторые дополнительные данные, которые могут быть интересны.

используя strtok_r (реентерабельный вариант strtok):
void splitc1(vector<string> &tokens, const string &str,
        const string &delimiters = " ") {
    char *saveptr;
    char *cpy, *token;

    cpy = (char*)malloc(str.size() + 1);
    strcpy(cpy, str.c_str());

    for(token = strtok_r(cpy, delimiters.c_str(), &saveptr);
        token != NULL;
        token = strtok_r(NULL, delimiters.c_str(), &saveptr)) {
        tokens.push_back(string(token));
    }

    free(cpy);
}
дополнительно используя символьные строки для параметров, и fgets для ввода:
void splitc2(vector<string> &tokens, const char *str,
        const char *delimiters) {
    char *saveptr;
    char *cpy, *token;

    cpy = (char*)malloc(strlen(str) + 1);
    strcpy(cpy, str);

    for(token = strtok_r(cpy, delimiters, &saveptr);
        token != NULL;
        token = strtok_r(NULL, delimiters, &saveptr)) {
        tokens.push_back(string(token));
    }

    free(cpy);
}
и, в некоторых случаях, когда уничтожение входной строки допустимо:
void splitc3(vector<string> &tokens, char *str,
        const char *delimiters) {
    char *saveptr;
    char *token;

    for(token = strtok_r(str, delimiters, &saveptr);
        token != NULL;
        token = strtok_r(NULL, delimiters, &saveptr)) {
        tokens.push_back(string(token));
    }
}
тайминги для этих следующим образом (включая мои результаты для другого варианты из вопроса и принятого ответа):
split1.cpp:  C++   : Saw 20000000 lines in 31 seconds.  Crunch speed: 645161
split2.cpp:  C++   : Saw 20000000 lines in 45 seconds.  Crunch speed: 444444
split.py:    Python: Saw 20000000 lines in 33 seconds.  Crunch Speed: 606060
split5.py:   Python: Saw 20000000 lines in 35 seconds.  Crunch Speed: 571428
split6.cpp:  C++   : Saw 20000000 lines in 18 seconds.  Crunch speed: 1111111

splitc1.cpp: C++   : Saw 20000000 lines in 27 seconds.  Crunch speed: 740740
splitc2.cpp: C++   : Saw 20000000 lines in 22 seconds.  Crunch speed: 909090
splitc3.cpp: C++   : Saw 20000000 lines in 20 seconds.  Crunch speed: 1000000
как мы видим, решение принято отвечать еще быстрее.

для тех, кто хотел бы сделать дальнейшие тесты, я также выставил РЕПО Github со всеми программами из вопроса, принятого ответа, этого ответа и дополнительно Makefile и скрипт для генерации тестовых данных:https://github.com/tobbez/string-splitting.

Vite Falcon · Accepted Answer · 2012-02-21 17:11:31

Я подозреваю, что это из-за пути std::vector изменяется в процессе вызова функции push_back (). Если вы попытаетесь использовать std::list или std::vector::reserve() чтобы зарезервировать достаточно места для предложений, вы должны получить гораздо лучшую производительность. Или вы можете использовать комбинацию обоих, как показано ниже для split1 ():
void split1(vector<string> &tokens, const string &str,
        const string &delimiters = " ") {
    // Skip delimiters at beginning
    string::size_type lastPos = str.find_first_not_of(delimiters, 0);

    // Find first non-delimiter
    string::size_type pos = str.find_first_of(delimiters, lastPos);
    list<string> token_list;

    while (string::npos != pos || string::npos != lastPos) {
        // Found a token, add it to the list
        token_list.push_back(str.substr(lastPos, pos - lastPos));
        // Skip delimiters
        lastPos = str.find_first_not_of(delimiters, pos);
        // Find next non-delimiter
        pos = str.find_first_of(delimiters, lastPos);
    }
    tokens.assign(token_list.begin(), token_list.end());
}
EDIT: другая очевидная вещь, которую я вижу, это переменная Python dummy получает назначен каждый раз, но не изменен. Так что это не справедливое сравнение с C++. Вы должны попробовать изменить свой код Python, чтобы быть dummy = [] инициализировать его, а затем сделать dummy += line.split(). Можете ли вы сообщить о времени выполнения после этого?

EDIT2: чтобы сделать его еще более справедливым, вы можете изменить цикл while в коде C++ следующим образом:
    while(cin) {
        getline(cin, input_line);
        std::vector<string> spline; // create a new vector

        //I'm trying one of the two implementations, per compilation, obviously:
//        split1(spline, input_line);  
        split2(spline, input_line);

        count++;
    };

JiaHao Xu · Accepted Answer · 2018-05-07 14:54:15

Я думаю, что следующий код лучше, используя некоторые функции C++17 и C++14:
// These codes are un-tested when I write this post, but I'll test it
// When I'm free, and I sincerely welcome others to test and modify this
// code.

// C++17
#include <istream>     // For std::istream.
#include <string_view> // new feature in C++17, sizeof(std::string_view) == 16 in libc++ on my x86-64 debian 9.4 computer.
#include <string>
#include <utility>     // C++14 feature std::move.

template <template <class...> class Container, class Allocator>
void split1(Container<std::string_view, Allocator> &tokens, 
            std::string_view str,
            std::string_view delimiter = " ") 
{
    /* 
     * The model of the input string:
     *
     * (optional) delimiter | content | delimiter | content | delimiter| 
     * ... | delimiter | content 
     *
     * Using std::string::find_first_not_of or 
     * std::string_view::find_first_not_of is a bad idea, because it 
     * actually does the following thing:
     * 
     *     Finds the first character not equal to any of the characters 
     *     in the given character sequence.
     * 
     * Which means it does not treeat your delimiters as a whole, but as
     * a group of characters.
     * 
     * This has 2 effects:
     *
     *  1. When your delimiters is not a single character, this function
     *  won't behave as you predicted.
     *
     *  2. When your delimiters is just a single character, the function
     *  may have an additional overhead due to the fact that it has to 
     *  check every character with a range of characters, although 
     * there's only one, but in order to assure the correctness, it still 
     * has an inner loop, which adds to the overhead.
     *
     * So, as a solution, I wrote the following code.
     *
     * The code below will skip the first delimiter prefix.
     * However, if there's nothing between 2 delimiter, this code'll 
     * still treat as if there's sth. there.
     *
     * Note: 
     * Here I use C++ std version of substring search algorithm, but u
     * can change it to Boyer-Moore, KMP(takes additional memory), 
     * Rabin-Karp and other algorithm to speed your code.
     * 
     */

    // Establish the loop invariant 1.
    typename std::string_view::size_type 
        next, 
        delimiter_size = delimiter.size(),  
        pos = str.find(delimiter) ? 0 : delimiter_size;

    // The loop invariant:
    //  1. At pos, it is the content that should be saved.
    //  2. The next pos of delimiter is stored in next, which could be 0
    //  or std::string_view::npos.

    do {
        // Find the next delimiter, maintain loop invariant 2.
        next = str.find(delimiter, pos);

        // Found a token, add it to the vector
        tokens.push_back(str.substr(pos, next));

        // Skip delimiters, maintain the loop invariant 1.
        //
        // @ next is the size of the just pushed token.
        // Because when next == std::string_view::npos, the loop will
        // terminate, so it doesn't matter even if the following 
        // expression have undefined behavior due to the overflow of 
        // argument.
        pos = next + delimiter_size;
    } while(next != std::string_view::npos);
}   

template <template <class...> class Container, class traits, class Allocator2, class Allocator>
void split2(Container<std::basic_string<char, traits, Allocator2>, Allocator> &tokens, 
            std::istream &stream,
            char delimiter = ' ')
{
    std::string<char, traits, Allocator2> item;

    // Unfortunately, std::getline can only accept a single-character 
    // delimiter.
    while(std::getline(stream, item, delimiter))
        // Move item into token. I haven't checked whether item can be 
        // reused after being moved.
        tokens.push_back(std::move(item));
}
выбор контейнера:

std::vector.

предполагая, что начальный размер выделенного внутреннего массива равен 1, а конечный размер - N, вы будете выделять и освобождать для log2(N) раз, и вы будете копировать (2 ^ (log2(N) + 1) - 1) = (2N-1) раз. Как указано в это плохая производительность std:: vector из-за не вызова перераспределить логарифмическое число раз?, это может иметь плохие показатели, когда размер вектора непредсказуем и может быть очень большим. Но, если вы можете оценить его размер, это будет меньше проблем.

std::list.

для каждого push_back время, которое он потребляет, является константой, но это, вероятно, займет больше времени, чем std::vector на отдельном push_back. Использование пула памяти для каждого потока и пользовательского распределителя может облегчить эту задачу проблема.

std::forward_list.

то же, что и std::list, но занимают меньше памяти на элемент. Требуется класс-оболочка для работы из-за отсутствия API push_back.

std::array.

если вы можете знать предел роста, то вы можете использовать std::array. Конечно, вы не можете использовать его напрямую, так как он не имеет API для push_back. Но вы можете определить обертку, и я думаю, что это самый быстрый способ здесь и может сэкономить немного памяти если ваша оценка достаточно точна.

std::deque.

эта опция позволяет торговать памятью для повышения производительности. Там не будет (2 ^ (N + 1) - 1) раз копия элемента, просто N раз распределение, и нет освобождения. Кроме того, вы будете иметь постоянное время произвольного доступа и возможность добавлять новые элементы на обоих концах.

по данным std:: deque-cppreference

С другой стороны, двухсторонних очередей, как правило, имеют большие минимальные затраты памяти; deque холдинг только один элемент должен выделить свой полный внутренний массив (например, 8 раз размер объекта на 64-разрядной libstdc++; 16 раз размер объекта или 4096 байт, в зависимости от того, что больше, на 64-битном libc++)

или вы можете использовать комбинацию из этих:

std::vector< std::array<T, 2 ^ M> >

это похоже на std:: deque, разница только в том, что этот контейнер не поддерживает добавление элемента спереди. Но он все еще быстрее по производительности, из - за того, что он не будет копировать базовый массив std::array для (2 ^ (N + 1) - 1) раз, он просто скопирует массив указателей для (2 ^ (N - M + 1) - 1) раз и выделяет новый массив только тогда, когда ток заполнен и не нужно ничего освобождать. Кстати, вы можете получить постоянное время произвольного доступа.

std::list< std::array<T, ...> >

значительно облегчите давление framentation памяти. Он будет выделять только новый массив, когда ток полный, и не нужно ничего копировать. Вам все равно придется заплатить цену за дополнительный указатель, связанный с combo 1.

std::forward_list< std::array<T, ...> >

то же самое, что и 2, но стоит той же памяти, что и комбо 1.

Matt Joiner · Accepted Answer · 2017-05-23 15:10:11

Вы делаете ошибочное предположение, что выбранная реализация c++ обязательно быстрее, чем в Python. Обработка строк в Python оптимизирован. См. этот вопрос для получения дополнительной информации:почему std:: string операции выполняются плохо?

Paul Beckingham · Accepted Answer · 2012-03-12 01:00:51

Если вы возьмете реализацию split1 и измените подпись, чтобы она более точно соответствовала подписи split2, изменив это:
void split1(vector<string> &tokens, const string &str, const string &delimiters = " ")
для этого:
void split1(vector<string> &tokens, const string &str, const char delimiters = ' ')
вы получаете более резкую разницу между split1 и split2, и более справедливое сравнение:
split1  C++   : Saw 10000000 lines in 41 seconds.  Crunch speed: 243902
split2  C++   : Saw 10000000 lines in 144 seconds.  Crunch speed: 69444
split1' C++   : Saw 10000000 lines in 33 seconds.  Crunch speed: 303030

n.m. · Accepted Answer · 2012-02-22 07:32:48

void split5(vector<string> &tokens, const string &str, char delim=' ') {

    enum { do_token, do_delim } state = do_delim;
    int idx = 0, tok_start = 0;
    for (string::const_iterator it = str.begin() ; ; ++it, ++idx) {
        switch (state) {
            case do_token:
                if (it == str.end()) {
                    tokens.push_back (str.substr(tok_start, idx-tok_start));
                    return;
                }
                else if (*it == delim) {
                    state = do_delim;
                    tokens.push_back (str.substr(tok_start, idx-tok_start));
                }
                break;

            case do_delim:
                if (it == str.end()) {
                    return;
                }
                if (*it != delim) {
                    state = do_token;
                    tok_start = idx;
                }
                break;
        }
    }
}

Alex Collins · Accepted Answer · 2017-05-23 15:02:42

Я подозреваю, что это связано с буферизацией на sys.stdin в Python, но без буферизации в реализации C++.

см. это сообщение для получения подробной информации о том, как изменить размер буфера, а затем повторите попытку сравнения: установка меньшего размера буфера для sys.как stdin?