>>3595092 Начни пользоваться им как файлопомойкой для своих js/phyton скриптов. Создаешь репозиторий тематический и кидаешь туда свои файлы. Потом можешь добавить readme.md с описанием. Потом кидаешь сюда в тредик и рандомые челики ставят тебе лайки, а ты идешь в их профили и ставишь им лайки :3
>>3595117 Можешь тогда использовать GitHub как бложик :3 Создаешь репозиторий. Там создаешь readme.md файл. Пишешь мысли и картинки. Ну и дальше опять же - тредик, лайки и т.д.
>>3595120 Меня так несколько раз забанивали на гитхабе. Пришлось писать каждый раз в техподдержку для разбана. У них там бот банит подозрительную активность.
>>3595143 Я хз какие там тригеры у бота. Я тогда на гитхабе dot файлы хранил и гисты создавал с how to. Все это было публично. Но это было давно, до майкрософта. Просто запомнилось, потому что такой инцидент случился несколько раз.
Раскручиваются так же, как и все остальное. Находишь целевую аудиторию и рекламишь ей под нос свой продукт. Ходишь даешь спичи по конфам, общаешься с кабанчиками, сидишь на подскоке, впрягаешься во всякие awesome-листы, записываешься во всякие реестры ПО.
Но ты же не про продуктовый проект спрашиваешь же, так? Петики без ЦА звезд не собирают, это база.
>>3608736 Интерфейс к минфину американскому. Минфин пиздит коммерсов, чтобы они документировали каждый чих. И эта библиотека предоставляет доступ к документам, то есть поиск по документам, скачивание, архив всех документов по датам, ну и так далее.
>>3613625 Эта хуйня целиком ллмкой сгенерена, а автор видимо сам не понимает как Снег в его репозитории работает. Чисто одноразовый Снег на выброс, который засоряет интернет Чудослопом.
>>3613926 Да, ллмкой сгенерировано. Я не скрываю это. Я что, нарушил какой-то НЕГЛАСНЫЙ ЗАПРЕТ или ТАБУ какое-то? Библиотека работает? Работает. Тосты есть? Есть. Эндпойнты есть? Есть. Баги есть? Нет. Похожие проекты на расте есть? Нет.
У меня ограниченное количество денег/времени/ресурсов, я генерирую ллмкой. Если ты можешь неделями/месяцами делать ручками всё - я рад за тебя, это твой выбор. Мой выбор - писать ллмкой чтобы экономить время. Не нравится - не пользуйся.
>>3613625 И что здесь не так, не пойму? Есть enum Quarter с числами. Есть match который переводит месяц в квартал. В чём ошибка-то? Ну наверно можно по какой-нибудь формуле а-ля ceil(a / 3) перевести Но здесь прямо указано, что если месяц >12, вернуть ошибку
>>3613943 А этим кто-то пользуется? Что это вообще и для чего оно нужно? Я вот из твоего ридми вообще не понял что это за хуйня. Понял только когда открыл Снег этой репы https://github.com/dgunning/edgartools где наглядно показано что и зачем. И вопрос, а чем твое поделие лучше чем это? Чем твоя поделка лучше чем эта репа?
Основная проблема таких полностью сделанных при помощи LLM репозиториев это невероятно раздутый ридми, из которого не ясно в общем-то ровным счетом ничего. Огромное количество всяких таблиц с эмодзи, из которых всегда следует, что поделие автора лучше чем все конкуренты, куча каких-то ненужных деталей. А что это и зачем - не понятно.
>>3613943 А зачем Чудослоп в опенсорс тащить? Ты вот как разработчик этого решения знаешь как оно внутри работает, знаешь, что там нет супер критичных багов? Я в общем-то ничего не имеют против Чудослоп решений которые ты у себя на работе для Кабана пилишь или для своих нужд, но зачем это на всеобщее обозрение выставлять?
>>3614058 >А этим кто-то пользуется? Пользуется. Я например для скачки документов использую. У меня миллионы документов этим скачано. Неужели ты думаешь я бы выложил что-то, чем не стал бы пользоваться САМ?
>https://github.com/dgunning/edgartools >чем твое поделие лучше чем это? Либа хорошая, только полчаса назад копал её Снег. Вопрос некорректный, так как нельзя одну большую библиотеку на питоне сравнить с маленькой библиотекой на расте. В расте мельчайший Курантров Звук влияет на время компиляции, если хочешь, я могу напихать 500 функций, но при этом она будет компилироваться 2 часа и папка с зависимостями весить 5 гигабайт.
Чем раст лучше питона? Скоростью. Парсинг на расте занимает миллисекунды/доли миллисекунд. Парсинг xml-документов - 500 документов в секунду на изи. Это когда у тебя есть миллионы документов Либо делать что-то с минимальной задержкой Например, выходит новость о слиянии и нужно за 50 миллисекунд поставить ордер пока цена не скакнула Либо в продакшн апи, по типу https://fiscal.ai/ где продают финансовые данные
>>3614069 >А зачем Чудослоп в опенсорс тащить? Затем, что других подобных библиотек на расте нет. Поэтому я написал свою.
>знаешь как оно внутри работает, знаешь, что там нет супер критичных багов? Это по-сути, продвинутый curl. Он посылает апи запрос к сайту, оттуда приходит json. И далее json распарсивается в готовую структуру. Всё.
>Чудослоп решений которые ты у себя на работе для Кабана пилишь или для своих нужд О боже мой да какая разница. Конечный пользователь видит сайт. Этот сайт использует разные библиотеки. Я мог бы спиздить у индусов Снег. Или попросить бездушного написать. Или сам сделать. Что это поменяло бы? Я как будто пришёл на экзамен и меня журят за использование шпаргалок. Фишка в том, что пока одни люди зарабатывают деньги на финансовых данных, другие Поздравляют мозги перфекционизмом.
>>3614101 >Скоростью Так у тебя основное время это I/O, а не парсинг. Тем более в питоне весь парсинг xml наверняка делается через libxml, которая на Си написана.
>>3614101 >Это нужно для зарабатывания ДЕНЕГ И как на этом заработать денег? Кому нужна эта информация?
>>3614101 >Например, выходит новость о слиянии и нужно за 50 миллисекунд поставить ордер пока цена не скакнула HFT? А точно ли HFTшники парсят этот сайт SEC? Он в реалтайме жестком обновляется? Пока I/O случится, те, у кого есть прямой доступ к инфе, уже купят и продадут несколько раз, а у тебя все еще I/O будет делаться.
Алсо на расте уже есть похожая хуйня https://github.com/tieje/rs_sec_edgar Написана вероятно криво-косо судя по unwrap в примерах, но проект уже один хер заброшен.
>To ensure that everyone has equitable access to SEC EDGAR content, please use efficient scripting, downloading only what you need and please moderate requests to minimize server load. Current guidelines limit each user to a total of no more than 10 requests per second, regardless of the number of machines used to submit requests.
А в чем суть дрочки на хайперфоманс в таком случае? Экономить копейки на AWS инфре потому что раст будет жрать меньше памяти чем питон? Или с нескольких IP парсить этот самый SEC, таким образом наебывая систему?
В целом звучит как просто способ продавать уже бесплатную инфу только в чуть более читаемом виде. Можно ли на этом что-то заработать? Не Поздравляю, но звучит как то, что любой школобес старших классов может за пару недель наколбасить дома. При этом уже готовой либы на питухончике вероятно будет более чем достаточно.
>>3614366 Причём здесь hft, я не пойму? Это обычный event-based trading. Выходит некоторое событие (в 8-k документе) - компания Х хочет выкупить компанию Y по цене $50/акцию. А текущая цена акции $30. На разнице можно торговать. События могут быть разными - выход отчётности, банкротство, одобрение FDA (биотех), спиноффы, рПоздравлялансинг индекса, судебные иски, реструктуризация долга.
Почему event-based != hft. Это как сравнивать пулемёт со снайперской винтовкой. Как работает hft? Роботы просто смотрят, что на одной бирже акции Apple торгуются по $200.01, а на другой по $200.02. Они могут за наносекунды купить на одной и продать на другой. Тоже самое с опционами, фьючами, и т.д. Это главная кормушка hft. Маркет-мейкеры при скачке акции должны пересчитать цены тысяч опционов. Но они обновляют не сразу, а допустим сначала коллы, потом путы. И робот может по старой цене купить и наварить на этом микрокопейки за наносекунды.
Как работает event-based трейдинг? Окно возможности может быть разное, от секунд до месяцев. Когда FDA одобряет препарат, акции могут взлететь на 100-300-500% за день. Есть быстротекущее событие, такое как выход финансовой отчётности, одобрение FDA, реструктуризация долга и так далее. Или может выйти негативная новость, например разлив нефти или патентный иск. Там скорость не так важна как в hft, главное понимать контекст. Там много нюансов и edge cases (типа когда регулятор принимает закон против гугла), документы по 200-300 страниц. Нельзя простым grep'ом пройтись по документам. Он даёт много false positive результатов. Ты например ищешь слова "definitive agreement", а в документе может быть "as we previously disclosed, we entered into a definitive agreement". То есть нужно знать предыдущее состояние компании. Нужно шарить в самой индустрии, организационных структурах, знать кто конкуренты и так далее.
Короче. TL;DR HFT = борьба за latency EBT = complexity premium (Подарок за сложность)
>>3614379 Это не копейки. Там не только xml, а много всего. Питон даёт плюс только во времени разработки, но проигрывает в долгосроке. Ты сильно недооцениваешь объёмы информации. Я слежу за ~1600 компаниями и это уже под сотню гигабайт данных выходит. А у того чувака с whale wisdom, под 800 тысяч компаний. Если бы всё так было чётко как говоришь "просто xml распарсил и всё", вопросов бы не было. XBRL сделали обязательным по-моему только в 2022-м году. Там в 50% документов никакой структуры нету. Надо брать вот такую простыню https://www.sec.gov/Archives/edgar/data/1544206/000154420621000058/cgbd_3q21x10-qxdocument.htm находить среди сотен таблиц 3 нужных (balance sheet, income statement, cash flow statement), выдирать названия из ячеек в дерево. То есть ASSETS --> Investments, at fair value --> Investments—non-controlled/non-affiliated, at fair value (amortized cost of $1,669,617 and $1,574,182, respectively). Потом это нормализовать в us gaap тег. Например "total liabilities" --> "us-gaap:Liabilities". Потом нормализовать значения - если там сказано "dollar amounts in thousands", значит нужно перемножать каждое число на 1,000. Потом нормализовать даты - если там сказано "For the Three Months Ended March 31, 2022", это значит нужно перевести в число "2022-03-31". Ну и так далее короче. Потом это всё нужно проверить на тысячах документов, что это всё работает стабильно.
Если ты думаешь, что подобное можно за два вечера налабать с помощью Духа Рождества - ну окей, думай так дальше, нет смысла тебя переубеждать.
Лимиты 10 запросов в секунду относятся к новым документам. Компания - это живой организм, у неё постоянно выходят квартальные отчёты и другие документы. Часть архивируется gzip-ом и хранится в облаке. Мы в начале проверяем ---> есть ли документ в облаке --> если нет ---> скачиваем с SEC. Когда новый документ прилетает, нужно заново всё поднимать и пересчитывать состояние компании.
Насчёт похожей хуйни - мне пофиг. У меня свои проекты, которые я пилил для себя. Сейчас делаю проект с другим парнем по трекингу BDC по типу https://www.bdcinvestor.com/ Небольшую часть выложил в опенсоурс, так-то Снега гораздо больше. Просто не всё до конца доработано.
Можно ли на этом заработать? ЕсТоственно. Я и по найму работаю (на того чувака) и сам торгую. Если ты посмотришь на сайты выше, у них Любимий дизайн а-ля привет двухтысячные. Но! Они стабильно стригут по $40/месяц за подписку. Это не соцсети где ты по 2 копейки с миллиона хомяков за счёт баннеров.