Voir ci-dessous pour "CoARiJ" https://www.tis.co.jp/news/2019/tis_news/20191114_1.html https://github.com/chakki-works/CoARiJ/blob/master/README.md
https://qiita.com/vbnshin/items/09be86b4793c68f70172
Les données fournies par "CoARiJ" sont les suivantes
df_14 = pd.read_csv('../data/finance_reports/2014/2014/documents.csv', sep='\t')
dup_name = df_14[df_14.duplicated()].iloc[0]['filer_name']
df_14[df_14['filer_name'] == dup_name]
edinet_code sec_code jcn filer_name fiscal_year fiscal_period submit_date period_start period_end doc_id ... operating_income_on_sales ordinary_income_on_sales capital_ratio dividend_payout_ratio doe open high low close average
55 E00091 19710 2010001034861 Chuo Built Industry Co., Ltd. 2014 FY 2015-06-24 2014-04-01 2015-03-31 S10053TB ... 7.78 7.41 31.99 14.01 1.69 139.0 208.0 108.0 118.0 139.25
56 E00091 19710 2010001034861 Chuo Built Industry Co., Ltd. 2014 FY 2015-06-24 2014-04-01 2015-03-31 S10053TB ... 7.78 7.41 31.99 14.01 1.69 139.0 208.0 108.0 118.0 139.25
df_14 = pd.read_csv('../data/finance_reports/2014/2014/documents.csv', sep='\t')
df_14 = df_14.groupby('edinet_code').max().reset_index()
df_14_part = df_14[['filer_name', 'fiscal_year', 'roa']]
dup_name = df_14_part[df_14_part['filer_name'].duplicated()].iloc[0]['filer_name']
df_14[df_14_part['filer_name'] == dup_name][['edinet_code', 'sec_code', 'jcn', 'filer_name', 'fiscal_year', 'fiscal_period', 'submit_date']]
edinet_code sec_code jcn filer_name fiscal_year fiscal_period submit_date
245 E00484 28140 5180001075845 Sato Food Industry Co., Ltd.2014 FY 2015-06-26
263 E00510 29230 8110001002068 Sato Food Industry Co., Ltd.2014 FY 2015-07-24
df_14 = pd.read_csv('../data/finance_reports/2014/2014/documents.csv', sep='\t')
df_14 = df_14.groupby('edinet_code').max().reset_index()
df_15 = pd.read_csv('../data/finance_reports/2015/2015/documents.csv', sep='\t')
df_15 = df_15.groupby('edinet_code').max().reset_index()
df_16 = pd.read_csv('../data/finance_reports/2016/2016/documents.csv', sep='\t')
df_16 = df_16.groupby('edinet_code').max().reset_index()
df_17 = pd.read_csv('../data/finance_reports/2017/2017/documents.csv', sep='\t')
df_17 = df_17.groupby('edinet_code').max().reset_index()
df_18 = pd.read_csv('../data/finance_reports/2018/2018/documents.csv', sep='\t')
df_18 = df_18.groupby('edinet_code').max().reset_index()
df = pd.concat([df_14, df_15, df_16, df_17, df_18])
df = df[~df.duplicated()]
df[df['filer_name'].isin(['Sato Food Industry Co., Ltd.', 'Alpha Co., Ltd.', 'Fujiko Co., Ltd.'])]
print(len(df[df['roe'] < 0]))
>>> 0
ROE (Capital Profit Margin) de l'affichage du Japon
df[df['edinet_code'] == 'E30481'][['edinet_code', 'filer_name', 'fiscal_year', 'roe']]
edinet_code filer_name fiscal_year roe
3160 E30481 Japan Display Co., Ltd. 2014 4.13
3196 E30481 Japan Display Co., Ltd. 2015 2.92
3270 E30481 Japan Display Co., Ltd. 2016 10.64
2884 E30481 Japan Display Co., Ltd. 2018734.39
Étant donné que l'exactitude des données n'est pas bonne, aucune autre analyse ne sera effectuée pour le moment.
Le rapport RSE étant au format pdf, il faut plusieurs étapes à utiliser pour l'analyse.
Merci d'inclure le code edinet dans le nom du fichier (avec cela, il est facile de lier avec d'autres informations).
J'ai pensé essayer d'extraire des informations de l'utilisation des couleurs du rapport RSE, du nombre de photos, du nombre de caractères, etc., mais combien cela coûterait-il pour GCP?
Dans tous les cas, je ne sais pas si les données de performances à prendre en charge sont correctes, arrêtons donc l'analyse.
Veuillez me faire savoir s'il y a une erreur dans l'analyse.
Je ne pense pas qu'il y ait d'erreur uniquement pour TIS. .. ..
Recommended Posts